原因 : python版本3.10.x,不行,得用3.9.x

主要就是有的依赖还不支持3.10.x

https://github.com/babysor/MockingBird/blob/main/README-CN.md

今天在肝声音样本,阿里云识别的文字挺准的,就是轴打的有点歪,得自己校对一下

等我肝完了再总结吧

总结一下前期准备:

我的音频准备方法:

  • 首先我是在B站上下的视频,然后用格式工厂转换一下格式
  • 用videostr给音频打出字幕https://github.com/wxbool/video-srt-windows (阿里云要开对象存储OSS和语音识别服务,打完2个小时的轴,对象存储扣了我0.02元,语音识别的费用好像还没出)
  • 可以用Aegisub来校对字幕文件准确性https://github.com/Aegisub/Aegisub
  • 然后我用C#写了个小程序来根据字幕文件来自动剪辑音频文件(等我有空整理出来分享)(整理好了)
  • https://github.com/jk6589jk/Learn_wav-split-script
  • 可以用SpleeterGUI分离背景音乐…(之前2小时的音频直接分离都给我爆内存了,所以吸取教训之后先剪完再分离,但不知道效果怎么样…)

我现在还在用SpleeterGUI去除背景音乐…有点慢啊

然后就没有然后了,后面我还没做呢,等我做完了再更新


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注