2. 人声与背景声分离——SpeeterGUI
- 作者: 五速梦信息网
- 时间: 2026年04月04日 13:54
最近在做音频处理相关的工作,主要有以下几个好用的工具。
1. 语音转文字——whisper这是一款由OpenAI开发的语音转文字工具,项目地址位于:openai/whisper.
这个工具是用来生成字幕的,现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg(做音视频的基本绕不开它),具体的安装过程大家可以参考使用文档,文档里写得比较详细。
在命令行中使用
基本使用方法如下:
whisper audio.mp3 --model medium
--model
执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型,需要点时间。
执行以下命令获取更多帮助:
whisper --help
作为Python库使用
使用示例如下:
import whisper # 导入whisper库
model = whisper.load_model("base") # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3") # 处理音频文件audio.mp3
print(result["text"]) # 得到处理后的文本
2. 人声与背景声分离——SpeeterGUI
如果一段音频里有人声,还有背景音乐,使用这个工具就可以将人声与背景音乐分离开。项目的地址位于:deezer/spleeter.
不过,更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI:

下载地址位于https://makenweb.com/SpleeterGUI. 环境已经帮你配置好了,用起来非常方便。如果使用时报错,可以在这里找到常见问题的解答。
3. 传统音频处理工具librosalibrosa
import librosa
n_second = librosa.get_duration(path='C:\\music.mp3')
其它用法还请大家自行查阅文档。
- 上一篇: 2. 事件委托(Event Delegate)
- 下一篇: 2. 创建PostProcessStage
相关文章
-
2. 事件委托(Event Delegate)
2. 事件委托(Event Delegate)
- 互联网
- 2026年04月04日
-
2. 正则表达式中的一些高级规则
2. 正则表达式中的一些高级规则
- 互联网
- 2026年04月04日
-
2.0 补充nlpcda一键中文数据增强工具(NLP Chinese Data Augmentation )
2.0 补充nlpcda一键中文数据增强工具(NLP Chinese Data Augmentation )
- 互联网
- 2026年04月04日
-
2. 创建PostProcessStage
2. 创建PostProcessStage
- 互联网
- 2026年04月04日
-
2. 创建HTML5页面
2. 创建HTML5页面
- 互联网
- 2026年04月04日
-
2. sklearn.decomposition.PCA参数介绍
2. sklearn.decomposition.PCA参数介绍
- 互联网
- 2026年04月04日






