首页 - 互联网

2. 人声与背景声分离——SpeeterGUI

作者: 五速梦信息网
时间: 2026年05月04日 13:55

最近在做音频处理相关的工作，主要有以下几个好用的工具。

1. 语音转文字——whisper

这是一款由OpenAI开发的语音转文字工具，项目地址位于：openai/whisper.

这个工具是用来生成字幕的，现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg（做音视频的基本绕不开它），具体的安装过程大家可以参考使用文档，文档里写得比较详细。

在命令行中使用

基本使用方法如下：

whisper audio.mp3 --model medium

--model

执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型，需要点时间。

执行以下命令获取更多帮助：

whisper --help

作为Python库使用

使用示例如下：

import whisper  # 导入whisper库
model = whisper.load_model("base")  # 加载模型, 这里加载的是base模型

result = model.transcribe("audio.mp3")  # 处理音频文件audio.mp3

print(result["text"])  # 得到处理后的文本

2. 人声与背景声分离——SpeeterGUI

如果一段音频里有人声，还有背景音乐，使用这个工具就可以将人声与背景音乐分离开。项目的地址位于：deezer/spleeter.

不过，更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI：

下载地址位于https://makenweb.com/SpleeterGUI. 环境已经帮你配置好了，用起来非常方便。如果使用时报错，可以在这里找到常见问题的解答。

3. 传统音频处理工具

librosalibrosa

import librosa
n_second = librosa.get_duration(path='C:\\music.mp3')

其它用法还请大家自行查阅文档。

上一篇： 2. 事件委托(Event Delegate)
下一篇： 2. 创建PostProcessStage

2. 人声与背景声分离——SpeeterGUI

在命令行中使用

作为Python库使用

相关文章

2. 事件委托(Event Delegate)

2. 正则表达式中的一些高级规则

2.0 补充nlpcda一键中文数据增强工具（NLP Chinese Data Augmentation ）

2. 创建PostProcessStage

2. 创建HTML5页面

2. sklearn.decomposition.PCA参数介绍

小米的印度工厂关闭了吗

小米的电动跑车预计在什么价

小米打印机彩色打印手机怎么设置

tvN收视前十的韩剧，“请回答”导演霸榜

多梦笔记完整版在线免费阅读

白鹿粉色深V

测试文章2

测试文章1