2. 人声与背景声分离——SpeeterGUI

最近在做音频处理相关的工作,主要有以下几个好用的工具。

1. 语音转文字——whisper

这是一款由OpenAI开发的语音转文字工具,项目地址位于:openai/whisper.

这个工具是用来生成字幕的,现在的很多视频编辑软件也有“一键生成字幕”的功能。使用此工具需要提前安装好PyTorch和ffmpeg(做音视频的基本绕不开它),具体的安装过程大家可以参考使用文档,文档里写得比较详细。

在命令行中使用

基本使用方法如下:

whisper audio.mp3 --model medium
--model

执行完成后你就能在当前目录下找到生成的字幕文件了。第一次使用时会从网上下载模型,需要点时间。

执行以下命令获取更多帮助:

whisper --help

作为Python库使用

使用示例如下:

import whisper  # 导入whisper库
model = whisper.load_model("base")  # 加载模型, 这里加载的是base模型
result = model.transcribe("audio.mp3") # 处理音频文件audio.mp3
print(result["text"]) # 得到处理后的文本
2. 人声与背景声分离——SpeeterGUI

如果一段音频里有人声,还有背景音乐,使用这个工具就可以将人声与背景音乐分离开。项目的地址位于:deezer/spleeter.

不过,更推荐大家使用基于此应用开发的图形界面工具SpeeterGUI:

下载地址位于https://makenweb.com/SpleeterGUI. 环境已经帮你配置好了,用起来非常方便。如果使用时报错,可以在这里找到常见问题的解答。

3. 传统音频处理工具
librosalibrosa
import librosa
n_second = librosa.get_duration(path='C:\\music.mp3')

其它用法还请大家自行查阅文档。