Buzz：开箱即用，一键语音转文字并翻译

众所周知，OpenAI Whisper 是一个功能强大且准确率很高的语音转文字工具，但对于普通用户来说，直接使用它还是存在一定的难度。在这里推荐 GitHub 上一款基于 Whisper 开发的音频转录和翻译工具 Buzz。

github_practical_buzz_1

它是一个完全开源免费、界面简洁且易于使用的工具，能够一键将音频或视频中的语音转换为文本，并且可在本地电脑上离线运行。

github_practical_buzz_2

文件导入

导入文件非常简单，只需按以下步骤操作：

在文件菜单中点击“导入媒体文件”（或工具栏上的“+”图标，或者按 Command/Ctrl + O）。
选择一个音频或视频文件。
选择任务、语言和模型设置。
点击“运行”。
当转录状态显示“完成”时，双击该行（或选择该行并点击“⤢”图标）以打开转录内容。

字段	选项	默认值	描述
导出为	"TXT", "SRT", "VTT"	"TXT"	导出文件格式
单词级时间戳	关闭 / 开启	关闭	如果选中，转录将为音频中的每个单词生成单独的字幕行。仅在“导出为”设置为“SRT”或“VTT”时启用。

github_practical_buzz_4

实时录音

要开始实时录音，请按以下步骤操作：

选择一个录音任务、语言、质量和麦克风。
点击“录音”。

github_practical_buzz_5

注意： 使用默认的 Whisper 模型进行音频转录需要大量资源。建议使用 Whisper.cpp Tiny 模型以获得实时性能。

字段	选项	默认值	描述
任务	"转录", "翻译"	"转录"	“转录”将输入音频转换为所选语言的文本，而“翻译”将其转换为英文文本。
语言		"检测语言"	"检测语言"将尝试根据前几秒的音频检测所说的语言。然而，推荐选择语言（如果已知），因为这会在很多情况下提高转录质量。
质量	"非常低", "低", "中", "高"	"非常低"	转录质量决定了用于转录的 Whisper 模型。“非常低”使用“tiny”模型；“低”使用“base”模型；“中”使用“small”模型；“高”使用“medium”模型。较大的模型生成更高质量的转录，但需要更多系统资源。
麦克风	[可用的系统麦克风]	[默认系统麦克风]	录音输入音频的麦克风。

github_practical_buzz_6

录制电脑播放的音频（macOS）

要录制计算机上应用程序播放的音频，可以安装音频回环驱动程序（一个允许您创建虚拟音频设备的程序）。以下指南将使用BlackHole在 Mac 上进行，但您可以根据操作系统使用其他替代方案（例如LoopBeAudio、LoopBack和Virtual Audio Cable）。

通过 Homebrew 安装 BlackHole

    
    brew install blackhole-2ch

从 Spotlight 或 /Applications/Utilities/Audio Midi Setup.app 打开音频 MIDI 设置。
点击左下角的“+”图标并选择“创建多输出设备”。
将默认扬声器和 BlackHole 添加到多输出设备中。
将此多输出设备选择为您的扬声器（应用程序或系统范围）以将音频播放到 BlackHole。
打开 Buzz，选择 BlackHole 作为麦克风，并按之前的步骤录制以查看通过 BlackHole 播放的音频的转录内容。

录制电脑播放的音频（Windows）

要转录系统音频，需要配置虚拟音频设备，并将您要转录的应用程序的输出连接到此虚拟扬声器。然后可以在 Buzz 中选择它作为音源。

安装VB CABLE作为虚拟音频设备。
使用 Windows 声音设置进行配置。右键单击系统托盘中的扬声器图标并选择“打开声音设置”。在“选择您的输出设备”下拉菜单中选择“CABLE 输入”以将所有系统声音发送到虚拟设备，或使用“高级声音选项”选择将声音输出到该设备的应用程序。

录制电脑播放的音频（Linux）

如Ubuntu Wiki所述，在任何带有 pulse audio 的 Linux 上，您都可以将应用程序音频重定向到虚拟扬声器。然后可以在 Buzz 中选择它作为音源。

总体步骤：

启动将产生您想要转录声音的应用程序并开始播放。例如，在媒体播放器中启动视频。
启动 Buzz 并打开实时录音屏幕，以便查看设置。
在 PulseAudio 音量控制（pavucontrol）的 录音 选项卡中，配置要转录声音的应用程序的声音路由到 Buzz。

安装

PyPI:

    
    pip install buzz-captions
python -m buzz

macOS:

    
    brew install --cask buzz

Windows:

下载并运行发布页面中的 .exe 文件。

Linux:

    
    sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module
sudo snap install buzz
sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media

Buzz 作为一个免费开源的语音转文字和翻译工具，其功能强大且易于使用。对于需要处理大量音频内容的用户来说，它无疑是一个得力助手。无论是文件导入还是实时录音，它都提供了详细的设置选项，让用户可以根据需求灵活调整。同时，Buzz 还支持翻译功能，对于需要多语言处理的场景也非常友好。