Buzz:开箱即用,一键语音转文字并翻译

Buzz 是一个基于 OpenAI Whisper 的开源工具,提供语音转文字和翻译功能,界面简洁易用,支持本地离线运行。
直达下载
回到上一页
clickgpt_line.png_noView
介绍

众所周知,OpenAI Whisper 是一个功能强大且准确率很高的语音转文字工具,但对于普通用户来说,直接使用它还是存在一定的难度。在这里推荐 GitHub 上一款基于 Whisper 开发的音频转录和翻译工具 Buzz

github_practical_buzz_1

它是一个完全开源免费、界面简洁且易于使用的工具,能够一键将音频或视频中的语音转换为文本,并且可在本地电脑上离线运行。

github_practical_buzz_2

文件导入

导入文件非常简单,只需按以下步骤操作:

  1. 在文件菜单中点击“导入媒体文件”(或工具栏上的“+”图标,或者按 Command/Ctrl + O)。

  2. 选择一个音频或视频文件。

  3. 选择任务、语言和模型设置。

  4. 点击“运行”。

  5. 当转录状态显示“完成”时,双击该行(或选择该行并点击“⤢”图标)以打开转录内容。

    github_practical_buzz_3

| 字段 | 选项 | 默认值 | 描述 |
| ------------ | ------------------- | ------ | ------------------------------------------------------------ |
| 导出为 | "TXT", "SRT", "VTT" | "TXT" | 导出文件格式 |
| 单词级时间戳 | 关闭 / 开启 | 关闭 | 如果选中,转录将为音频中的每个单词生成单独的字幕行。仅在“导出为”设置为“SRT”或“VTT”时启用。 |

github_practical_buzz_4

实时录音

要开始实时录音,请按以下步骤操作:

  1. 选择一个录音任务、语言、质量和麦克风。
  2. 点击“录音”。

github_practical_buzz_5

注意: 使用默认的 Whisper 模型进行音频转录需要大量资源。建议使用 Whisper.cpp Tiny 模型以获得实时性能。

| 字段 | 选项 | 默认值 | 描述 |
| ------ | -------------------------- | ---------------- | ------------------------------------------------------------ |
| 任务 | "转录", "翻译" | "转录" | “转录”将输入音频转换为所选语言的文本,而“翻译”将其转换为英文文本。 |
| 语言 | | "检测语言" | "检测语言"将尝试根据前几秒的音频检测所说的语言。然而,推荐选择语言(如果已知),因为这会在很多情况下提高转录质量。 |
| 质量 | "非常低", "低", "中", "高" | "非常低" | 转录质量决定了用于转录的 Whisper 模型。“非常低”使用“tiny”模型;“低”使用“base”模型;“中”使用“small”模型;“高”使用“medium”模型。较大的模型生成更高质量的转录,但需要更多系统资源。 |
| 麦克风 | [可用的系统麦克风] | [默认系统麦克风] | 录音输入音频的麦克风。 |

github_practical_buzz_6

录制电脑播放的音频(macOS)

要录制计算机上应用程序播放的音频,可以安装音频回环驱动程序(一个允许您创建虚拟音频设备的程序)。以下指南将使用BlackHole在 Mac 上进行,但您可以根据操作系统使用其他替代方案(例如LoopBeAudio、LoopBack和Virtual Audio Cable)。

  1. 通过 Homebrew 安装 BlackHole

        
    brew install blackhole-2ch
    
  2. 从 Spotlight 或 /Applications/Utilities/Audio Midi Setup.app 打开音频 MIDI 设置。

    github_practical_buzz_7

  3. 点击左下角的“+”图标并选择“创建多输出设备”。

    github_practical_buzz_8

  4. 将默认扬声器和 BlackHole 添加到多输出设备中。

    github_practical_buzz_9

  5. 将此多输出设备选择为您的扬声器(应用程序或系统范围)以将音频播放到 BlackHole。

  6. 打开 Buzz,选择 BlackHole 作为麦克风,并按之前的步骤录制以查看通过 BlackHole 播放的音频的转录内容。

录制电脑播放的音频(Windows)

要转录系统音频,需要配置虚拟音频设备,并将您要转录的应用程序的输出连接到此虚拟扬声器。然后可以在 Buzz 中选择它作为音源。

  1. 安装VB CABLE作为虚拟音频设备。
  2. 使用 Windows 声音设置进行配置。右键单击系统托盘中的扬声器图标并选择“打开声音设置”。在“选择您的输出设备”下拉菜单中选择“CABLE 输入”以将所有系统声音发送到虚拟设备,或使用“高级声音选项”选择将声音输出到该设备的应用程序。

录制电脑播放的音频(Linux)

如Ubuntu Wiki所述,在任何带有 pulse audio 的 Linux 上,您都可以将应用程序音频重定向到虚拟扬声器。然后可以在 Buzz 中选择它作为音源。

总体步骤:

  1. 启动将产生您想要转录声音的应用程序并开始播放。例如,在媒体播放器中启动视频。
  2. 启动 Buzz 并打开实时录音屏幕,以便查看设置。
  3. 在 PulseAudio 音量控制(pavucontrol)的 录音 选项卡中,配置要转录声音的应用程序的声音路由到 Buzz。

安装

PyPI:

    
pip install buzz-captions
python -m buzz

macOS:

    
brew install --cask buzz

Windows:

下载并运行 发布页面 中的 .exe 文件。

Linux:

    
sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-module
sudo snap install buzz
sudo snap connect buzz:audio-record
sudo snap connect buzz:password-manager-service
sudo snap connect buzz:pulseaudio
sudo snap connect buzz:removable-media

Buzz 作为一个免费开源的语音转文字和翻译工具,其功能强大且易于使用。对于需要处理大量音频内容的用户来说,它无疑是一个得力助手。无论是文件导入还是实时录音,它都提供了详细的设置选项,让用户可以根据需求灵活调整。同时,Buzz 还支持翻译功能,对于需要多语言处理的场景也非常友好。

编程学习
编程学习 免费领取编程学习资料 进编程学习交流群
订阅号
视频号
公众号 关注公众号,回复关键字java领取大厂最新面试题
×
编程学习
免费领取编程学习资料 进编程学习交流群