FluidVoice:macOS 上最快的离线听写工具

今天在 GitHub Trending 上刷到一个狠角色:FluidVoice,一天涨了 800+ Star,号称「macOS 上最快的离线听写 App」。

市面上的语音转文字方案要么需要联网(隐私没保障),要么延迟感人(说完了半秒后字才蹦出来),要么贵得离谱。FluidVoice 的卖点是:全本地运行、近乎零延迟、开源免费。看了下项目文档,功能设计确实有亮点,分享一下。

FluidVoice 界面

核心亮点

1. 快到离谱的 Parakeet 引擎

FluidVoice 用的是 NVIDIA 的 Parakeet 系列语音模型,做了原生 macOS 适配。据官方描述,说话的同时字就已经出现在屏幕上了。

这不是云端 API 那种「说完→上传→等服务器→返回」的流程,而是你的 Mac 本地芯片直接跑模型,声音进去文字出来,端到端在你机器上完成。

2. Fluid Intelligence:本地 AI 增强

这是最有意思的部分。光把语音转成文字还不够——你说话的时候可能有口音、断句不规范、专有名词识别错误。Fluid Intelligence 是一个跑在本地的 AI 后处理层,负责:

  • 智能格式化:自动加标点、分段
  • 上下文感知大写:知道哪些词该大写
  • 后处理优化:让转录结果更干净准确

关键点:这些全部在本地完成,不需要 API Key,数据不离开你的 Mac

3. Command Mode:用嘴控制 Mac

除了听写,FluidVoice 还支持语音命令模式:

  • 启动应用
  • 执行快捷指令
  • 触发系统操作
  • 自动化工作流

动嘴不动手,从听写工具升级成了语音助手。

FluidVoice 历史记录与转录详情

4. Write Mode:在任何输入框里写东西

选中任何 App 里的文本,直接用语音重写或者追加新内容。不用切换窗口,不用复制粘贴。

支持的语音模型

FluidVoice 不绑定单一模型,支持 6 套引擎,按需选择:

模型 最佳场景 语言支持 体积
Nemotron Speech 3.5 超低延迟多语言 ~40 种 ~670MB
Parakeet Flash 英语最低延迟 英语 ~250MB
Parakeet TDT v3 快速多语言(默认) 25 种 ~500MB
Cohere Transcribe 高精度多语言 14 种 ~1.4GB
Apple Speech 零下载原生 跟随系统 内置
Whisper(各版本) 广泛兼容 99 种 75MB~2.9GB

支持中文(Parakeet TDT v3 和 Whisper 系列),所以国内用户完全可以用。

安装方式

一行命令搞定:

1
brew install --cask fluidvoice

或者去 GitHub Releases 手动下载。

安装后给个麦克风和辅助功能权限,设个全局热键,选个语音模型,就能用了。

隐私设计

FluidVoice 的隐私策略不是「我们承诺不上传你的数据」,而是架构层面就没办法上传

  • 语音处理 → 本地模型
  • AI 增强(Fluid Intelligence)→ 本地运行
  • 音频历史 → 本地存储
  • 云端 AI(OpenAI/Groq)→ 可选,默认关闭

对于涉及敏感内容的场景(商业文档、私人笔记),这种「物理隔离」比任何隐私承诺都靠谱。

开源 & 免费

GPLv3 开源,代码全在 GitHub 上。Fluid Intelligence(AI 增强层)目前闭源但免费使用,作者说后续可能开放。

如果你也在找一个好用的 macOS 语音输入方案,FluidVoice 值得一试。


项目地址github.com/altic-dev/FluidVoice

安装brew install --cask fluidvoice

License:GPLv3

要求:Apple Silicon Mac(Intel Mac 只能用 Whisper 模型)