今天又接触到了一个 Windows 的语音输入法,叫做闪电说。它和 Wispr Flow 没有什么区别,只是在允许了,也仅使用本地的语音大模型。

因为它用的是本地的语音大模型,所以它的速度就极快,也可以自己指定使用哪个本地的大模型,这就略吃一定的电脑的内存和显存。

也由于它是在本地处理,只能使用本地的模型,所以它本身的识别准确率并不是特别高,只是速度很快。于是就需要一个外挂的设备,一个专门的适合录音说话的麦克风。因为它本质上是在录制 WAV 格式的音频,然后本地端侧转文本,然后还可以接上一个 API 大模型来去纠错。

目前我可以感受到的是,对于电脑配置比较好的,例如啊游戏本或台式机,那么闪电说是远快于 Wispr Flow 的。但对于我的轻薄本,没有独立显卡的电脑来说,内存也比较吃紧的电脑来说,速度其实和 Wispr Flow 差不多。

而且闪电说和 Wispr Flow 有一个共同的缺点,就是它们非常依赖于收到的录音的准确性和清晰程度。所以最好需要能有一个很专业的录音设备、收音设备。

Wispr Flow 是要把录音发送到云端处理之后再发送回来,自带很高的延迟。闪电说没有这个延迟,全凭主机的处理速度快慢。

所以对我来说,无论是用闪电说还是 Wispr Flow, 重要的都是要有一个更好的专业收音设备。

之后这两个软件都做不到流式输出,做不到像手机上的豆包输入法和传统的输入法的语音输入一样,可以实时地显示出前面已经识别好的内容。

事实上这个应该是完全可以做到的,而且可以在整段文本识别好后,再调一次 AI 纠错的 API 来对整段文本做一次纠错。

我觉得这种输出很快的语音输入法能及时给用户一个积极反馈,尤其是对那些脑中已有一些想法的用户。

但是优质的想法和分享应该都需要我们二次打磨。

以上内容是先在手机上用豆包输入法语音输入的,然后在电脑上写md的时候再用闪电说补充了一些内容。

就目前来说,我觉得手机上的豆包输入法的语音输入效果体感是最好的。它不仅有流式输出,还有较好的准确率和速度。体验效果觉得好的原因很可能是因为嘴离手机比较近,手机麦克风质量比较好,因此准确率较高。

⚡️ 闪电说 V0.5.0 正式发布

我们问了自己一个危险的问题:
“闪电说,是全球最快的 AI 语音输入法吗?”

🎬 实测: 用闪电说配合 Claude Code 写代码(视频无加速)

📊 2023版 Mac Pro 测试数据:0.12s 延迟

⚡️ 0.12秒 = 话音还未落,文字已上屏

这速度,够不够快?👇

支持 Mac/Win,下载地址见 闪电说,AI语音输入法