如果不是这波大模型的爆发,没人会想到「输入法」这个早已被视为「基础设施」的赛道,会在 2025 年下半年突然变得性感起来。
过去两个月,语音输入领域的消息密度有点夸张:
国内:字节的豆包输入法结束内测,正式登陆各大应用商店(iOS 和安卓都有了);微信输入法也在持续迭代,强化 AI 辅助功能;大模型六小虎的智谱也开始内测智谱 AI 输入法。
海外:Wispr(Whisper Flow)近期宣布完成 2500 万美元 A 轮融资,累计融资额达 8100 万美元;Typeless 在 Product Hunt 上线首日登顶,引发效率工具圈层的关注,团队也在开发移动端版本。

虽然这些产品表面上都是「语音转文字」的输入工具,但实际上各家厂商的底层逻辑与产品打法截然不同,基本可以划分成三个阵营:
1、桌面端 SaaS 派:以 Wispr 和 Typeless 为代表的,它们面向核心办公人群,主打高效率的生产力场景;
2、移动端大厂派:以豆包和微信输入法为代表,依托庞大的生态流量覆盖全场景社交;
3、小成本极客派:是以 Whisper Keyboard 和闪电说为代表的本地化或独立开发路线。
后面会有一些少样本的测试,但在那之前,输入法是一个需要长期使用的产品,不同的场景、不同的输入内容、不同的设备都会造成完全不一样的用户体验,所以我们先从主观角度,提供一些参考观点:
为了厘清这些产品背后的差异与实际表现,我们做了一个测试。
先说结论:桌面端最佳是 Typeless,移动端最佳是豆包输入法。
我们构建了一个刁钻的测试场景,模拟了一位科技公司产品经理在焦虑状态下的会议发言,刻意包含了生僻成语、高频互联网黑话、中英混排、剧烈的情绪波动以及复杂的数字日期格式。如下:
关于 OpenAI 最新发布的 Sora 模型,我昨晚仔细读了那篇 Technical Report。但是!咱们现在的 GPU 算力完全不够!你们看一眼后台的 Dashboard,现在的 QPS 已经爆了!我之前反复强调过,Transformer 架构的优化是重中之重,为什么直到 Deadline 还是这个样子?现在的代码简直就是冗余!Bug 满天飞!能不能不要总是互相 掣肘,整天对别人的资源 觊觎不已?这种 沆瀣一气的办公室政治,我真的受够了!唉,那个…… 叫什么来着…… 对,王若虚跟我说,只要预算能控制在 ¥50,000.00 以内,或者…… 嗯…… 在 2025 年 1 月 1 号 之前上线,哪怕是 Beta 版本,老板也能接受。听明白了吗?
【特别提示:这个测试是非常极端的场景,测试的所有产品中,也许个别并不适用这一场景,所以结果仅供参考。】
测试结果如下:

*延迟测试方法:将音频波形完全归零(说话结束)的时刻定义为 t0,将屏幕上转写文字完全上屏且不再变动的时刻定义为 t1,通过公式 d=t1-t0 计算出各款产品的大致延迟时长。
根据测试结果,我们又绘制了一份四象限图。
X 轴(横向):延迟时间(越靠左越快,越靠右越慢)。
Y 轴(纵向):转写质量(越靠上越好,越靠下越差)。
因此,四个象限分别代表:
左上角(第一梯队):【全能型】 又快又好(理想状态)。
右上角(第二梯队):【思考型】 慢但质量高(思考模式)。
左下角(第三梯队):【急躁型】 快但质量差(传统语音识别)。
右下角(第四梯队):【低效型】 慢且质量差(需淘汰)。

如果你追求「所想即所得」的深度写作体验,Typeless 是当下的最优解。尽管它在测试中有着约 3.05 秒的延迟,但这段时间并非无效等待——它成功删除了口语中的废话,修正了英文大小写与标点格式,直接交付了可用的成稿。
如果您需要「绝对准确」的会议记录或逻辑梳理,豆包的表现最为惊艳。在测试中,它是唯一一个能根据上下文逻辑,准确区分发音极度相似的「直到」与「知道」的产品。2.05 秒的处理时间换来的是逻辑层面的高准确度。
而在高频的日常社交场景中,微信输入法依然具有统治力。1.08 秒的极速响应让它在即时通讯中拥有难以撼动的「跟手感」,中文识别准确且稳定,虽然在专业术语排版上稍显不足,但足以应对碎片化沟通。
相比之下,苹果自带听写作为对照组,表现是最差的。
闪电说在面对专业术语与中英混输场景时表现堪忧,对于专业类场景,基本处于不可用状态。
备受资本关注的 Wispr 虽然在英文识别上表现尚可,但在本次测试中出现了长达 10.14 秒的延迟,这种「掉线感」严重阻断了交互的心流,体验有待优化。
以 Wispr 和 Typeless 为代表的创业公司资源有限,他们选择了一条垂直的路径:瞄准桌面端的知识工作者,通过 SaaS 订阅模式提供高附加值服务。
相比移动端高昂的流量获客成本,桌面端工具能以更少的资源撬动核心办公人群。这部分用户付费意愿强、痛点清晰,团队能迅速获得正向现金流反馈,从而支撑产品的持续迭代,跑通「小而美」的商业闭环。
从技术落地角度看,桌面端的声学环境相对封闭且稳定(通常是安静的办公室或书房),避开了移动端复杂的环境噪音、移动抖动和碎片化场景。这种相对「简单」的环境,让创业公司能更专注于打磨 AI 的语义处理能力,而非陷入声学降噪的泥潭。
作为该赛道的明星项目,Wispr 目前已经累计 8100 万美元的融资额,有 270 家福布斯 500 强公司成为了其客户。
Wispr 的核心亮点在于极强的语境感知能力,它能够根据用户当前使用的应用程序自动调整转写文本的语气和风格——无论是撰写正式的商务邮件,还是在 Slack 上进行非正式沟通。

同样是一个「hello」,在 Gmail 中最正式,大写开头、带标点;在短信中最随意|图片来源:Wispr
在实际应用案例中,有的用户通过 Wispr 完成了 4 本书籍的写作,甚至有用户通过 Wispr 实现了边跑马拉松边编程,展示了语音交互在复杂生产力场景下的潜力。

来自荷兰的开发者 Tijs Nieuwboer,通过背包里的 Macbook、AR 眼镜、任天堂 Switch 手柄和 Wispr 的语音交互,实现了边跑马拉松边编程|图片来源:Wispr
然而,在本次针对中文环境的实测中,Wispr 的表现显得「水土不服」。虽然其英文识别能力尚可,但在处理中英混排的测试文本时,对中文成语的理解出现了偏差。

Wispr 转译结果
更致命的,是其高达 10.14 秒的延迟,在即时交互中产生了明显的割裂感。这或许与其网络环境有关,但也侧面反映出,对于国内的普通用户而言,这款硅谷明星产品目前的体验门槛依然较高。
相比之下,Typeless 在本次评测中则展现出了更成熟的「完成度」。虽然两者的产品逻辑高度相似,都主打「写作辅助」而非单纯的听写,但 Typeless 在 3.05 秒的处理时间内,出色地完成了去口语化、自动纠错和格式排版的工作。

Typeless 转译结果
它像是一个经验丰富的速记员,不仅听到了你的声音,更整理了你的思绪。对于需要频繁进行长文写作或文档梳理的用户来说,Typeless 提供的「精修后」文本,极大地降低了二次编辑的成本,是目前桌面端体验较为均衡的选择。
基于这种上下文理解、重新编排的能力,Typeless 还做了一些功能点的创新。
例如,将口语化的内容分点列出。

将文字撰写成邮件格式。

或者是翻译选取的文字。

另外,桌面端的产品,普遍追求无感的使用体验,通常只需要按下一个键就可以直接输入。产品在使用过程中追求极简的交互,UI 最小化。

Typeless 在使用过程中,只在屏幕低端中间位置有一个小的 UI 显示正在录音和转录。
随着这类形态的走红,国内也迅速出现了智谱 AI 输入法等跟随者。
部分产品在界面设计和引导流程上几乎完全复刻了 Typeless,展现了极快的跟进速度。但在内核体验上,目前的版本在稳定性与细节打磨上仍有差距,尚需时间迭代以证明其实际价值。
与桌面端创业公司追求「小而美」的 SaaS 模式不同,国内大厂在移动端的竞争更多是基于战略层面的考量。
依托雄厚的资金与技术储备,大厂的目标从来不是赚取微薄的订阅费,而是覆盖全人群。输入法不仅是工具,更是连接用户与生态的超级入口。
但这种战略高地的占领成本极高。相比桌面端,移动端场景的复杂度呈指数级上升——不仅要应对地铁、街道等各种嘈杂的声学环境,还要解决不稳定的网络传输,更要在 iOS 等封闭系统中与严苛的后台机制博弈。
在本次测试中,豆包贡献了全场最佳的语义理解表现。面对测试文本中极易混淆的「直到」与「知道」,豆包是唯一一款能够根据上下文逻辑做出正确判断的产品。

豆包转译结果
对于追求极致语音识别率的移动端用户而言,豆包提供了当前第一梯队的体验。
美中不足的是,相比在 Android,豆包输入法在 iOS 端的体验要打一些折扣。受限于苹果严格的隐私与后台机制,豆包语音转文字功能需要跳转 App 才能实现。
为了绕过系统的后台限制,豆包采取了较为激进的策略,将持续录音的权限时间延长至半小时甚至永久。

相比之下,微信输入法的策略显得更为保守,每次语音转录都需要跳转 App。
但相比桌面端产品,移动端输入法有个明显的特点:它有占据半个屏幕的 UI。因为用户界面空间的占用,移动端输入法往往也会提供更多的功能,比如搜索、斗图,甚至微信输入法可以直接触达小程序,也有花样的字体、将输入文字排版为长图等功能。
另外,移动端用户体验的细节更加密集,如按键「跟不跟手」、「震动好不好」,「功能 UI 位置排列」,「工具栏定制规则」等等,甚至还有服务最广众用户时需要考虑的辅助输入、手写输入等等。
对于豆包输入法来说,他们找到了语音输入这个非常好的切入口,短期内拥有全网最佳的中文语音输入体验,但如何获取更多用户,
作为国民级社交软件的衍生品,它的核心任务并非展示最前沿的技术肌肉,而是提供最流畅的社交体验。在测试中,其 1.08 秒的响应速度非常契合了微信聊天的快节奏需求,中文识别也很稳定。

微信输入法转录结果
除了核心的语音识别功能,微信输入法将更多精力投入到了与微信生态的深度融合上:从聊天中的表情包推荐、内容分享,到跨设备的剪贴板同步,每一项功能都旨在服务用户在微信生态内的场景。

微信输入法更像是一个「中间态」产品。对于绝大多数普通用户而言,微信输入法或许不是最「聪明」的,但一定是用起来最顺手、最无缝的那一个。
值得注意的是,相比主打桌面端文档处理的 Typeless 等产品,移动端的豆包和微信输入法呈现出了截然不同的「性格特征」。
在测试中,它们都没有对文字进行复杂的段落排版,对英文大小写的规范也比较随意(例如将 Sora 识别为 sora)。
这是因为移动端场景导致的。移动端的交互核心是即时通讯而非文档写作。在碎片化的聊天气泡中,用户难以容忍 3 秒以上的「思考时间」,却完全可以接受非正式的英文拼写。
在云端大模型与大厂生态的双重挤压下,留给独立开发者和纯工具类产品的生存空间正在被极度压缩。
例如曾经在独立开发圈小有名气的产品,Whisper Keyboard 在本次评测中显得有些力不从心,无法支持一分钟以上的长语音输入,在短句响应速度和识别准确率上也落后于其他新产品。
但这并不是公平的对比(我们只是很想 cue 到这个当初非常喜欢的产品。)Whisper Keyboard 诞生更早,发布之初对于 prompt 修改输入文风的功能可以说非常令人惊喜。现在,开发者 river 也转向了新项目。
闪电说代表了另一条「硬核」路线:本地模型与自定义 API。

闪电说下载本地模型
完全基于本地模型的运行方式拥有极致的隐私保护能力,数据无需上传云端,且对于简单指令的响应极快。
但是从另一方面来说,本地小模型的智商和实时的信息都捉襟见肘。在我们的测试中,它将「Sora」识别漏掉,将「Deadline」识别为「dline」,准确率处于较低水平。

闪电说转录结果
另外,因为闪电说是个完全免费的产品,用户如果想使用文本纠正功能,必须自行配置大模型的 API,相对麻烦,不太适合小白用户。

闪电说 API 配置
为什么语音输入赛道会在此时此刻爆发?
核心变量在于底层技术的范式转移。在过去很长一段时间里,语音输入依赖的是自动语音识别技术(ASR),其工作原理本质上是「声学模型匹配」——机器在猜测发音对应的汉字。
这种路径存在天然的局限性:它难以根据上下文区分「阈值」与「玉质」这样的同音词,对中英文夹杂的说话方式识别率极低,且没有任何编辑能力,只能忠实记录口语中「嗯、啊」等废话。
而大模型的介入,将语音输入从单纯的「转录」升级为了「理解与重构」。机器不再仅仅是「听」发音,而是在「听」逻辑。核心的变化在于容错率的无限提升:现在的 AI 能够容忍用户的口吃、倒装、方言口音以及中英混输,并基于上下文逻辑自动修正错误。
这使得交互流程发生了根本性的价值重构——从「语音转文字」进化为「语音转思考」,用户不再需要像播音员一样字正腔圆地朗读,而是可以随意倾诉想法,由 AI 完成整理工作。
将输入法视作「脑机接口」或许略显激进,但不可否认,它正从单一的文字转录工具,进化为一种回归人类本能的自然交互界面。
当 Input 的维度发生了质变,Output 的形态也必定会受到影响。
文章来自于“Founder Park”,作者 “Founder Park”。
【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址:https://github.com/openai/whisper
在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales