AI 语音输入法,正在偷偷挤走「键盘」

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI 语音输入法,正在偷偷挤走「键盘」
9456点击    2025-12-22 17:10

AI 语音输入法,正在偷偷挤走「键盘」


键盘不会立刻消失,但在越来越多的场景里,它已经悄悄退成语音之后的「编辑器」。


如果几年前有人跟我说,「你以后写稿可能不怎么需要键盘了」,我大概会把这句话当成一句玩笑。那时候我正处在对机械键盘的迷恋期,研究轴体、键帽、键程,购入过 Cherry、Filco、NiZ、Keychron、3D 打印分体式键盘。甚至为了提高打字效率,专门学习过双拼输入法


我的注意力都放在消费的快感上,很少认真想过这样一个问题:


敲键盘,真的是输入的最优解吗?


真正的转折,其实发生在我开始高频使用各种 AI App 的这两年。


第一次真正觉得「语音输入这件事好像值得重视」,是各个 AI App 里那个「语音转文字」按钮变得越来越好用的时候。这些 App 里的语音转写,明显比传统输入法里的语音要聪明得多:它不仅能听清我在说什么,还能自动加上标点,帮我把一些口语化的表达整理得比较书面,甚至在我说得磕磕绊绊的时候,最后呈现出来的那一段文字读起来仍然是顺的。


AI 语音输入法,正在偷偷挤走「键盘」

主流的 AI 几乎都覆盖了语音转文字功能|图片来源:极客公园


更关键的是,它和后面的 AI 是连在一起的——我说完一句话,看到的不只是干巴巴的转写结果,而是 AI 根据这段话给我的反馈和回答。那一刻我第一次有了一个直观的感受:语音不再只是一个「替代键盘的输入方式」,而是直接接在 AI 交互前面的那一层


第二个真正改变我看法的,是我在和 AI 打交道的过程中,越来越清楚地意识到:语音比打字流畅得多。


和真人聊天不同,和 AI 交互时,我可以不管错别字、不管格式;也不需要一上来就组织成一段「体面」的文字;甚至可以中途换一个角度,AI 依然能跟得上。


持续一段时间之后,我发现一个很直观的变化:在越来越多的场景里,我不再想「敲一段字问它」,而是更想「按住麦克风直接说」。


01

Typeless 初体验:🆘,

它真的听得懂我在说什么


我开始尝试一些语音输入法。


Wispr 算是其中名气最大的一个,但真正用下来,其实很难令人满意。它的转录速度略显拖沓,会有一个较为尴尬的等待时间;中文识别的准确率也算不上理想,尤其是遇到一些专有名词或者中英文混排的场景,经常需要手动修补。


闪电说(原名:代体)走的是本地小模型路线,它几乎把「速度」做到了极致,转写过程几乎是「你刚说完,字就出来了」,而且完全免费。这种即时反馈在一开始确实给人非常强烈的爽感,第一次有了「手跟上脑子」的感觉。


但是也因为本地小模型的原因,它在准确率上就差强人意了。比如中英文混排、技术名词夹杂口语、或者我说话节奏稍微快一点的时候,错误率会明显上升。


我还尝试过一些其他的语音输入法,包括豆包输入法(iOS 端)、微信输入法、Whisper Keyboard,甚至是苹果听写(因为更原生),但它们或多或少都因为一些问题而无法让人完全满意。


最后,我就注意到了 Typeless,并且最终常驻在了我的电脑中


AI 语音输入法,正在偷偷挤走「键盘」

我之前曾经简单测试过各个语音输入法,并做了一张四象限图。Typeless 处于第二象限:速度中上,但文字的质量最高。|图片来源:极客公园


如果和之前试过的那些工具相比,Typeless 带来的改变并不在于「速度快了一两秒」,而是在于它大幅降低了出错和返工的成本


很多语音输入法的问题根本不在于转录的速度,而是它无法正确识别说话人的意图,只要一两个词识别错了,你就不得不打断思路,回到文字里一点一点修改,整段体验非常脆弱。


Typeless 给我的感觉刚好相反:它似乎真的理解「你想说什么」,而不是「你每个字到底是怎么说的」。哪怕我中途改口、补充、打断自己,它也会尽量在结果里帮我拼出一个完整的、读起来顺畅的版本。


最直观的改变是:我不需要再刻意凑近话筒了。为了更顺畅地和 AI 交互,我之前特地买了一个麦克风放在显示器左侧。因为输入法经常识别不准,我总怀疑是不是距离太远,于是下意识地把头歪向麦克风。


但现在,这种习惯已经自然消失了。


AI 语音输入法,正在偷偷挤走「键盘」

为了不遮挡屏幕,麦克风位于屏幕左侧,因此距离会稍远一些。


这些「理解意图」的能力,在具体功能上体现得很直观。比如说,我随口一句「My shopping list, bananas, oat milk, dark chocolate」,在 Typeless 里看到的,不是一串用逗号隔开的原话,而是自动帮我排好的一份购物清单:前面有标题,下面是 1、2、3 的编号列表。


AI 语音输入法,正在偷偷挤走「键盘」

Typeless 可以把语音转换成带格式的文字|图片来源:极客公园


又比如,我在 Gmail 里选中一段略显随意的英文邮件,只需要对着 Typeless 说一句「Turn it into a professional email」,它会在原地把那段话改写成一封语气、结构都更正式的邮件正文。


AI 语音输入法,正在偷偷挤走「键盘」

Typeless 可以把文字重写成邮件格式


再比如,我复制了一段日文介绍到屏幕下半部分,对着 Typeless 说「翻译成中文」,它会在几秒钟之内给出一段顺滑自然的译文——不是逐字直译,而是能读得进去的那种中文。


AI 语音输入法,正在偷偷挤走「键盘」

Typeless 可以翻译选中的文字


更有意思的一点,是它会根据你当前使用的 App 自动调整语气。如果我在聊天软件里,对它说话可以非常随意,出来的结果也会刻意保留这种口语感;但在工作场景 App 里,Typeless 给出来的文字就会明显正式很多,标点更规整。


AI 语音输入法,正在偷偷挤走「键盘」

根据不同 App 的上下文语境,Typeless 会调整说话的语气


如果站在技术路线的角度看,这个转变背后其实是从传统 ASR 到大语言模型的变化。过去的语音输入,核心任务是识别——把声音转成文字,最好一个字不差。


而现在,大模型可以在同一个流程里同时做识别和理解:它不只在「听你说什么」,更在「猜你想表达什么」。实际的直观感受就是:以前我说话的时候要照顾机器,现在更多是机器在试图适应我的表达习惯。我会明显感觉到,Typeless 并不是简单地把我的每一句话「抄」下来,而是连着前后的上下文,一起去判断这段话应该长成什么样。


正因为有这一层模型能力和「语气感知」的变化,Typeless 在我的日常工作流程里,很快就从「可以试一试的新玩具」,变成了一个真正可以排在键盘旁边的位置。


以前我总觉得自己是在「用语音替代打字」,现在回过头来看,这种替代关系反而调转过来了:键盘更像是一个用来收尾和微调的工具,而大段的内容输入,已经可以放心交给语音和 Typeless


02

几乎没有「缺点」,

但有三点担忧


如果单纯从「工具好不好用」这个角度来评价,Typeless 在我这儿其实很难挑出什么硬伤。识别足够稳,意图理解在绝大多数场景下靠谱,桌面端集成顺滑,免费额度对个人用户来说也够用(每周 4000 词)。


AI 语音输入法,正在偷偷挤走「键盘」

在使用 Typeless 的 20 天中,我总共输入了接近 8000 词,平均每天 200 词


真正令人担心的地方,反而不在产品本身,而在它所处的环境。


第一个担忧是大公司的入场。当你把 Typeless 当成日常工作的核心输入层时,很难不去想象另外一种可能性:如果哪一天,操作系统自己提供了一套同样水准、甚至更强的语音输入能力,而且是系统级的、无处不在的,那我还有多少理由坚持使用一个第三方工具?


从历史上看,很多优秀的第三方工具,最终都被系统抄到一个「八十分好用」的程度,然后慢慢失去了存在感。语音输入这件事,也很有可能走到同样的节点。例如字节跳动就推出了体验非常优秀的豆包输入法,加之最近讨论很热烈的豆包手机,这种情况是很有可能在不久的将来发生


第二个担忧是免费本地模型阵营的持续挤压。闪电说这样的工具,哪怕今天体验不算完美,但它不断提醒用户一件事:语音识别其实可以在本地设备上完成,而且零成本。随着硬件继续演进、本地模型持续变强,这一阵营的体验只会越来越好,用户对「语音转文字这件事本身应该是免费的」这种预期,很难完全逆转


Typeless 目前用更高的免费额度和更好的整体体验,在一定程度上对冲了这种心理落差,但长远来看,它仍然要回答一个问题:在一个「到处都是不错的免费方案」的世界里,它能一直给用户什么额外的价值,让那 12 美元每个月看起来是值得的。


AI 语音输入法,正在偷偷挤走「键盘」

Typeless的付费套餐为每月12美元,提供无限次的转录|图片来源:Typeless 官网


第三个不算「担忧」,更像是现实的约束,就是 iOS 端的体验。因为 iOS 的系统限制,使用 Typeless 必须跳转 App,这在使用体验上是非常致命的打击。Typeless 想出的应对方案是让麦克风在后台常驻,但这同时又会带来隐私和功耗的问题。


这些问题不是 Typeless 一家可以独自解决的,它需要的是操作系统本身的配合。而这又回到了第一个问题:一旦像苹果这种系统级别的厂商跟进,打击将是致命的。


03

键盘,会被取代到什么程度


回头看这几年自己折腾输入工具的历程,我越来越强烈地意识到一个事实:我们过去为键盘付出的那些努力,很大一部分是在帮一套并不那么「顺手」的设计擦屁股。


QWERTY 布局本身并不是为了人体工学而生,它诞生于机械打字机时代,核心目的是降低卡纸、让金属字杆别那么容易打结。为了照顾机器,我们刻意牺牲了一部分人的效率,然后再用盲打训练、打字课和大量练习,把这种妥协牢牢刻进自己的肌肉记忆里。


AI 语音输入法,正在偷偷挤走「键盘」

最开始的打字机并不是 QWERTY 布局。1873 年,美国人 Christopher Sholes,将常用的字母组合分开排列,降低打字速度,以解决因按键复位机制缓慢而导致的打字卡顿问题,最终形成了 QWERTY 布局|图片来源:Wikipedia


机械键盘、分体式键盘、各种人体工学键盘,本质上都还停留在这种框架之内:我们在既定的格子里,想办法让手指跑得没那么累。


语音则完全是另外一条路。说话这件事,本来就是人类最自然的输出方式之一。我们从小就学会用声音组织情绪和思想,所有的停顿、转折、插话、反悔,都是在这种流动里长出来的。


真正开始高频用语音和 AI 交互之后,我才发现,所谓「自然输入方式」不只是速度快一点,而是它把我从很多不必要的负担里解放了出来:不用在意是不是每个字都敲对,不用提前把句子构造好,不用为了照顾输入法刻意改变自己的表达习惯。我可以像和人说话一样把一件事情讲清楚,剩下的交给模型去理解、去整理


Typeless 这一类软件,站在这个趋势上做了一步更激进的尝试。它并不满足于当一个「语音版键盘」,而是很明显地在向系统级能力靠拢:在桌面端,它试图成为一层独立于具体 App 之上的输入层;在 iOS 端,它干脆取消了键盘,把「说话」设定为默认动作。


AI 语音输入法,正在偷偷挤走「键盘」

在 iOS 端,Typeless 做得非常激进,直接取消了键盘输入,仅保留语音输入|图片来源:极客公园


这种野心让我看到了一些想象空间:如果有一天,操作系统层真的接受了「语音优先」的前提,把类似 Typeless 的能力直接做进系统,也许我们今天习惯的很多交互细节都会被改写。


当然,这一切目前都还停留在可能性层面。大公司会不会愿意把这件事做到极致,用户会不会接受一套以语音为主的新习惯,监管和隐私会怎么演化,这些问题谁都说不准。


对我来说,唯一可以确认的,是它已经在「输入效率」这个非常具体的指标上,给出了一个足够有说服力的答案:在很多场景里,我可以用更短的时间,把更多的信息、更完整的语义输入到电脑里,而且中间少了很多和键盘搏斗的环节


哪怕最终 Typeless 没能长成一个真正的「系统级存在」,这部分被释放出来的效率和注意力,大概也已经足够说明一件事——输入方式这件事,我们完全有理由重新想象。


文章来自于“极客公园”,作者 “汤一涛”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales