编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

9583点击 2026-03-03 14:36

刚刚，Anthropic给Claude Code加了个语音模式。

以后写代码，用嘴说就行。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

Claude Code是Anthropic出品的命令行AI编程工具。

以前你得打字跟它交流。现在不用了。

输入/voice命令，开启语音模式。长按空格键说话，松开完成输入。

跟对讲机一模一样。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

目前灰度测试阶段，大约5%的用户先尝鲜，接下来几周逐步放开。

如果你的账户有权限，打开Claude Code时欢迎界面会提示你。

语音模式这玩意儿牛在哪？

不是简单的语音转文字。

语音转出来的文字，会直接在光标位置实时流式输出。

类似下面网友分享的这样。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

啥意思呢？你可以先手打一半提示词，遇到复杂逻辑懒得打字了，长按空格切到语音，吐槽一通那段难以描述的逻辑，松手，再继续打字。

无缝衔接。不覆盖。不替换。

这才是关键——它不是替代键盘，是补充键盘。

想象一个场景：你在调一个诡异的bug，涉及三层回调嵌套加一个竞态条件。

打字描述这玩意儿，光组织语言就得五分钟。

但如果张嘴说？人类天生就擅长口头描述混乱的场景。三十秒搞定。

还有一个大利好：语音转录的Token完全免费。不计费。不扣额度。想说多少说多少。

对面奥特曼什么反应？

有意思的是，OpenAI的Codex几乎在同一时间也加了类似功能。

Codex 0.105.0版本更新日志写得明明白白——按住空格录音，松开转录，文字直接输入到终端界面。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

用的是Wispr语音引擎，目前支持macOS和Windows，Linux还没跟上。

而且这功能还需要手动开启：

在配置文件里设置features.voice_transcription=true。

两家几乎同时出招。

这不是巧合，是共识。

编程工具的下一个战场，不在模型有多聪明，而在交互有多自然。

社区怎么看？

开发者社区其实早就在自己搞了。

在官方语音模式之前，GitHub上就有一个叫Voice Mode的社区项目，通过MCP协议给Claude Code外挂了语音能力。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

用Whisper做语音识别，用Kokoro做语音合成，甚至能离线跑。

还有各种第三方工具——AquaVoice、Superwhisper、Voicy——都在抢占语音写代码这个生态位。

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

有人用Talon Voice实现了全程免手操作，连终端的Ctrl+C都是用嘴说的。

而现在，官方直接下场了。

第三方工具颤抖了吗？可能没有。

因为官方的语音模式更像一个入口级功能——它降低了门槛，让更多人意识到原来写代码可以用嘴。

语音编程的体感到底怎么样？

根据早期用户的反馈，几个场景特别好用：

Debug的时候

口头描述bug比打字描述快太多了。

你说话时会自然带出更多上下文——就是那个，登录页面，输入带加号的邮箱，它验证就报错了——这种人类碎碎念的信息密度，打字时你绝对懒得写。

架构讨论的时候

我想让这个API用JWT做认证，accesstoken十五分钟过期，refreshtoken七天，再加一个刷新端点——说出来十秒钟，打出来一分钟。

不在电脑前的时候

吃东西、喝咖啡、手受伤了、得了腱鞘炎——这些场景下，语音输入不是锦上添花，是刚需。

但也有短板。

变量名、URL、代码片段，还是得靠打字。语音识别对camelCase、下划线命名和各种缩写的识别率仍然不够稳。

所以最佳实践是：自然语言部分用嘴说，精确代码部分用手打。

一个更大的信号

让我们把视角拉远一点。

2024年，Cursor让AI写代码成为主流，Tab一下是当时的潮流。

2025年，Claude Code和Codex让AI Agent自主编码成为可能。

2026年，语音模式的加入，补上了人机交互的最后一块拼图。

编程正在经历一次输入革命。

键盘不会消失，就像鼠标没有消失一样。

但编程的主要瓶颈，已经从写代码变成了表达意图。

而表达意图这件事，人类最原始、最高效的方式，就是说话。

人类说话的速度大约是每分钟150词，打字速度大约是40词。

这中间3-4倍的差距，就是语音编程要吃掉的市场。

畅想一下：

再往前看几步。

如果语音输入足够准确，如果AI对代码意图的理解足够深，那编程最终的形态可能是这样的：

你坐在沙发上，对着电脑说：把用户模块的权限系统重构一下，改成RBAC模型，别忘了写测试。

AI自动读代码、理解架构、写实现、跑测试、提PR。

你审一眼diff，说一句LGTM，合并。

从写代码到说需求，从程序员到编程导演。

这一天比大多数人想的要近。

Claude Code的这个/voice命令，就是一个起点。

它可能还很粗糙，可能还有各种小毛病。

但方向错不了——未来的编程，一定是多模态的。

键盘、语音、甚至手势和眼动，所有人类自然的表达方式，都会成为编程的输入通道。

到那时候回头看今天，就像我们现在看二十年前的打孔卡片一样。

会觉得很可爱。

写代码这件事，终于可以动口不动手了。

虽然动完口之后，你可能还是得动手改bug。

参考资料：

https://x.com/bcherny/status/2028629573722939789

文章来自于微信公众号 "新智元"，作者 "新智元"

关键词: AI新闻 , Claude Code , Anthropic , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

语音转录

【开源免费】Whisper是由openai出品的语音转录大模型，它可以应用在会议记录，视频字幕生成，采访内容整理，语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址：https://github.com/openai/whisper
在线使用：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0