估值 7 亿美元的 AI 语音输入产品:语音输入的关键问题是听写,不是转录
估值 7 亿美元的 AI 语音输入产品:语音输入的关键问题是听写,不是转录键盘作为人机交互的主要工具,实质上是一个巨大且不自然的「输入、输出瓶颈」。在「后键盘时代(post-keyboard future)」,语音或许才是最好地交互方式。
键盘作为人机交互的主要工具,实质上是一个巨大且不自然的「输入、输出瓶颈」。在「后键盘时代(post-keyboard future)」,语音或许才是最好地交互方式。
在生成式 AI 的新时代,人们一直在讨论它会不会颠覆教育、改变编程、重塑工作方式——但你可能没想到:现在连 6 岁的小孩都能通过AI 变成“侵权生成器”了。
芯片速度触顶,AI却在疯狂跃迁。摩尔定律不管用了!Nature最新文章给出一个颠覆直觉的解释:智能的增长不靠芯片,而是结构被重新组织,更多单元被接入同一套协作网络。
去年,美国有49家AI创业公司完成了1亿美元以上的融资。按常理,这样的数字意味着高基数、难再现。但今年的市场依旧火热,据TechCrunch的最新发布,进入年底前的最后几周,2025年已经追平去年,甚至出现更多的头部公司连续获得多轮 1亿美元以上的融资。
大模型总是无法理解空间,就像我们难以想象四维世界。
DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug。
想象一下这个场景: 一个寂静的深夜,你满怀期待对游戏里的AI说:“去睡觉吧”,它却径直走向餐厅,在椅子坐下了;你再次尝试:“帮我暖一下被窝?”它用合成语音温柔地回应“好的”,身体却僵在洗手间,纹丝不动。
Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。
AI时代,年轻人都在忙着做builder。
这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写,全文长达303页,是对当前“代码大模型(Code LLMs)”领域最详尽的百科全书式指南。