王云鹤眼中的Harness:复杂优化问题,AGI灵魂争夺之战
王云鹤眼中的Harness:复杂优化问题,AGI灵魂争夺之战最近一段时间,Agent 又一次成为 AI 圈最热的关键词。
搜索
最近一段时间,Agent 又一次成为 AI 圈最热的关键词。
大语言模型真的只能走“预测下一个token”的路子吗?
今年以来,Palantir股价已累计下跌近20%。
全行业都在押注多Agent。
近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-of-Thought)往往就开始「吃力」:容易被早期判断带偏、发散不足、自我纠错弱,而且顺序生成的效率天然受限。
近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。
过去一年,Agent学会了两件事:会用工具、会调用Skill。
如今的 AI Agent 正在大规模落地,其中应用最广且最受关注的当数 Claude Code,Codex,Cursor 这类 coding agent。过去的一年里,这类 coding agent 产品迭代迅速,在一年内将在 swe-bench- verified 的准确率提高到了 78%+。
最近几天,中国电信、中国移动、中国联通接连推出Token套餐及相关AI服务,面向个人、家庭、开发者、中小微企业等用户销售大模型调用量。这是三大运营商首次正式入局Token生意,而此前相关业务由大模型厂商、互联网大厂和云服务商主导。
扩散模型杀进了文本生成的地盘,而巨头们为了抢它,已经打起来了。