不是幻觉!Claude自下指令甩锅人类,百万上下文沦为降智重灾区
不是幻觉!Claude自下指令甩锅人类,百万上下文沦为降智重灾区Claude深陷「角色混淆」Bug,分不清自己的话与用户指令,长上下文成了降智「重灾区」。
搜索
Claude深陷「角色混淆」Bug,分不清自己的话与用户指令,长上下文成了降智「重灾区」。
能解决 AI 焦虑的,唯有热爱。
2026 年 5 月 6 日,Menlo Ventures 合伙人 Deedy Das (@deedydas) 发布了他自 2025 年 11 月以来不断收集的市场版图,帖子很短,但名单很长,核心数据如下:
上个月我遇到一个挺尴尬的事。同事指着屏幕上一张零件截图问我:"这个法兰盘,外径多少,孔位怎么分布的?"我张嘴比划了半天,最后打开SolidWorks重新画了一遍给他看。明明脑子里是完整的三维造型,传到另一个人那里就变成了一堆说不清的数字和手势。
Cursor 正式接入 Claude Opus 4.7 Fast mode——同一个旗舰模型,拆出两个速度档。快 2.5 倍,贵 6 倍,输出价每百万 token 150 美元。最离谱的是,Cursor 官方在发布当天就建议:多数任务请用标准速度。
把 Agent 从单体,组成一支可以协作的 Agent Teams。
奥特曼不买芯片,只租未来。AMD股价翻倍、英伟达深度绑定,如今Cerebras也乖乖奉上50亿认股权证——硅谷新领主,正在悄然对全行业征税。
针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈,快手技术团队在已规模化部署的工业级生成式搜索框架 OneSearch 基础上,发布了一篇系统性升级的研究论文,正式推出新一代框架 OneSearch-V2。
I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,通过改进 rollout 策略引导模型生成更多样化的推理轨迹,将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”,在多个数学基准上同时提升准确率与语义多样性,最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main,来自阿里达摩院 - 智能决策团队。
Z Potentials独家获悉,清华系具身智能公司灵御智能宣布完成天使+轮近亿元人民币融资。本轮融资距离上次融资仅有两个月,由福田资本领投,力合创投、金沙江联合资本、复利多、楹辉创投、华仓资本跟投,老股东英诺基金、天鹰资本持续加注。Maple Pledge枫承资本长期出任公司私募股权融资顾问。