
大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25
大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 | ICML'25大模型有苦恼,记性太好,无法忘记旧记忆,也区分不出新记忆!基于工作记忆的认知测试显示,LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中,模型几乎一定会混淆无效信息与正确答案。
大模型有苦恼,记性太好,无法忘记旧记忆,也区分不出新记忆!基于工作记忆的认知测试显示,LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中,模型几乎一定会混淆无效信息与正确答案。
据外媒报道,北约近期完成首次由人工智能(AI)主导的防空测试。结果显示,AI系统在预警时效、信息处理和拦截效率等方面的表现,均优于同等条件下的人工操作。分析人士表示,近段时间以来,北约成员国在AI军事化应用领域动作频繁,相关动向值得关注。
基于Qwen2.5架构,采用DeepSeek-R1-0528生成数据,英伟达推出的OpenReasoning-Nemotron模型,以超强推理能力突破数学、科学、代码任务,在多个基准测试中创下新纪录!数学上,更是超越了o3!
理想汽车车载大模型荣获由CCIA汽车网络安全工作委员会颁发的《生成内容安全测评证书》,及人工智能生成合成内容标识服务平台颁发的《生成合成内容标识报告》,成为国内首批通过GB/T 45654、GB 45438-2025双国标认证的车企
OpenAI推出ChatGPT agent引发国产Agent竞品(如Manus、Genspark)公开对比,声称自身更优。实测退休计划任务显示,ChatGPT输出简陋,仅20分钟完成简易PPT;而Kimi报告详尽并互动提问,Minimax多格式输出,Manus快速设计美观。ChatGPT仅功能整合,非革命性升级,但标志AI从问答向任务执行协作转型。
随着基础大模型在通用能力上的边际效益逐渐递减、大模型技术红利向产业端渗透,AI的技术范式也开始从原来的注重“预训练”向注重“后训练”转移。后训练(Post-training),正从过去锦上添花的“调优”环节,演变为决定模型最终价值的“主战场”。
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。
程序员最有价值的技能已经不再是编写代码了,而是精确地向 AI 传达意图。一份完善的规范才是包含完整意图的真正「源代码」。
OpenAI通用推理模型在国际奥数竞赛中达到金牌水平,解出5题得分35/42。模型通过新技术实现长时间复杂推理和自然语言证明,非专用系统。标志AI在创造性思考和科学研究的重大突破,为解决千年难题铺路。GPT-5即将发布但暂缺此能力。
「硅谷最贵华人」庞若鸣昔日老将Mark Lee与Tom Gunter加入Meta!扎克伯格亲自挂帅,誓补AI人才与算力短板。苹果深陷人事动荡。AI战局愈演愈烈,硅谷风云再起。