AI资讯新闻榜单内容搜索-模型

把Agent丢入1000+文件：人大CoDA-Bench揭示Code Agent瓶颈

中国人民大学的研究团队提出 CoDA-Bench，联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下，要求模型先自主探索文件系统、找到相关数据，再编写代码完成分析。实验显示，即使当前表现最好的系统，在 CoDA-Bench 上执行准确率也只有 61.1%；

来自主题: AI技术研报

9473 点击 2026-07-04 10:51

ECCV 2026 | 悉尼大学提出Linstereo, 打通立体匹配「最后一公里」

LinStereo 对应地做了三件事：PALA 换掉 ConvGRU 解决传播问题，HSCV 保留多尺度特征，DPI 用单目深度给一个靠谱的起点。PALA 做的事情说起来很直观，就是把 ConvGRU 的局部更新换成全局注意力，让每个像素每次迭代都能看到整张图。难点在于 softmax attention 是 O (N²) 的，直接用在高分辨率视差图上跑不动。

来自主题: AI技术研报

8652 点击 2026-07-04 10:50

AI Agent为什么总是不稳定？终于有了一个系统性基准来拆解

三星大模型团队联合北京大学、香港城市大学、香港科技大学等科研机构，共同发布了面向 AI Agent 的基准测试 LiveClawBench。它关注的并不是「谁的 Agent 更强」，而是一个更基础、也更关键的问题：为什么同一个 AI Agent，在一些任务中已经接近可用，而在另一些任务中却会突然失稳？

来自主题: AI技术研报

7660 点击 2026-07-04 10:50

只用15%数据，多模态指令微调反超全量训练15.8%！

来自上海交大、马来亚大学、CMU、MBZUAI、KIT和KAUST的团队提出VisNec（Visual Necessity Score，视觉必要性分数），用一个分数衡量每条训练样本里“图像到底起了多大作用”，被ECCV 2026收录。

来自主题: AI技术研报

8148 点击 2026-07-04 10:47

DeepSeek新技术移植苹果芯片！Mac本地大模型加速60%

DSpark刚开源一周，就被搬进了苹果电脑。移植版本叫mlx-dspark，跑的是Gemma-4 12B和Qwen3-4B这两个模型。装上之后，这两个模型在Mac上的生成速度分别提了1.6倍和1.4倍。

来自主题: AI资讯

9507 点击 2026-07-03 21:58

绝了! Claude Fable5惨遭二次越狱，黑客20小时撬开神话防线

Fable 5再次被越狱了！这已经是该模型第二次防线失守。黑客Vitto Rivabella，公开宣布：Fable 5，又被攻破了。要知道，Claude Fable 5恢复访问时，Anthropic特意强调：上次Fable 5被禁就是因为亚马逊的研究人员发现了一种绕过Fable 5安全防护的方法。

来自主题: AI资讯

9197 点击 2026-07-03 18:43

刚刚，LeCun团队让世界模型学会持续学习！

刚刚，纽约大学联合LeCun初创AMI带来JEPA系列的最新成果——AdaJEPA。与过去在预训练结束后就冻结参数的世界模型不同，AdaJEPA能够在与环境交互中，基于测试时自适应（Test-Time Adaptation, TTA），实时调整世界模型的编码器和预测器参数，从而实现持续学习。

来自主题: AI技术研报

9772 点击 2026-07-03 16:12

李飞飞署名具身新论文：Sim2Real烧不起，Real2Sim量大管饱

还在聊Sim2Real？现在机器人圈更火的是Real2Sim！最近，英伟达GEAR联合李飞飞团队、佐治亚理工大学等机构联合发布全新Real2Sim系统——SimFoundry。SimFoundry只需一段真实世界视频，就能自动生成一个可以交互、训练、评测的机器人仿真环境。

来自主题: AI技术研报

9073 点击 2026-07-03 16:11

独家：阿里全面禁用Claude

独家获悉，今日，阿里巴巴内部宣布反向禁用Claude。阿里全员被要求卸载Anthropic相关产品，包括Sonnet、Opus、Fable等多个系列模型，以及Claude Code在内的Agent产品。禁令于7月10日正式生效。

来自主题: AI资讯

10768 点击 2026-07-03 14:26

传美团全面限制团队使用豆包，此前还曾限用阿里千问

7月2日，据大厂日爆消息，美团内部开始限制使用豆包大模型。消息称，美团向所有涉及到豆包大模型的业务部门下发通知，要求自查并规划迁移至LongCat、DeepSeek等模型，若无法迁移，需单独走审批流程。对此消息，截至发稿，美团暂无官方回应。据媒体报道，这并非美团首次收紧外部大模型的使用。今年4月，美团对内部大模型使用做出调整，不再推荐业务使用阿里云提供的Qwen模型。若业务仍需使用，需上报审批。

来自主题: AI资讯

10203 点击 2026-07-03 10:17