全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分
全球顶尖大模型一夜惨遭血洗!最难AI测试人类拿满分,AI第一名得0.2%分今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。
今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。
一次只持续了不到1小时的投毒事件,撕开了AI基础设施「信任链」的致命裂缝。更魔幻的是,全行业逃过一劫,居然靠黑客自己写出bug。
最近一直在聊Agent、聊Vibe Coding。
天使轮拿下2.42亿美元后,它石智航到底干啥去了?然而接下来的一年里,它石智航选择了一条截然不同的路:没有参加各种行业大会,没有频繁对外发声,没有出现在春晚或各类展示活动中,一直踏实干活。
这是一件极其严肃的软件安全事件。
养了这么久的虾,你应该能发现,skills有多重要了。
UIUC研究团队打造ResearchArcade,将ArXiv论文、OpenReview评审、图表代码等碎片数据连接成动态知识图谱。模型可直接学习引用关系、修改轨迹与审稿互动,让AI更好辅助科研写作、修订与预测,为下一代科研智能体奠定统一数据基础。
在自动驾驶、具身智能、AR/VR应用中做3D重建,大家都想解决一个终极问题: 模型能不能像人一样,一边往前看,一边持续构建三维世界?
原来字节也有龙虾——Deer-Flow2超级智能体管理框架。开源发布后迅速登上了GitHub Trending榜首,已经收获了35.3k Star。Deer-Flow2采用模块化多智能体架构,这些智能体通过LangGraph实现协同合作。
AI 驱动的自动化科研正从概念走向真实系统。近期受到广泛关注的 FARS,以及 Karpathy 开源的 autoresearch,都在不同程度上展示了 AI Scientist 自动进行 AI 领域研究的可行性。