AI资讯新闻榜单内容搜索-GE

国内首个！加入六维力的全感知数采，让VLA模型进化出力触觉

这个月，具身智能领域又卷出新高度：硅谷独角兽公司 Generalist AI 发布全新一代基础模型 GEN-1，将机器人包装手机、折纸箱这些活的平均成功率直接拉到了创纪录的 99%，折纸箱的速度更是飙到了以前的三倍（34s vs 12.1s）。

来自主题: AI资讯

8271 点击 2026-04-13 14:33

Harness 刚火，可能就要成为过去时了｜Hao好聊论文

随着任务的复杂度提升，Agent（智能体）的上下文在无限膨胀。在无穷的历史对话、工具调用输出、中间步骤以及报错信息中，模型迷糊了，于是开始跳步、忽视、绕道。

来自主题: AI技术研报

8042 点击 2026-04-13 13:51

大佬深度解析：Coding Agent的底层运行逻辑是什么？

在本文中，我将探讨编码智能体（coding agents）及其智能体编排（agent harnesses）的整体设计：它们究竟是什么、工作原理如何，以及在实际应用中各组件是如何协同运作的。

来自主题: AI技术研报

7621 点击 2026-04-13 13:50

Claude Code源码全拆解：55个目录、331个模块，最强Agent架构长什么样

Anthropic 的 Claude Code 源码被扒了个干干净净。55 个目录、331 个模块、目前业界最经受实战检验的 Agent 架构——全部暴露在 .map 文件里。

来自主题: AI技术研报

9776 点击 2026-04-13 13:49

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

7805 点击 2026-04-13 13:48