AI资讯新闻榜单内容搜索-Arena

「具身大一统」不是口号：北京人形再度登顶WorldArena，拿下双冠王

最近，全球的网民都化身「监工」，围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时，不间断地分拣包裹。

来自主题: AI技术研报

9327 点击 2026-05-18 10:24

世界模型双冠王诞生！国产世界模型WorldScape 0.2力压谷歌、英伟达等持续领跑

近日，全球具身世界模型权威基准评测 WorldArena 正式更新最新榜单。Manifold AI 流形空间研发的世界模型 WorldScape 0.2，凭借其在物理规律遵循与多源交互理解上的突破取得 WorldArena 榜单全球第一，充分展现了国产世界模型在复杂动态场景生成与具身控制中的高精度、强泛化与物理可信度。与其同场竞技的包括英伟达、谷歌等国外巨头和星动纪元、极佳视界等国内具身智能公司。

来自主题: AI资讯

11248 点击 2026-04-28 11:05

Kimi K2.6 + Hermes 实测！Karpathy同款保姆级教程来了

月之暗面昨天发布了 Kimi K2.6，代码能力和 Agent 能力都有明显增强。官方数据很亮眼：13 小时不间断编码、4000 行代码重构、LMArena 全球开源第一。

来自主题: AI技术研报

7520 点击 2026-04-22 16:39

拒绝透露姓名，神秘世界模型 MotuBrain 却拿了两个世界第一

一款名为 MotuBrain 的神秘世界模型，悄无声息地登上两个国际 benchmark 的榜首，没有任何公司署名。如果只是单榜第一，这件事或许并不稀奇。但问题在于，它同时拿下的，是两个几乎代表行业「两个极点」的榜单：一个是衡量世界模型「是否真正理解和预测现实世界」的 WorldArena

来自主题: AI资讯

9777 点击 2026-04-21 23:33

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式：智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报

9433 点击 2026-04-19 13:40

比Nano Banana还夯的生图模型泄露，截图不再是证据了 | 附提示词

4 月初，LM Arena 评测平台上出现了三个匿名图像模型，代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。OpenAI 官方还没有正式宣布这个模型，但根据 API 返回的元数据和用户侧的测试记录，它已经有了一个被广泛接受的名字：GPT Image 2。

来自主题: AI资讯

8938 点击 2026-04-19 13:39

给6个AI各发10万美元炒股半年，大部分跑赢了大盘

一家叫 Rallies Arena 的团队，6 个月前干了一件事：给 6 个主流大模型各发了 10 万美元，让它们在真实股票市场上自己做研究、自己下单、自己管仓位。

来自主题: AI资讯

9091 点击 2026-04-07 11:04

OpenAI 新图像模型 GPT-Image-2 泄露

OpenAI 的下一代图像模型 GPT-Image-2，今天在 Chatbot Arena 上被人发现了。独立开发者 levelsio 率先爆料，这个模型以三个代号悄悄上线了 Arena：maskingtape-alpha、gaffertape-alpha、packingtape-alpha。

来自主题: AI资讯

9943 点击 2026-04-04 22:38

Qwen3.6-Plus 深度测评报告

本报告基于XSCT Arena平台，对 Qwen3.6-Plus-Preview（阿里云，2026-04-02 发布）在文字能力（xsct-l）、网页生成（xsct-w）、Agentic 任务（xsct-a）三大场景下的表现进行系统评测，并与Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、

来自主题: AI产品测评

10430 点击 2026-04-04 16:19

力压李飞飞团队登顶WorldScore，黑马Manifold AI领跑世界动作模型新范式

通用世界模型评测榜单 WorldScore 登顶、建立具身世界模型评测榜单 WorldArena 、发布通用世界模型 WorldScape 、发布世界-动作模型 WorldScape Policy，这家低调的世界模型创业公司 Manifold AI（流形空间）近期走出隐身模式频频出手，开始领跑世界-动作模型具身新路线。

来自主题: AI资讯

9121 点击 2026-04-04 11:03