AI资讯新闻榜单内容搜索-Arena

Kimi K3设计榜登顶焚诀公开：就藏在思维链里

停停停！Kimi K3的最佳打开方式可能不在Coding——用它做前端设计，才是真·Interesting。在Design Arena最新公布的单次生成前端榜单中，Kimi K3以1414分位列第一，力压Fable 5和GPT-5.6 Sol。

来自主题: AI技术研报

9144 点击 2026-07-25 11:37

六位顶尖学者、三大挑战赛道——IROS 2026 Physical World Models Workshop征稿

2026年10月1日，IROS 2026 Workshop——Physical World Models for Scaling Embodied AI将在美国匹兹堡举行。论文征集现已开放，8月10日截止；WorldArena 2.0 Challenge三大赛道已于7月10日开赛，总奖金$7500。

来自主题: AI资讯

6868 点击 2026-07-22 10:09

恶意插件100%得手！伯克利、UIUC和NUS等给智能体做了次安全体检

过去两年，AI智能体（Agent）完成了一次身份转变。

来自主题: AI技术研报

7162 点击 2026-07-21 10:12

连夜实测 Kimi K3，建议改名 Kable

今天凌晨看到 Arena AI 更新 Code Arena 榜单时，我第一反应是有点意外。刚刚发布的 Kimi K3 拿到了 1679 分，排在全球第一，压过了 Claude Fable 5 的 1631 分和 GPT-5.6 Sol 的 1618 分。

来自主题: AI产品测评

9636 点击 2026-07-17 11:12

匿名模型Kivine外网刷屏，开发者们都在猜：这是Kimi-K3？

这两天，大模型竞技场Arena上出现了一个新的匿名模型，代号Kivine。经过测试和对比，再结合此前Kimi-K2.5和K2.6的匿名代号“Kiwido”和“Kiwire”，越来越多的开发者们开始猜测这个匿名模型其实就是Kimi-K3。

来自主题: AI资讯

9533 点击 2026-07-16 20:21

世界模型迎来「真考场」：WorldArena 2.0 Challenge正式启动

WorldArena 1.0 的核心意义，在于将世界模型评测从 “好不好看” 推进到 “是否真的有用”。它不再只关注视频观感，而是把物理一致性、可控性、3D 准确性和具身任务功能性纳入统一评测框架，使许多看似流畅的生成结果第一次在机器人具身任务中接受检验。

来自主题: AI技术研报

9213 点击 2026-07-16 10:10

Reve 2.1 发布：在 Arena 文本到图像排行榜上排第二，训练算力仅为竞品十分之一

Reve 在 7 月 9 日把图像模型迭代到了 2.1 版。距离 2.0 发布刚好一个月，放在基础模型圈子这不算常见。前面只挡着一个 OpenAI 的 GPT Image 2。另外官方说：「训练这版模型用的算力不到排行榜前后邻居的十分之一」。

来自主题: AI资讯

7924 点击 2026-07-14 11:56

1600代码造出水下曼哈顿， Fable 5让Karpathy看呆了

Fable 5重新上线，Arena.ai的Gostev在一段视频中甩出63个3D世界，几乎都是一次成型。看了视频，就连刚加盟Anthropic预训练团队的Karpathy，也直呼没想到。

来自主题: AI资讯

8746 点击 2026-07-06 15:52

ICML 2026｜让AI自动发现前沿风险：创智×复旦×牛津发布AutoControl-Arena

当 AI 智能体（Agent）从实验室走向真实应用，我们面对的安全问题也正在发生变化。

来自主题: AI技术研报

10274 点击 2026-06-25 10:03

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单！

日前，世界模型国际权威榜单 WorldArena 更新排名，中国科学院工业人工智能研究所徐凯研究员带领物理智能团队（The PAI Lab）自研的世界模型 PAIWorld 登顶。WorldArena 作为目前世界模型领域最权威的评测榜单，是针对具身世界模型的全方位评价体系，涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度

来自主题: AI资讯

8884 点击 2026-06-22 11:33