AI资讯新闻榜单内容搜索-Arena

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: Arena

PEFT方法评测不能只看下游分：通用能力损失也该被量化

PEFT方法评测不能只看下游分：通用能力损失也该被量化

PEFT方法评测不能只看下游分：通用能力损失也该被量化

近期，来自香港中文大学、西湖大学、德国马普所等机构的研究者提出了 PEFT-Arena —— 一个从稳定性‑可塑性权衡（stability–plasticity trade-off）视角重新审视 PEFT 方法的评测基准与分析框架。该工作已在 ICLR 2026 相关 workshop 上进行了展示，并开源了完整代码。

来自主题: AI技术研报

10222 点击 2026-06-14 10:38

神话级Claude 5，登顶了！

神话级Claude 5，登顶了！

神话级Claude 5，登顶了！

发布24小时，神话级Claude 5光速登顶！不仅创下AI史上最大分差纪录，更将GPT-5.5直接斩落马下。

来自主题: AI资讯

11461 点击 2026-06-11 15:26

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

37万次真实会话实测Agent榜单：GPT-5.5High第一，Claude最稳，真实干活能力看这五项核心指标

6月4日，Arena.ai发布Agent Arena排行榜，用373,431次真实会话的数据，给18个主流模型的Agent能力排了个座次。先看总榜。Agent Arena的排名依据是“净改进”（Net Improvement），用因果推断方法算出每个模型相对于随机基线的性能提升幅度。正值代表比随机选择更好，负值说明不如随机。

来自主题: AI技术研报

10121 点击 2026-06-07 14:38

老黄的Cosmos 3刚发一天，就被一家中国公司反超了

老黄的Cosmos 3刚发一天，就被一家中国公司反超了

老黄的Cosmos 3刚发一天，就被一家中国公司反超了

6 月 1 日，老黄在 GTC 上用了不小的篇幅讲物理 AI 和具身智能，并重磅发布了 Cosmos 3。英伟达将其定义为面向 Physical AI 的最新前沿模型，也是全球首个完全开放的全能模型，原生具备视觉推理、世界生成和动作生成能力。

来自主题: AI资讯

9412 点击 2026-06-04 09:15

世界模型榜首易主！跨维智能登顶WorldArena

世界模型榜首易主！跨维智能登顶WorldArena

世界模型榜首易主！跨维智能登顶WorldArena

近日，全球具身世界模型权威评测基准 WorldArena 公布最新榜单。在 5 月 25 日截止的最终榜单中，跨维智能登顶 Track 2 赛道全球第一。可以说是，在英伟达、谷歌等全球科技巨头深度布局、重兵把守的世界模型核心腹地，跨维智能实现了强势突围。

来自主题: AI资讯

9205 点击 2026-06-03 15:27

刚刚，智元拿下WorldArena世界模型总分冠军！

刚刚，智元拿下WorldArena世界模型总分冠军！

刚刚，智元拿下WorldArena世界模型总分冠军！

WorldArena 世界模型赛道从来都是竞争异常激烈，在经历了前几次比赛过程中的放榜之后，CVPR 2026 WorldArena 世界模型赛道锁定总成绩，智元自研的世界模型 Genie Envisioner-Sim 2.0（以下简称 GE 2.0）拿下了最终的冠军，成为了 “强者中的强者”。

来自主题: AI资讯

9931 点击 2026-05-29 21:42

刚刚，中国AI闯入全球编程前二！前面只剩Claude

刚刚，中国AI闯入全球编程前二！前面只剩Claude

刚刚，中国AI闯入全球编程前二！前面只剩Claude

Code Arena最新放榜，Qwen3.7-Max以1541分冲进全球第四，成为前五中唯一的非Claude模型。编程，中国模型第一次杀到这个位置。

来自主题: AI技术研报

10985 点击 2026-05-27 09:14

520，遇见国产「新模王」Qwen3.7-Max！

520，遇见国产「新模王」Qwen3.7-Max！

520，遇见国产「新模王」Qwen3.7-Max！

仅仅一个月后，阿里又带着最强旗舰模型杀回来了！今天上午，在 2026 阿里云峰会上，阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了！在 Arena 公布的最新一期全球大模型盲测总榜中，Qwen3.7-Max 总成绩位列国产模型第一：傲视一众国产大模型

来自主题: AI资讯

11261 点击 2026-05-20 16:26

独家｜AIGC厂牌竞技元年：当动画从一年压缩至36小时，我们在北京看到了什么？

独家｜AIGC厂牌竞技元年：当动画从一年压缩至36小时，我们在北京看到了什么？

独家｜AIGC厂牌竞技元年：当动画从一年压缩至36小时，我们在北京看到了什么？

过去，一部动画短片的诞生往往需要数月甚至一年的漫长周期。从分镜、原画、建模到渲染，每一个环节都堆砌着密集的人力与时间成本。但在上周末，北京三里屯的一场活动，彻底颠覆了这一传统认知。

来自主题: AI资讯

9690 点击 2026-05-19 10:57

断崖第一！深度机智Z-WM再夺WorldArena冠军

断崖第一！深度机智Z-WM再夺WorldArena冠军

断崖第一！深度机智Z-WM再夺WorldArena冠军

2026 年 5 月，深度机智（DeepCybo）迎来成立一周年。

来自主题: AI资讯

10142 点击 2026-05-18 16:50

上一页当前第2页,共10页下一页