AI资讯新闻榜单内容搜索-AI基准

硬刚马斯克，超越Sora2的国产模型强势登场了！支持16秒声画同出

今日，来自生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单，位列中国第一，全球第二。这是最新榜单内，首个打入国际第一梯队的国产视频生成模型。

来自主题: AI资讯

8905 点击 2026-01-31 16:14

人类基准测试大翻车：样本不足、方法不透明，AI性能结论可信吗？

我们经常在一些对比 AI 性能的测试中，看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。

来自主题: AI资讯

5951 点击 2025-12-29 09:36

AI基准测试集体塌房，最高84%都是坏题｜斯坦福最新研究

基准测试（Benchmarks）在人工智能的发展进程中扮演着至关重要的角色，构成了评价生成式模型（Generative Models）性能的事实标准。对于从事模型训练与评估的AI研究者而言，GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报

8582 点击 2025-11-28 09:28

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

7513 点击 2025-10-20 10:13