AI资讯新闻榜单内容搜索-Ai测评

“确实来钱快”！王自如宣布在AI领域重新创业，称离开格力是人生低谷，感谢雷军和董明珠

6月5日，微博认证为“ZEALER创始人&CEO”的王自如发文称，“明天我想用15分钟的时间带大家了解我为什么离开 ZEALER 、为什么离开格力，以及我为什么在AI领域选择二次创业，期待明天与大家重新认识。

来自主题: AI资讯

7169 点击 2025-06-06 16:20

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？

来自主题: AI技术研报

6965 点击 2025-05-06 14:09

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

多模态大模型几何解题哪家强？

来自主题: AI技术研报

7423 点击 2025-04-28 17:35

离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？

最近，我撞见了一个 DeepSeek 又“认真”又“拧巴”的怪异场景。

来自主题: AI技术研报

7971 点击 2025-04-23 10:23

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

近年来，代码评测集数量激增，但质量参差不齐。为规范其开发，香港科技大学联合多所高校研究了过去十年的274个代码评测集，发现诸多问题，如数据重复、测试用例错误、隐私信息未删除等。基于此，他们推出了《代码评测集发展指南55项》（How2Bench），涵盖设计、构建、评测、分析、发布五大阶段，旨在提升代码评测集的质量与可靠性。

来自主题: AI技术研报

7026 点击 2025-03-18 10:54

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么，DeepSeek-R1 的 ARC-AGI 成绩如何呢？根据 ARC Prize 发布的报告，R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型，更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势：成本低。

来自主题: AI技术研报

5979 点击 2025-02-17 17:47

比较AI编码平台：用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型（如VLMs，例如Minimax、Qwen-V）和尖端图像生成技术（如Flux 1.1）的快速发展，我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解，这些工具使得生产广告级别的关键视觉（KVs）成为可能，且具有显著的真实感。

来自主题: AI技术研报

9222 点击 2024-11-29 09:53

“奇葩”编程题，仅OpenAI与一国产模型破解，来看看新AGI路线怎么初露锋芒

OpenAI o1大火之后，国内外上演的AI推理能力竞赛可以说是2024下半年AI领域最大看点了。

来自主题: AI技术研报

7164 点击 2024-11-29 09:24

大模型我问你，你是什么数学水平？｜AI测评师

完蛋了，高考落榜了！

来自主题: AI资讯

8871 点击 2024-11-27 16:08

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

7316 点击 2024-11-20 15:02

AI资讯新闻榜单内容搜索-Ai测评

“确实来钱快”！王自如宣布在AI领域重新创业 ，称离开格力是人生低谷，感谢雷军和董明珠

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

Gemini-2.0夺冠！全球首个几何推理专项评测出炉，淘天集团出品

离谱！DeepSeek数个字母，竟要“反思内耗”八百遍？

超70%代码基准没有质量保证！港科大最新「指南」全面调研10年274个评测集

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

比较AI编码平台：用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

“奇葩”编程题，仅OpenAI与一国产模型破解，来看看新AGI路线怎么初露锋芒

大模型我问你，你是什么数学水平？｜AI测评师

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

“确实来钱快”！王自如宣布在AI领域重新创业，称离开格力是人生低谷，感谢雷军和董明珠