AI资讯新闻榜单内容搜索-AI

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

9065 点击 2025-07-05 12:10

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

刚刚，Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

来自主题: AI资讯

10715 点击 2025-07-05 11:38

不学美国砸钱烧AI，欧洲科技巨头另辟蹊径

欧洲科技巨头的CEO最新表示，欧洲在人工智能领域展开竞争时并不需要大量建立数据中心，这一说法与上月黄仁勋访欧时提出的说法相悖。当地时间周四（7月3日），德国思爱普公司（SAP）首席执行官柯睿安（Christian Klein）在接受采访时说道：“我们真的需要建五个数据中心再把高性能芯片放进去吗？”

来自主题: AI资讯

9388 点击 2025-07-05 11:33

Perplexity发布Max订阅计划：每月200美元解锁无限AI生产力

Perplexity近日正式推出其最高级别的订阅计划——Perplexity Max。该计划定价为每月200美元或每年2000美元，主要面向需要进行频繁查询和复杂项目处理的专业用户。Perplexity Max为用户提供了无限调用Perplexity Labs、抢先体验新功能

来自主题: AI资讯

9788 点击 2025-07-04 22:31

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9865 点击 2025-07-04 22:18