AI资讯新闻榜单内容搜索-AIME

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AIME
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
6596 点击    2025-10-23 16:22
AIME'25满分炸场!Qwen一波七连发,全家桶大更新

AIME'25满分炸场!Qwen一波七连发,全家桶大更新

AIME'25满分炸场!Qwen一波七连发,全家桶大更新

新一代旗舰模型Qwen3-Max带着满分成绩,正式地来了——国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下100分!和前不久Qwen3-Max-Preview一致,参数量依旧是超万亿的规模。

来自主题: AI资讯
8537 点击    2025-09-24 15:30
重磅!5年破解黎曼猜想,10年接管人类认知,AI超级增长曲线揭秘

重磅!5年破解黎曼猜想,10年接管人类认知,AI超级增长曲线揭秘

重磅!5年破解黎曼猜想,10年接管人类认知,AI超级增长曲线揭秘

AI是否会在5年内破解黎曼猜想?是否会保持每年5x的算力扩张节奏?十年后,AI将把我们带向一个什么样的世界?近日,Epoch AI负责人Jaime Sevilla,与数据与分析负责人Yafah Edelman在对话中,为我们揭示了未来十年AI发展的路线图。

来自主题: AI资讯
6912 点击    2025-09-14 10:46
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

Qwen下一代模型架构,抢先来袭! Qwen3-Next发布,Qwen团队负责人林俊旸说,这就是Qwen3.5的抢先预览版。 基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。

来自主题: AI资讯
10173 点击    2025-09-12 17:21
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。

来自主题: AI技术研报
7896 点击    2025-08-23 16:12
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus

三天不开源,Qwen团队手就痒。 昨天深夜再次放出两个端侧模型: Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力 Qwen3-4B-Thinking-2507:高级推理模型,专为专家级任务设计

来自主题: AI资讯
7511 点击    2025-08-07 12:12
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯
6638 点击    2025-07-09 12:10
野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

野生DeepSeek火了,速度碾压官方版,权重开源

没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!这两天,一个名为「DeepSeek R1T2」的模型火了!这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。

来自主题: AI资讯
8520 点击    2025-07-04 22:18
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck

来自主题: AI技术研报
5374 点击    2025-06-06 12:08
睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

AI也会偷偷努力了?Letta和UC伯克利的研究者提出「睡眠时计算」技术,能让LLM在空闲时间提前思考,大幅提升推理效率。

来自主题: AI技术研报
7101 点击    2025-05-03 15:51