AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

2028年,预计高质量数据将要耗尽,数据Scaling走向尽头。2025年,测试时计算将开始成为主导AI通向通用人工智能(AGI)的新一代Scaling Law。近日,CMU机器学习系博客发表新的技术文章,从元强化学习(meta RL)角度,详细解释了如何优化LLM测试时计算。

来自主题: AI技术研报
6679 点击    2025-01-27 14:03
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。

来自主题: AI资讯
8809 点击    2025-01-26 13:30
最懂医疗的国产推理大模型,果然来自百川智能

最懂医疗的国产推理大模型,果然来自百川智能

最懂医疗的国产推理大模型,果然来自百川智能

就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。

来自主题: AI资讯
6893 点击    2025-01-26 12:16
DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型,成功秘诀竟是强化学习,不用监督微调。AI大佬们一致认为,这就是AlphaGo时刻。

来自主题: AI资讯
9039 点击    2025-01-21 12:59
Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

来了来了,月之暗面首个「满血版o1」来了!这是除OpenAI之外,首次有多模态模型在数学和代码能力上达到了满血版o1的水平。

来自主题: AI资讯
8754 点击    2025-01-21 07:44
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。

来自主题: AI技术研报
7190 点击    2025-01-11 11:22
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。

来自主题: AI资讯
6805 点击    2025-01-06 14:56
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI o1和o3模型的秘密,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。

来自主题: AI技术研报
7871 点击    2025-01-05 22:13