AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

就在刚刚,网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,30美元就能见证「啊哈时刻」!全球AI大模型,或许正在进入下一分水岭。

来自主题: AI资讯
8301 点击    2025-01-26 13:30
最懂医疗的国产推理大模型,果然来自百川智能

最懂医疗的国产推理大模型,果然来自百川智能

最懂医疗的国产推理大模型,果然来自百川智能

就在本周,Kimi 的新模型打开了强化学习 Scaling 新范式,DeepSeek R1 用开源的方式「接班了 OpenAI」,谷歌则把 Gemini 2.0 Flash Thinking 的上下文长度延伸到了 1M。1 月 24 日上午,百川智能重磅发布了国内首个全场景深度思考模型,把这一轮军备竞赛推向了高潮。

来自主题: AI资讯
6422 点击    2025-01-26 12:16
DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

DeepSeek开源o1击毙OpenAI,强化学习惊现「啊哈」时刻!网友:AGI来了

中国版o1刷屏全网。DeepSeek R1成为世界首个能与o1比肩的开源模型,成功秘诀竟是强化学习,不用监督微调。AI大佬们一致认为,这就是AlphaGo时刻。

来自主题: AI资讯
8614 点击    2025-01-21 12:59
Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

Kimi硬刚多模态满血版o1,首曝训练细节!强化学习scaling新范式诞生

来了来了,月之暗面首个「满血版o1」来了!这是除OpenAI之外,首次有多模态模型在数学和代码能力上达到了满血版o1的水平。

来自主题: AI资讯
8340 点击    2025-01-21 07:44
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。

来自主题: AI技术研报
6714 点击    2025-01-11 11:22
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。

来自主题: AI资讯
6486 点击    2025-01-06 14:56
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图

OpenAI o1和o3模型的秘密,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。

来自主题: AI技术研报
7587 点击    2025-01-05 22:13
多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

在人工智能领域,具有挑战性的模拟环境对于推动多智能体强化学习(MARL)领域的发展至关重要。在合作式多智能体强化学习环境中,大多数算法均通过星际争霸多智能体挑战(SMAC)作为实验环境来验证算法的收敛和样本利用率。

来自主题: AI技术研报
7608 点击    2025-01-05 20:51
OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」

OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」

OpenAI研究员首次提出「AGI时间」进化论!o1数学已达「分钟级AGI」

本月,OpenAI科学家就当前LLM的scaling方法论能否实现AGI话题展开深入辩论,认为将来AI至少与人类平分秋色;LLM scaling目前的问题可以通过后训练、强化学习、合成数据、智能体协作等方法得到解决;按现在的趋势估计,明年LLM就能赢得IMO金牌。

来自主题: AI技术研报
7182 点击    2024-12-28 13:48