AI资讯新闻榜单内容搜索-PPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: PPO
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
5879 点击    2026-03-16 14:26
段永平,投了一家AI医疗!

段永平,投了一家AI医疗!

段永平,投了一家AI医疗!

「中国巴菲特」段永平,押注AI医疗。 数据显示,段永平Q4买入了AI医疗公司Tempus AI,新进11万股。 段永平曾一手打造小霸王、步步高,还是OPPO、vivo的幕后奠基人;之后退居幕后转向投资

来自主题: AI资讯
8601 点击    2026-02-20 19:17
ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

ICLR 2026 Oral | DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练(Post-training)阶段,DPO(直接偏好优化) 凭借其无需训练独立 Reward Model 的优雅设计和高效性,成功取代 PPO 成为业界的 「版本之子」,被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报
7378 点击    2026-02-11 13:58
英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

英国想当“AI超级大国”,结果卡在这儿了...

全球人工智能(AI)热潮下,英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”(AI Opportunities Action Plan),目标是成为“人工智能超级大国”。

来自主题: AI资讯
7611 点击    2025-12-29 15:08
DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

DeepSeek、Gemini谁更能提供情感支持?趣丸×北大来了波情绪轨迹动态评估

近日,由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models(检测情感动态轨迹:大语言模型情感支持的评估框架)》论文,获 AAAI 2026 录用。

来自主题: AI技术研报
9107 点击    2025-12-08 14:13
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化

近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),

来自主题: AI技术研报
9120 点击    2025-11-11 10:24
医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

医疗AI独角兽Hippocratic AI拿下8亿融资,估值250亿,谷歌英伟达都投了

智东西11月4日消息,11月3日,美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元(约合人民币8.97亿元)的C轮融资,谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元(约合人民币249.24亿元),总融资额达到4.04亿美元(约合人民币28.77亿美元)。

来自主题: AI资讯
8506 点击    2025-11-05 11:54
让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:

来自主题: AI技术研报
8994 点击    2025-11-04 10:44