AI资讯新闻榜单内容搜索-PPO

段永平，投了一家AI医疗！

「中国巴菲特」段永平，押注AI医疗。数据显示，段永平Q4买入了AI医疗公司Tempus AI，新进11万股。段永平曾一手打造小霸王、步步高，还是OPPO、vivo的幕后奠基人；之后退居幕后转向投资

来自主题: AI资讯

7961 点击 2026-02-20 19:17

正浩、OPPO前高管创业AI智能运动手表，天使轮估值1亿美金 | 早期项目

硬氪获悉，AI智能运动穿戴品牌「苔源MossCode」近日完成数千万元天使轮融资，本轮由XVC和清流资本共同投资。

来自主题: AI资讯

5497 点击 2026-02-11 14:01

ICLR 2026 Oral | DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。

来自主题: AI技术研报

6720 点击 2026-02-11 13:58

英国想当“AI超级大国”，结果卡在这儿了...

全球人工智能（AI）热潮下，英国斯塔默政府在今年1月推出了雄心勃勃的“人工智能机遇行动计划”（AI Opportunities Action Plan），目标是成为“人工智能超级大国”。

来自主题: AI资讯

7182 点击 2025-12-29 15:08

OPPO 姜昱辰：从 GUI 到 Agent，AI 手机交互革命的「终局」思考

AI 手机，做真正懂你的超级助理。

来自主题: AI资讯

10344 点击 2025-12-08 14:15

DeepSeek、Gemini谁更能提供情感支持？趣丸×北大来了波情绪轨迹动态评估

近日，由趣丸科技与北京大学软件工程国家工程研究中心共同发表的《Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models（检测情感动态轨迹：大语言模型情感支持的评估框架）》论文，获 AAAI 2026 录用。

来自主题: AI技术研报

8673 点击 2025-12-08 14:13

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

8730 点击 2025-11-11 10:24

医疗AI独角兽Hippocratic AI拿下8亿融资，估值250亿，谷歌英伟达都投了

智东西11月4日消息，11月3日，美国生成式AI医疗独角兽Hippocratic AI宣布完成1.26亿美元（约合人民币8.97亿元）的C轮融资，谷歌母公司Alphabet旗下独立成长基金CapitalG参投。此轮融资也让该公司的估值达35亿美元（约合人民币249.24亿元），总融资额达到4.04亿美元（约合人民币28.77亿美元）。

来自主题: AI资讯

8095 点击 2025-11-05 11:54

让LLM不再话痨，快手HiPO框架来了

当用户向大语言模型提出一个简单问题，比如「单词 HiPPO 里有几个字母 P？」，它却正襟危坐，开始生成一段冗长的推理链：

来自主题: AI技术研报

8667 点击 2025-11-04 10:44

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

6761 点击 2025-10-19 12:06