AI资讯新闻榜单内容搜索-PPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: PPO
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
6191 点击    2025-07-04 09:44
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5795 点击    2025-06-22 16:08
Redis 8为向量相似性推出新的数据结构

Redis 8为向量相似性推出新的数据结构

Redis 8为向量相似性推出新的数据结构

Redis 最近推出向量集合(Vector Set) 功能,这是一种专为向量相似性设计的数据类型,也是 Redis 针对人工智能应用的一个新的选项。这是 Redis 创始人 Salvatore Sanfilippo(“antirez”)自 重新加入 公司以来的第一个重大贡献。

来自主题: AI资讯
7863 点击    2025-05-12 14:28
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5561 点击    2025-04-28 14:09
DeepSeek引爆AI手机,SoC市场再掀波澜

DeepSeek引爆AI手机,SoC市场再掀波澜

DeepSeek引爆AI手机,SoC市场再掀波澜

近年来,AI成为了国内手机市场上的最大热点。根据市研机构IDC的定义,AI手机有几个关键指标和特性:算力大于30TOPS的NPU、支持生成式AI模型的SoC、可以端侧运行各种大模型。而就在过去一年,国内AI手机市场迅猛发力。华为、小米、vivo、OPPO、荣耀等手机厂商,均已迅速在旗下产品上接入各自的云端或端侧AI大模型。

来自主题: AI资讯
4898 点击    2025-02-23 14:55
安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

8999!比iPhone 16 Pro还贵,史上起售价最高的国产安卓AI手机来了!

来自主题: AI资讯
4911 点击    2025-02-21 09:29
医疗具身智能发展到哪了?看这一篇综述就够了!

医疗具身智能发展到哪了?看这一篇综述就够了!

医疗具身智能发展到哪了?看这一篇综述就够了!

由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者

来自主题: AI技术研报
4862 点击    2025-01-29 13:18
Decagon:用 AI Agent 解放客服团队,能否成为下一个独角兽?

Decagon:用 AI Agent 解放客服团队,能否成为下一个独角兽?

Decagon:用 AI Agent 解放客服团队,能否成为下一个独角兽?

Decagon 专注于 AI for Customer Support 领域,致力于用 AI Agent 彻底改变客户服务体验。他们打造的不是简单的聊天机器人,而是能不断进化的 AI Agent 引擎,能够真正理解客户的需求并高效地解决问题。

来自主题: AI资讯
8472 点击    2025-01-24 15:38