AI资讯新闻榜单内容搜索-PPO

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: PPO
AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?

AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?

AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?

庸笔下的乔峰,在聚贤庄单挑群雄时,用一套人人会使的「太祖长拳」,打出了震慑全场的必杀效果。这门功夫看似平平无奇,却因使用者内力深厚、大巧不工,而威力无穷。

来自主题: AI资讯
5906 点击    2025-07-27 13:52
Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66

Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66

Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66

近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。Agent KB 通过层级化的经验检索,让智能体能够从其他任务的成功经验中学习,显著提升了复杂推理和问题解决能力。

来自主题: AI技术研报
6794 点击    2025-07-25 16:50
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
6386 点击    2025-07-04 09:44
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5891 点击    2025-06-22 16:08
Redis 8为向量相似性推出新的数据结构

Redis 8为向量相似性推出新的数据结构

Redis 8为向量相似性推出新的数据结构

Redis 最近推出向量集合(Vector Set) 功能,这是一种专为向量相似性设计的数据类型,也是 Redis 针对人工智能应用的一个新的选项。这是 Redis 创始人 Salvatore Sanfilippo(“antirez”)自 重新加入 公司以来的第一个重大贡献。

来自主题: AI资讯
7934 点击    2025-05-12 14:28
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
5632 点击    2025-04-28 14:09
DeepSeek引爆AI手机,SoC市场再掀波澜

DeepSeek引爆AI手机,SoC市场再掀波澜

DeepSeek引爆AI手机,SoC市场再掀波澜

近年来,AI成为了国内手机市场上的最大热点。根据市研机构IDC的定义,AI手机有几个关键指标和特性:算力大于30TOPS的NPU、支持生成式AI模型的SoC、可以端侧运行各种大模型。而就在过去一年,国内AI手机市场迅猛发力。华为、小米、vivo、OPPO、荣耀等手机厂商,均已迅速在旗下产品上接入各自的云端或端侧AI大模型。

来自主题: AI资讯
4984 点击    2025-02-23 14:55
安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

安卓装DeepSeek就敢卖8999!最薄折叠?那没事了

8999!比iPhone 16 Pro还贵,史上起售价最高的国产安卓AI手机来了!

来自主题: AI资讯
4978 点击    2025-02-21 09:29