推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析
推荐系统进入「双动力」时代!首篇LLM-RL协同推荐综述深度解析强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。
强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。
你见过 7B 模型在拼图推理上干翻 GPT-5 吗?
当 AI agent 需要一个「家」的时候,它们没有住进独立的 App,而是搬进了聊天软件。
让AI自己写高性能GPU代码,字节Seed与清华AIR团队做到了。
Tabbit 背后的团队,是美团的光年之外 对,就是那个最早由王慧文老师创办,后来并入美团的那个光年之外
Seedance 2.0 有多火爆,这几天国内外网友分享的实测视频,或许都能略窥一二。
1 月中旬,白鲸出海受亚马逊全球开店活动邀请,前往东莞与多位卖家交流出海经验,除了此前报道过的计划用 AI 赋能家庭娱乐的音箱品牌 Ikarao,在相距不到 20分钟的车程内,另一家主打“硬核”产品的 BOSGAME 同样成绩不俗,跨境业务三年复合增长率 120%。但由于产品性质的巨大差异,专攻 PC 硬件的 BOSGAME,分享了完全不同的成长思考。
me stepping down. bye my beloved qwen.(我将卸任。再见了,我深爱的 qwen。) 3 月 4 日凌晨,阿里通义千问(Qwen)技术负责人林俊旸在 X 突然发文,向自己一手带大的开源模型项目告别。
全球最大的卡路里追踪平台 MyFitnessPal 正式宣布,已完成对后起之秀 Cal AI 的收购。CalAI,这个由高中生 Zach Yadegari 发起的创业项目也迎来阶段性的结局,收购后,产品仍将独立运营,Zach Yadegari 在内 7 名成员均将加入 MyFitnessPal。(可参见我们的置顶文章《17岁高中生做AI App,不到4个月入账百万美元,独立开发者迎来春天?》)
前段时间 AI 浏览器扎堆上线,从 OpenAI 的 Atlas 到 Perplexity Comet,国内的 QQ浏览器、夸克/千问纷纷进入赛道。浏览器这个「老古董」突然成了 AI 赛道的香饽饽。大小厂都在抢,都想占个入口位置。
Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。
昨天深夜,阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列,覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布,便在海外科技圈引发强烈反响。马斯克也在该推文下评论称:「Impressive intelligence density」(令人印象深刻的智能密度)。这股热度的背后,APPSO 也好奇,为什么这几款小模型能够激起如此大的波澜?
Claude深夜宕机,全网哀嚎一片。就在今天,美财政部官宣:全面停用Claude。硅谷数百名CEO和大佬联名,掀起Anthropic保卫战。
在这一众身位领先的选手中,小米展现出的「AI浓度」高得有那么亿点点离谱——此次,小米将AI赋能的「人车家全生态」首次亮相海外,从手机到汽车再到智能家居,AI贯穿生活动线,在真实环境中形成协同运转。
PureblueAI清蓝也同步发布了新产品——AI 营销数字员工平台mkter.ai,以及 AI 口碑营销数字员工“Mark”。
莫理这两天在 GitHub 上淘到了一个开源的实用工具,刚好能把这块短板给彻底补齐!这就是咱们今天的主角:Edit Banana,通用内容再编辑器。
没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。
来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。
强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。
为了松绑参数与计算量,MoE 曾被寄予厚望 。它靠着稀疏激活的专家子网络,在一定程度上实现了模型容量与计算量的解耦 。然而,近期的研究表明,这并非没有代价的免费午餐 :稀疏模型通常具有更低的样本效率 ;随着稀疏度增大,路由负载均衡变得更加困难 ,且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型 。
仅用两月,本地AI框架OpenClaw击败Linux,登顶GitHub星标榜!本文回顾了OpenClaw爆火之路,及其背后反映的开源社区趋势变化。
当传统媒体还在急于拼凑前线的碎片,当西装革履的智库专家还在连夜召开研讨会时,一个残酷的现实已经摆在所有人面前:在信息爆炸的地缘政治博弈中,如果你还在依赖人工分析和新闻推送来观察一场战争,你已经彻底沦为信息差的最底端。
OpenAI 意外泄露 GPT-5.4!新版凭 200 万 Tokens 与「状态化 AI」实现跨会话持久记忆,并支持全分辨率视觉直读。AI 将从聊天工具向「全自动代理」进化,彻底重塑工作流并引爆底层硬件内存之战。
不卖关子,它正是由上海科学智能研究院(上智院)联合复旦大学最新发布的超级科研合伙人——大圣。是一个系统级的、面向科学探索的高能动性智能体,致力于持续推动科研范式变革。
2月13日,OpenClaw官方的博文提到,一个由OpenClaw驱动的机器人证明了自主智能体在预测市场的强大潜力——单周狂揽11.5万美元利润。1月底,Polymarket也发布过一条有趣的帖子:Agent们正在Polymarket上进行交易,试图补贴自己的token成本。
「Her」的实体化在所难免。 作者|靖宇 在斯派克 ·琼斯执导的电影《Her》里,影帝华金·菲尼克斯饰演的男主人公,把手机揣在上衣兜里,开启摄像头,来让 AI 助手 Smantha 能看到外部世界。
《读佳》获悉,百度此前低调上线小程序AI悠鸭。 据了解,AI悠鸭是一款AI旅行助手小程序,基于大模型与地图相关能力,为用户提供从行前规划到行中伴游的一站式旅游出行智能陪伴服务。 同时据知情人士,该小程
比如他描述Elys为「光屁股版的即刻」。前两天又锐评Openclaw,「我觉得这是一个情感陪伴产品」。我深刻怀疑,松辽平原存在一种魔力,让东北孩子说话都像小嘴淬了蜜。
MMLab@NTU联合中山大学的最新研究,给出了一份从入门到精通的终极“菜谱”——VLANeXt。这项研究没有简单提出一个新模型了事,而是系统性地从12个关键维度,深度剖析了VLA的设计空间。从基础组件到感知要素,再到动作建模的额外视角,每一步都有扎实的实验支撑。
今日,美团旗下光年之外团队宣布其首款AI浏览器Tabbit正式开启免费公测。 相比于传统浏览器,Tabbit的最大特色是支持“智能代理模式”。该模式能帮你执行复杂的网页操作任务,模拟人工操作,自动打开网页、提取信息、填写表单、跨平台整合数据等操作,把结果交付给你。