腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。
搜索
大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。
刚刚过去的2026智源大会上,由智源研究院孵化的星源智发布了全球首个具身交互世界模型ω-EVA,就这一前沿命题给出了全新的差异化解法。传统世界模型的困境是"只预测,不参与"。它们训练时学习未来状态,推理时却与动作生成分割——视频生成得再精美,机器人该撞墙还是撞墙。
偷师、借道、换血、误删……折腾到最后,xAI成了给对手供电的人。
大家好,我是袋鼠帝。 6月,感觉又是模型爆发的月份。
更聪明的计算远比更多的计算更有效。
尽管大语言模型(Large Language Models, LLMs)在复杂数学推理、代码生成和知识问答上表现突出,但它们仍常在多位数加法这类基础算术任务上犯错。
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。
刚刚被 SpaceX 宣布以 600 亿美元收购的 Cursor,发布大模型了。本周二,Cursor 宣布了一个新的 1.5 万亿 + 参数模型,该模型在超过 10 万块 GPU 上进行了预训练。消息是在旧金山举行的 Cursor Compile 上宣布的,这是 Cursor 举办的首届旗舰大会。
6 月初,一则关于爆款 AR 手游《精灵宝可梦 GO》(Pokémon GO,以下简称《宝可梦 Go》)的消息开始发酵:有报道称,Niantic(《宝可梦 Go》开发商)过去通过玩家收集的现实世界图像和空间数据,正被用于训练一种可能服务于无人机导航的人工智能系统,而合作方之一 Vantor 与军工、国防场景存在关联。
机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。