联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
搜索
在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
世界是动态变化的。为了理解这个动态变化的世界并在其中运行,AI 模型必须具备在线学习能力。为此,该领域提出了一种新的性能指标 —— 适应性遗憾值(adaptive regret),其定义为任意区间内的最大静态遗憾值。
想象一下,你随便用手机拍了几张家里的照片,没有精确的相机位置,甚至照片之间重叠都很少。 现在,一个新算法能把这些零散的2D图片,“拼”成一个厘米级精度的3D数字模型,效果好到可以直接放进VR头显里“云旅游”。
当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在精准控制上却常常“心有余而力不足”。
就在刚刚,据《连线》杂志报道,OpenAI 总裁 Greg Brockman 本周二在公司 Slack 群里宣布从特斯拉、xAI 和 Meta 挖来四位硬核工程师,并将加入 OpenAI 的扩展团队。值得一提的是,Dalton 和 Ruddarraju 之前也都曾在 Robinhood 工作过。
当地时间 6 月 4–5 日,在旧金山 St. Regis 酒店,一场没有模型发布的科技峰会,成了硅谷高管们确立AI新底层认知的关键节点。
Chris Pedregal是Granola的联合创始人兼首席执行官。Granola是一款由AI驱动的智能会议记录工具,正在重新定义知识工作者的工作方式,帮助用户更高效地记录、组织和调用对话中的关键信息。本文是Invest Like the Best主持人Patrick O'Shaughnessy与Chris Pedregal的访谈实录,访谈播客于2025年2月播出。
2025年2月27日,由前扩散模型领域顶尖研究者创立的Inception Labs正式发布了全球首个商业级扩散大语言模型(dLLM)——“Mercury”。这一里程碑式产品不仅在生成速度、硬件效率和成本控制上实现突破,更标志着自然语言处理技术从自回归(Autoregressive)范式向扩散(Diffusion)范式的重大跃迁。
本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
今天,OpenAI 联合创始人 Greg Brockman 宣布结束悠长假期,以总裁身份重返 OpenAI 。 「人生中最长的假期,结束了。」 Greg 在 X 上写道,回来继续搞事情。