
谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源
谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源统一图像理解和生成,还实现了新SOTA。
统一图像理解和生成,还实现了新SOTA。
ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 一场关于「机制可解释性」的路线分歧,正撕裂AI研究最核心的价值共识。谷歌认怂,Anthropic死磕——AI还能被「看懂」吗?
教AI学会使用工具,带图推理就能变得更强?!
强化学习(RL)+真实搜索引擎,可以有效提升大模型检索-推理能力。
该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。
近日,腾讯 PCG 社交线的研究团队针对这一问题,采用强化学习(RL)训练方法,通过分组相对策略优化(Group Relative Policy Optimization, GRPO)算法,结合基于奖励的课程采样策略(Reward-based Curriculum Sampling, RCS),将其创新性地应用在意图识别任务上,
最近,Google 推出了一个可以精准控制画面中光影的项目 —— LightLab。 它让用户能够从单张图像实现对光源的细粒度参数化控制, 可以改变可见光源的强度和颜色、环境光的强度,并且能够将虚拟光源插入场景中。
多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此,在AI竞赛进入“下半场”之际(由最近的OpenAI研究员姚顺雨所引发的共识观点),设计科学的评估机制俨然成为决定胜负的核心关键。
梁文锋亲自参与的DeepSeek最新论文,来了!
打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型?