
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。
随着AI Agent 在工作场所日益普及,个人可能会与之紧密协作。波士顿咨询集团报告指出,未来五年内,AI Agent 市场预计将以45%的复合年增长率扩张。
医疗大模型知识覆盖度首次被精准量化!
GPT-4o图像生成架构被“破解”了!
在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好。
事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了——
Scale AI 等提出的新基准再次暴露了大语言模型的弱点。
说到2024年AI圈的热门话题,当然不能错过视频生成模型了! 即使是在12月,国内外视频模型的更新脚步依旧没有放缓。其中以Sora、可灵AI为代表。
2024年快要结束了,世界大模型究竟孰强孰弱?刚刚,智源研究院发布了下半年大模型综合评测结果,涵盖了开源闭源100+模型,横跨文本、语音、图像和视频等多个领域。
2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。