
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
网友挺生气。
不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。
近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。
GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。
FLUX.1 Kontext是一款融合即时文本图像编辑与文本到图像生成的新一代模型,支持文本与图像提示,角色一致性强,速度快达GPT-Image-1的8倍。
在 「What's Next|科技早知道」 的播客节目中,峰瑞资本执行董事 刘鹏琦 和「声动活泼」联合创始人&「科技早知道」主播 丁教Diane ,以及「科技早知道」节目监制 雅娴 ,围绕具身智能赛道所处的新阶段与核心挑战,探讨了以下问题,包括但不限于:
3月时候GPT迎来了一波更新,在文生图、图生图领域带来了巨大更新,而紧接而至的却是一些创业公司的哀嚎:
近半年来,OpenAI 形象开始变得灰暗: 团队骨干相继离职引发猜疑、组织转型遭受口诛笔伐、GPT-4.5/Sora 等模型表现不及预期,还有被 DeepSeek R1 打破的叙事神话……
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。