AI资讯新闻榜单内容搜索-GPT-4o

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

8454 点击 2025-05-25 11:44

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

8889 点击 2025-05-24 17:34

上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

来自主题: AI技术研报

7140 点击 2025-05-23 15:46

AI替咱打工搞翻译，到底谁家最好用？

来自主题: AI资讯

7837 点击 2025-05-23 13:03

OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是：

来自主题: AI技术研报

9629 点击 2025-05-23 11:42

判断AI是否智能，评价维度如今已不仅限于刷榜成绩。

来自主题: AI技术研报

8718 点击 2025-05-22 15:25

自回归（AR）范式凭借将语言转化为离散 token 的核心技术，在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫语言领域。

来自主题: AI技术研报

7903 点击 2025-05-18 14:28

AI市场风起云涌！Poe最新报告揭晓：OpenAI的GPT-4o称霸文本生成，谷歌的Gemini 2.5 Pro领跑推理，Kling在视频领域异军突起，企业如何在这场AI竞赛中抢占先机？

来自主题: AI资讯

8961 点击 2025-05-17 15:33

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能，已成为图像生成（Stable Diffusion, Flux）和视频生成（可灵，WanX，Hunyuan）领域最先进模型的训练方法。然而，这些最先进的模型在处理包含多个物体、属性与关系的复杂场景，以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报

9777 点击 2025-05-14 10:19

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。

来自主题: AI技术研报

5553 点击 2025-05-12 10:22