
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。
来自主题: AI技术研报
5918 点击 2025-01-02 14:19
GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。