# 热门搜索 #
搜索
搜索: GPT-4
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。

来自主题: AI技术研报
7890 点击    2024-08-08 14:41
GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。

来自主题: AI技术研报
9070 点击    2024-08-03 14:38