
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
来自主题: AI技术研报
6274 点击 2024-09-13 21:27
高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
4秒看完2小时电影,阿里团队新成果正式亮相——
今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。
多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。