AI资讯新闻榜单内容搜索-mPLUG

阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。

来自主题: AI技术研报

8671 点击 2024-09-13 21:27

4秒看完2小时电影，阿里团队新成果正式亮相——

来自主题: AI资讯

7891 点击 2024-08-19 16:48

今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力，引起了AI界和手机厂商的广泛关注，仅5个月的时间就已在Github上收获了2,000个Star。

来自主题: AI技术研报

11067 点击 2024-06-15 15:58

多模态文档理解能力新SOTA！阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5，针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战，提出了一系列解决方案。

来自主题: AI技术研报

9162 点击 2024-04-02 11:40

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最热的研究方向。

来自主题: AI资讯

4873 点击 2023-12-23 16:09