高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
Mistral的多模态大模型来了!Pixtral 12B正式发布,同时具备语言和视觉处理能力。
随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。
在AI-2.0时代,OCR模型的研究难道到头了吗!?
免训练多模态分割领域有了新突破!
近日,由北京大学人工智能研究院杨耀东课题组牵头完成的研究成果 ——「大规模多智能体系统的高效强化学习」在人工智能顶级学术期刊 Nature Machine Intelligence 上发表。
头部模型的新一代模型的是市场观测、理解 LLM 走向的风向标。即将发布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 无疑是 AGI 下半场最关键的事件。
该论文作者来自复旦大学、中电金信及上海智能视觉计算协同创新中心团队,论文已被多媒体领域顶级国际会议 ACM MultiMedia 2024 接收,并将在该大会上进行口头报告(Oral 接收率仅 3.97%)。
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!
新的最强开源多模态大模型来了!