AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLLM
ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM化学大模型开源,wisemodel社区在线体验,助力化学研究

ChemLLM系列模型是由上海人工智能实验室开发的首个兼备推理、对话等通用能力和化学专业能力的开源大模型。相比于现有的其他大模型,ChemLLM对化学空间进行了有效建模,在产物预测、名称转化和化学性质预测等核心化学任务上表现优异。ChemLLM系列模型已经发布到了始智AI wisemodel.cn开源社区,并且无需任何代码,两步即可完成模型的在线体验。

来自主题: AI资讯
9238 点击    2024-05-27 09:09
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。

来自主题: AI技术研报
5200 点击    2024-05-20 18:56
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

近期,多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。

来自主题: AI技术研报
9149 点击    2024-04-25 19:32
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报
7459 点击    2024-04-22 17:42
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯
8161 点击    2024-03-01 13:47
文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E 3

来自主题: AI技术研报
3817 点击    2024-02-17 11:00
一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。

来自主题: AI资讯
7355 点击    2024-02-04 13:39
准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用4761个多样化图像序列的集合,全面测试MLLM对碎散图像序列的推理能力!

来自主题: AI技术研报
1939 点击    2024-01-31 11:19