AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。

来自主题: AI技术研报
9243 点击    2025-01-09 10:54
多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本性质疑。

来自主题: AI资讯
6210 点击    2025-01-02 16:31
设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

平面设计是一门艺术学科,它们致力于创造一些吸引注意力和有效传达信息的视觉内容。为了减轻人类设计师的负担,各种各样的海报生成模型相继被提出。它们只关注某些子任务,远未实现设计构图任务;它们在生成过程中不考虑图形设计的层次信息。为了解决这些问题,作者将分层设计原理引入多模态模型(LMM),并提出LaDeCo算法。

来自主题: AI技术研报
5297 点击    2024-12-31 13:02
大家都说通义大模型好,究竟好在哪?

大家都说通义大模型好,究竟好在哪?

大家都说通义大模型好,究竟好在哪?

都说国产大模型“通义千问”能打,到底是真强还是智商税?今天就带你看看,这个国产“AI猛将”凭什么火出圈! 2023年4月,阿里巴巴推出通义千问,选择了“全开源”的策略,成为全球开发者关注的焦点。而在2024年的云栖大会上,阿里云进一步发布了Qwen2.5系列,包括多个尺寸的大语言模型、多模态模型、数学模型和代码模型,涵盖从0.5B到72B的完整规模

来自主题: AI资讯
7867 点击    2024-12-25 08:52
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。

来自主题: AI技术研报
6632 点击    2024-12-18 14:38
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
7229 点击    2024-12-18 14:21
微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

距离 POINT1.0 的发布已经过去两个月时间来,在这段时间业界不断涌现出一系列优秀的模型。我们通过不断紧跟前沿技术,并结合过去开发多模态模型沉淀下来的经验,对 POINTS1.0 进行了一系列更新,推出了 POINTS1.5。

来自主题: AI技术研报
8638 点击    2024-12-17 10:52
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。

来自主题: AI技术研报
6413 点击    2024-11-30 16:29
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

BlueLM-V-3B 是一款由 vivo AI 研究院与香港中文大学联合研发的端侧多模态模型。该模型现已完成对天玑 9300 和 9400 芯片的初步适配,未来将逐步推出手机端应用,为用户带来更智能、更便捷的体验。

来自主题: AI技术研报
5439 点击    2024-11-29 15:30