AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 多模态
Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

Meta斯坦福大学联合团队全面研究多模态大模型(LMM)中驱动视频理解的机制,扩展了视频多模态大模型的设计空间,提出新的训练调度和数据混合方法,并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。

来自主题: AI技术研报
6685 点击    2024-12-20 15:59
28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

28年数据枯竭?AI炼出数据飞轮2.0,智能体+多模态数据湖硬核掘金

面对AI圈疯传的「数据如化石燃料一般正在枯竭」,我们该如何从海量数据中掘金?AI炼出的数据飞轮2.0,或许就是答案。

来自主题: AI资讯
4808 点击    2024-12-19 13:10
李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通,我们既使用言语语言,也使用身体语言,比如手势、面部表情、身体姿势和情绪表达。

来自主题: AI技术研报
6353 点击    2024-12-18 14:38
Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

Florence-VL 提出了使用生成式视觉编码器 Florence-2 作为多模态模型的视觉信息输入,克服了传统视觉编码器(如 CLIP)仅提供单一视觉表征而往往忽略图片中关键的局部信息。

来自主题: AI技术研报
6946 点击    2024-12-18 14:21
微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

微信正式发布多模态大模型POINTS1.5

距离 POINT1.0 的发布已经过去两个月时间来,在这段时间业界不断涌现出一系列优秀的模型。我们通过不断紧跟前沿技术,并结合过去开发多模态模型沉淀下来的经验,对 POINTS1.0 进行了一系列更新,推出了 POINTS1.5。

来自主题: AI技术研报
8315 点击    2024-12-17 10:52
谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态

继量子芯片之后,谷歌又来抢“OpenAI双12直播”的流量了! 就在刚刚,谷歌新一代大模型Gemini 2.0突然登场,再次由谷歌CEO皮猜亲自官宣。

来自主题: AI资讯
5635 点击    2024-12-12 09:14
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报
5913 点击    2024-12-07 15:02
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略

阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略

多模态检索增强生成(mRAG)也有o1思考推理那味儿了! 阿里通义实验室新研究推出自适应规划的多模态检索智能体。 名叫OmniSearch,它能模拟人类解决问题的思维方式,将复杂问题逐步拆解进行智能检索规划。

来自主题: AI资讯
6269 点击    2024-12-04 16:57