AI资讯新闻榜单内容搜索-多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态

演讲生成黑科技，PresentAgent从文本到演讲视频

演讲生成黑科技，PresentAgent从文本到演讲视频

演讲生成黑科技，PresentAgent从文本到演讲视频

我们提出了 PresentAgent，一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要，而我们的方案突破了这些限制，能够生成高度同步的视觉内容和语音解说，逼真模拟人类风格的演示。

来自主题: AI技术研报

7781 点击 2025-07-19 11:31

独家｜孵化中国版“GPT-4o”的无界方舟连续完成亿元级融资，基于自研多模态大模型，打造AI应用的“最强大脑”

独家｜孵化中国版“GPT-4o”的无界方舟连续完成亿元级融资，基于自研多模态大模型，打造AI应用的“最强大脑”

独家｜孵化中国版“GPT-4o”的无界方舟连续完成亿元级融资，基于自研多模态大模型，打造AI应用的“最强大脑”

近日，基于自研多模态大模型，旨在打造AI应用的“超级感官”与“真大脑”的创业公司——无界方舟（AutoArk）宣布连续完成Pre-A & Pre-A+轮亿元级别融资

来自主题: AI资讯

8616 点击 2025-07-16 16:37

ICML 2025｜多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

ICML 2025｜多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

ICML 2025｜多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来，文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图，缺乏真正读懂图像与文本、在多模态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作，一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报

8152 点击 2025-07-16 15:19

5个月估值120亿！OpenAI前CTO自曝首个多模态AI，竟要免费开源

5个月估值120亿！OpenAI前CTO自曝首个多模态AI，竟要免费开源

5个月估值120亿！OpenAI前CTO自曝首个多模态AI，竟要免费开源

交易成了！OpenAI前CTO初创拿到了20亿种子轮融资，成立5个月公司估值冲到120亿美元。未来几个月，这个汇聚OpenAI顶尖大佬团队，将发布首个多模态AI产品，还会开源部分组件。

来自主题: AI资讯

6891 点击 2025-07-16 12:23

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX重塑AI多模态长期记忆：超Gemini 410%，节省99.9%内存，APP同步上线

MIRIX，一个由 UCSD 和 NYU 团队主导的新系统，正在重新定义 AI 的记忆格局。

来自主题: AI技术研报

7951 点击 2025-07-16 10:25

面壁“小钢炮”登上 Nature 子刊，8B 多模态综合性能超越 GPT-4V、Gemini Pro

面壁“小钢炮”登上 Nature 子刊，8B 多模态综合性能超越 GPT-4V、Gemini Pro

面壁“小钢炮”登上 Nature 子刊，8B 多模态综合性能超越 GPT-4V、Gemini Pro

7 月 1 日，国际顶级学术期刊《Nature》旗下子刊《Nature Communications》正式刊登了来自清华、面壁等研究团队联合研发的高效端侧多模态大模型MiniCPM-V 核心研究成果。

来自主题: AI资讯

9839 点击 2025-07-16 10:18

谷歌T5Gemma重燃架构之战！「套壳」反杀Gemma本尊，9B推理快得离谱

谷歌T5Gemma重燃架构之战！「套壳」反杀Gemma本尊，9B推理快得离谱

谷歌T5Gemma重燃架构之战！「套壳」反杀Gemma本尊，9B推理快得离谱

Google双线出击！T5Gemma重燃encoder-decoder架构战火，性能暴涨12分；MedGemma坚守decoder-only路线，强攻医疗多模态，击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化，打响Google开源反击战。

来自主题: AI技术研报

7971 点击 2025-07-15 15:05

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型（LLM）的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力，但经过多模态训练后，这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报

7366 点击 2025-07-15 10:07

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

VLA 推理新范式！一致性模型 CEED-VLA 实现四倍加速！

近年来，视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型因其出色的多模态理解与泛化能力，已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展，但在实际部署中，尤其是在高频率和精细操作等任务中，VLA 模型仍受到推理速度瓶颈的严重制约。

来自主题: AI技术研报

6993 点击 2025-07-14 11:12

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。

来自主题: AI资讯

8196 点击 2025-07-13 11:53

上一页当前第16页,共86页下一页