AI资讯新闻榜单内容搜索-多模态

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实（如 ScreenSpot）、短链操作任务（如 AndroidControl）上展现出突出的表现，标志着端侧任务自动化的初步成熟。

来自主题: AI技术研报

6595 点击 2025-07-27 13:01

首个统一「图像/视频」自适应语义分割框架来了！QuadMix刷榜多项基准

东北大学、武汉大学等的研究人员首次提出统一处理图像与视频的无监督领域自适应语义分割框架，通过四向混合机制（QuadMix）和光流引导的时空聚合模块，有效缩小跨域差异，显著提升模型性能，刷新多项基准记录。该方法不仅解决了图像与视频任务割裂的问题，还为未来多模态感知系统奠定了基础。

来自主题: AI资讯

5822 点击 2025-07-23 13:47

如何用AI构建个人知识库？

使用Google Gemini CLI构建个人知识库是高效的知识管理新方式。该工具通过命令行实现自然语言交互，能自动化整理文件、转换格式、生成结构化内容（如知识图谱）。相比云端笔记软件，其本地优先特性保障隐私且支持多模态处理，结合高质量输入可实现个性化自适应学习，本质是人与AI协同进化的工作范式升级。

来自主题: AI资讯

6714 点击 2025-07-23 09:45

抗体设计效率百倍提高！生成式AI颠覆蛋白质设计，中国力量跻身全球前列！

6月30日，OpenAI支持的Chai Discovery推出Chai-2，这款多模态生成模型展现出强大的抗体设计能力，一经发布便引起巨大轰动。

来自主题: AI资讯

8484 点击 2025-07-22 12:58

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

8222 点击 2025-07-22 09:55

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

多模态推理，也可以讲究“因材施教”？

来自主题: AI技术研报

6391 点击 2025-07-21 15:53

超越O4-mini，多模态大模型终于学会回头「看」：中科院自动化所提出GThinker模型

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步，但在需要灵活解读视觉信息的通用场景下，其性能提升瓶颈依然显著。

来自主题: AI技术研报

5547 点击 2025-07-20 11:50

演讲生成黑科技，PresentAgent从文本到演讲视频

我们提出了 PresentAgent，一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要，而我们的方案突破了这些限制，能够生成高度同步的视觉内容和语音解说，逼真模拟人类风格的演示。

来自主题: AI技术研报

6314 点击 2025-07-19 11:31

独家｜孵化中国版“GPT-4o”的无界方舟连续完成亿元级融资，基于自研多模态大模型，打造AI应用的“最强大脑”

近日，基于自研多模态大模型，旨在打造AI应用的“超级感官”与“真大脑”的创业公司——无界方舟（AutoArk）宣布连续完成Pre-A & Pre-A+轮亿元级别融资

来自主题: AI资讯

7337 点击 2025-07-16 16:37

ICML 2025｜多模态理解与生成最新进展：港科联合SnapResearch发布ThinkDiff，为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来，文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图，缺乏真正读懂图像与文本、在多模态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作，一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报

6494 点击 2025-07-16 15:19