AI资讯新闻榜单内容搜索-AI视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: AI视觉

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

当前，测试时扩展范式普遍致力于增加推理长度。然而，已有研究表明，随着推理长度的持续增长，以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此，从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报

8555 点击 2026-05-25 09:49

斯坦福系视觉AI公司Collov，完成2300万美元A轮，押注摄像头是AI新入口

斯坦福系视觉AI公司Collov，完成2300万美元A轮，押注摄像头是AI新入口

斯坦福系视觉AI公司Collov，完成2300万美元A轮，押注摄像头是AI新入口

创始人张霄昨天，2026年4月23日，宣布融资2300万美元，也成立了Collov Labs Research，资金用于扩充研究团队和加速视觉AI系统研发，而非单纯的商业扩张。

来自主题: AI资讯

5930 点击 2026-04-26 12:11

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9425 点击 2026-04-24 16:13

AURA：让视频大模型从“看完再答”，走向“边看边理解、边看边响应”

AURA：让视频大模型从“看完再答”，走向“边看边理解、边看边响应”

AURA：让视频大模型从“看完再答”，走向“边看边理解、边看边响应”

近年来，视频多模态大模型（VideoLLM）发展迅猛，在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强，业界也开始思考一个更重要的问题：视频大模型能不能不再只是 “看完一段视频再回答”，而是真正进入实时世界，持续观察、实时理解，并在关键时刻主动给出反馈？

来自主题: AI技术研报

6245 点击 2026-04-21 09:23

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

速递｜Pinterest集中资源转向AI，获Elliott 10亿美金背书，新功能AI视觉搜索、AI购物助手

激进投资者艾略特投资管理公司已持有Pinterest 价值 10 亿美元股份，该公司以积极参与企业决策而闻名。该机构首次投资这家社交平台是在 2022 年。

来自主题: AI资讯

9135 点击 2026-03-05 09:09

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

6861 点击 2026-01-31 12:30

任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

任意图像+视频=无限创意！港科大BiCo：AI视频进入组合时代，随意换角

BiCo是一种创新的AI视觉内容生成方法，能灵活组合图像和视频中的视觉概念，实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新，解决了现有方法在概念提取和组合上的问题，让AI真正理解并融合视觉元素。

来自主题: AI技术研报

6696 点击 2026-01-06 16:16

最鲁棒的MLLM！港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM！港科大开源「退化感知推理新范式」 | AAAI'26

最鲁棒的MLLM！港科大开源「退化感知推理新范式」 | AAAI'26

多模态大语言模型（MLLMs）已成为AI视觉理解的核心引擎，但其在真实世界视觉退化（模糊、噪声、遮挡等）下的性能崩溃，始终是制约产业落地的致命瓶颈。

来自主题: AI技术研报

9222 点击 2025-12-25 09:44

MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law

MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law

MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law

2025 年还有一周结束，年底，AI 视频圈又卷起来了。

来自主题: AI技术研报

9330 点击 2025-12-22 16:02

比LoRA更快更强，全新框架LoFA上线，秒级适配大模型

比LoRA更快更强，全新框架LoFA上线，秒级适配大模型

比LoRA更快更强，全新框架LoFA上线，秒级适配大模型

在个性化视觉生成的实际应用中，通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果，通常需对大模型进行针对性的自适应微调，但当前以 LoRA 为代表的主流方法，仍受限于定制化数据收集与冗长的优化流程，耗时耗力，难以在真实场景中广泛应用。

来自主题: AI技术研报

6900 点击 2025-12-18 09:12

上一页当前第1页,共6页下一页