ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
搜索
在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
当AI浪潮掀起千层巨浪,于企业而言,向AI转型已经从求增长变成生存的根本。
OpenAI,如今已经命悬一线了?如果未能成功转型为公共利益公司,它或将遭受重大打击,从此一蹶不振。微软也是急得很,虽然和OpenAI快闹崩了,但在谈判数十亿美元合作条款时,还是硬着头皮忍痛割肉股份,只为续命2030年后的AI入场券。
AI 不允许有人不会搭乐高。
如何将一句简单的文字描述变成物理稳定的乐高模型?LegoGPT通过物理感知技术,确保98.8%的设计稳如磐石。
一个年仅18岁的高中生,独立操刀人生首个科研项目,就作为唯一作者在天文学领域的顶刊发表论文,并且凭此夺得重要科学奖项。这不是励志故事中的文学情节,而是现实世界中的真人真事。
近日,国内具身智能企业“灵御智能”宣布完成千万级种子轮融资,本轮融资由英诺天使基金领投,水木校友种子基金、远镜创投跟投。
谷歌最新发布的76页AI智能体白皮书,深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划,能够完成复杂任务并做出高级决策。从智能体运维(AgentOps)到多智能体协作,这份白皮书为AI智能体指明了方向。
字节近期开源了 FlowGram,这是一套以节点为基础的流程构建引擎。该引擎已在飞书工作流和扣子自动化等产品中作为核心可视化流程引擎投入使用。
递归思考 + 自我批判,CoRT 能带来 LLM 推理力的飞跃吗?