
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
谷歌最新发布的76页AI智能体白皮书,深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划,能够完成复杂任务并做出高级决策。从智能体运维(AgentOps)到多智能体协作,这份白皮书为AI智能体指明了方向。
根据TechCrunch和Semafor等报道,美国财政部正在审查Benchmark Capital对中国初创公司Manus AI的7500万美元投资,据两位知情人士透露,这已经反映出中美之间的科技竞争已经升级到政治层面。
Jim Fan,英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生,最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲
据EETimes报道,美国AI芯片独角兽SambaNova Systems近期宣布将裁员77人,约占其500名员工的15%。此次裁员正值该公司偏离最初目标,放弃做AI训练,转向完全专注于AI推理。
5 月 7 日,由 GOSIM、CSDN 和 1ms.ai 联合主办的全球开源技术盛会——GOSIM AI Paris 2025 在法国巴黎迎来了大会第二日的精彩议程。延续首日的热烈氛围,来自全球的 AI 专家、开发者和产业代表齐聚一堂,围绕 AI 技术的最新趋势与实践展开深入探讨。
在Vibe Coding的风潮下,Lightrun收入增长4.5倍。
Anthropic 推出了一项新 API,使其 Claude AI 模型能够进行全网搜索。该公司在 5 月 7 日发布的新闻稿中表示,开发者利用此 API 可构建基于 Claude 的应用,提供最新信息。
游戏在20 世纪 90 年代推动了 GPU 处理器的诞生,因此,如今由 GPU 驱动的人工智能技术渗透进视频游戏设计的几乎每个环节,可谓恰逢其时。顺应这一趋势,一家名为 Sett 的初创公司于周三宣布结束隐匿模式,获得 2700 万美元融资,该公司致力于开发用于构建和运营移动游戏的 AI Agent。
科技巨头常吹嘘需要庞大昂贵GPU 集群的万亿参数 AI 模型,但 Fastino 正采取截然不同的策略