
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
如今对于苹果来说,买下Perplexity或许是个不错的选择。“全世界都在搞AI,只有苹果还盯着UI”,这可能是不少人在看完今年WWDC开发者大会后的感受。当一众友商在AI赛道狂飙突进时,苹果的表现却非常克制,但这或许并不是他们不愿参与AI前沿的探索,而是有心无力。为了解决自研AI落后的问题,苹果方面可能会选择用“买买买”来解决。
Agent Infra是AI时代的新热点,涉及为Agent重建基础设施以适应其与人类的根本差异,包括交互方式、学习模式、责任界定等。核心是创建安全环境如E2B沙盒和Browserbase浏览器工具,支持Agent反馈循环和多任务协作,预计Browser Use市场将大幅增长,开发者需聚焦差异场景提升价值。
OpenAI彻底慌了!小扎癫狂式闪电挖人,已经夺走了OpenAI约十位员工。周六,首席研究官发布内部备忘录,重新调整薪酬和全员放一周假。
AGI条款变成倒计时炸弹!微软砸下130亿美元,却面临被切断技术授权的风险;OpenAI则在谈判桌上愈发强势。 一篇未公开发表的论文,究竟是让合同条款先爆发,还是AGI能力的「神预言」?
这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。
今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称「对于 LLM 及其所谓能理解和推理的神话来说,情况变得更糟了 —— 而且是糟糕得多。」
扎克伯格又从奥特曼手里挖走4名顶尖AI人才,这次四位都是华人研究员。
据ZP独家获悉,首形科技正式宣布完成新一轮融资,由招商局创投、深创投共同领投,五源资本、浔商创投跟投。此前天使轮投资人为德迅投资、奇绩创坛、Taihill、智元机器人。不久前,由其创始人发布的一段“仿生机器人睁眼、缓缓微笑”的视频在社交平台爆红。