
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和检索等长上下文任务中仍表现不佳。
让AI看懂95万物种,并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。
你有没有想过,创业这件事可能彻底变了?不再是硅谷精英的专利,不再需要巨额资金和深厚技术背景,甚至不再需要风险投资的支持。AI 正在彻底重新定义创业的门槛和玩法。
你有没有想过,一个因为开发作弊工具被哥伦比亚大学开除的 21 岁学生,竟然能在短短几个月内获得 a16z 领投的 1500 万美元融资?
再一次,Meta「搜刮」了 OpenAI 的成员。The Information 发布了文章,谈到 Meta 再聘四名 OpenAI 研究人员。这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。
在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。然而,随着视频长度和分辨率的提升,Diffusion Transformer(DiT)模型中的注意力机制计算量急剧增加,成为推理效率的最大瓶颈。
只需一眨眼的功夫,Mercury 就把任务完成了。「我们非常高兴地推出 Mercury,这是首款专为聊天应用量身定制的商业级扩散 LLM!Mercury 速度超快,效率超高,能够为对话带来实时响应,就像 Mercury Coder 为代码带来的体验一样。」
但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息在跨层间的高效传递。 彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代:多路动态稠密连接(MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的效率。
阿里国际站总裁张阔强调AI转型需全员设定目标,Accio AI搜索工具半年用户超百万,询盘量月环比增10倍。张阔考察中美贸易摩擦后发现中国供应链不可或缺,外贸订单强劲增长。AI从卖家侧提升效率后转向买家搜索,推动业务全面AI化,618外贸订单增42%。
全网翘首以盼的DeepSeek-R2,再次被曝推迟!据The Information报道,由于DeepSeek CEO梁文锋始终对R2的表现不满意,因此R2迟迟未能发布。此外,他们还援引两位国内知情人士的消息称,R2研发进程缓慢可能是由于缺少英伟达H20芯片。