AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。
文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。
医学研究迎来“零人工”时代了?!清华大学自动化系索津莉课题组,发布首个专为医疗信息学设计的全自主AI研究框架——OpenLens AI。首次实现从文献挖掘→实验设计→数据分析→代码生成→可投稿论文的全链条自动化闭环。
还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM
今年苹果在 AI 上宣布的诸多所谓新功能,例如实时翻译、快捷指令等,并无太多革命性;至于视觉智能 (visual intelligence),不仅功能落后 Google Lens 六七年,交互体验上也远未达到一众 Android 友商的内置 AI/Agent 产品在 2025 上半年水平。
从Google Glasses到HoloLens,再到近几年雷鸟创新、Even Realities、影目、星纪魅族、Rokid等陆续发布量产产品,AR眼镜在不断刷新其轻薄程度。
ElevenLabs 似乎无处不在。2025年 1 月,Lex Fridman在基辅对乌克兰总统Zelenskyy进行了长达三小时的采访,采访中使用了ElevenLabs 提供的AI英语、乌克兰语和俄语翻译,完美地保留了泽连斯基的语音和语调。这是AI消除语言障碍能力的一次引人注目的展示。