AI资讯新闻榜单内容搜索-模型

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

9022 点击 2025-10-13 11:02

在这一背景下，清华大学与生数科技（Shengshu AI）团队围绕桥类生成模型与音频超分任务展开系统研究，先后在语音领域顶级会议ICASSP 2025和机器学习顶级会议NeurIPS 2025发表了两项连续成果：

来自主题: AI技术研报

9561 点击 2025-10-13 10:30

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化

来自主题: AI技术研报

9998 点击 2025-10-13 10:28

大模型参数量飙升至千亿、万亿级，却陷入“规模越大，效率越低” 困境？中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”，开启动态“组队学习”。

来自主题: AI技术研报

9027 点击 2025-10-13 10:26

Gemini 3.0更近了！网友爆料称，谷歌下一代旗舰模型将在10月22日发布。一些拿到内测资格的开发者，放出了最全面的demo，Gemini 3.0能做到一次性直出网页、游戏、原创音乐等。前端开发，再也不需要人类。

来自主题: AI资讯

10768 点击 2025-10-13 10:20

在量子位智库的观察中，AI知识助手remio正在尝试这一方向。remio主打无感和自动化，致力于变成记忆和用户同频的第二大脑。主打能够在用户无感知的情况下，实时、自动化地采集用户所需管理的信息，为用户创造更加轻松顺畅的使用体验。

来自主题: AI资讯

11527 点击 2025-10-12 15:48

AI竟然画不好一张 “准确” 的图表？AI生图标杆如FLUX.1、GPT-Image，已经能生成媲美摄影大片的自然图像，却在柱状图、函数图这类结构化图像上频频出错，要么逻辑混乱、数据错误，要么就是标签错位。

来自主题: AI技术研报

10723 点击 2025-10-12 15:03

图片来源：David AI Labs David AI Labs 这家初创公司通过出售音频数据集来帮助训练人工智能模型，近期在新一轮融资中从投资者处筹集了 5000 万美元——这表明为 AI 开发提供

来自主题: AI资讯

9687 点击 2025-10-12 15:03

任少卿的头发很有辨识度，浓密、微卷，刘海盖住额头。走进会议室，第一次见他的人把他当成了实习生，知道身份后调侃说，只有在 AI 创业公司才能看到这么年轻的技术 leader。

来自主题: AI资讯

10656 点击 2025-10-12 15:00

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

8435 点击 2025-10-12 14:59