AI资讯新闻榜单内容搜索-训练数据

AI隐私警报已拉响，南大团队实现AI本地化部署破局，支持国产显卡

2023 年，三星公司在接入 ChatGPT 不久之后，接连发生数起内部机密泄露事件。事件起因是三星员工将半导体设备参数、产品源代码和生产良率等商业机密直接输入对话系统，导致敏感信息被录入 ChatGPT 的训练数据库。

来自主题: AI资讯

8973 点击 2025-11-27 10:09

原腾讯Robotics X算法研究员创业，4个月获3轮融资，要在3-5年将人形机器人送进家庭

在腾讯四年，朱庆旭曾将多种训练数据喂给具身模型，最终他得出结论：“基于遥操作数据训练的主流方案，有着原理性缺陷。”

来自主题: AI资讯

8927 点击 2025-11-19 17:13

登顶开源SOTA！上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年，大语言模型 (LLM) + 外部工具的能力，已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中，大模型要想精准调用工具，不仅要求模型本身具备推理能力，还需要借助海量高质量、针对性强的函数调用训练数据。

来自主题: AI技术研报

11371 点击 2025-11-19 16:40

只演示一次，机器人就会干活了？北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日，来自北京大学与BeingBeyond的研究团队提出DemoHLM框架，为人形机器人移动操作（loco-manipulation）领域提供一种新思路——仅需1次仿真环境中的人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

来自主题: AI技术研报

8740 点击 2025-11-14 09:44

用155万模拟视频给模型上课！GVE模型一次学会9种视频检索技能

当前视频检索研究正陷入一个闭环困境：以MSRVTT为代表的窄域基准，长期主导模型在粗粒度文本查询上的优化，导致训练数据有偏、模型能力受限，难以应对真实世界中细粒度、长上下文、多模态组合等复杂检索需求。

来自主题: AI技术研报

6424 点击 2025-11-14 09:41

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型，能精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中，OmniVinci能提供高效支持，展现出卓越的多模态应用能力。

来自主题: AI资讯

8892 点击 2025-11-08 11:23

字节Seed团队发布循环语言模型Ouro，在预训练阶段直接「思考」，Bengio组参与

现代 LLM 通常依赖显式的文本生成过程（例如「思维链」）来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段，未能充分挖掘预训练数据中的潜力。

来自主题: AI技术研报

9597 点击 2025-11-04 16:12

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报

8736 点击 2025-11-01 09:42

干家务一小时挣1000元，具身智能时代人类新岗位

注意看，眼前这个男人暂且叫他小帅。你可能想不到，他只是在厨房里优雅地煎牛排做做家务，每小时最高能赚进1000多块（150美元）。怪不得小帅天天上班喜笑颜开。

来自主题: AI资讯

9448 点击 2025-10-25 10:56

管你模型多大，250份有毒文档统统放倒，Anthropic：迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所（UK AI Security Institute）和艾伦・图灵研究所（Alan Turing Institute）联合进行的一项研究彻底打破了这一传统观念：只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞，且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报

9725 点击 2025-10-10 12:14