AI资讯新闻榜单内容搜索-语言模型

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报

6745 点击 2025-10-15 14:00

「微调已死」再添筹码，谷歌扩展AI自我进化范式，成功经验与失败教训双向学习

这几天，关于「微调已死」的言论吸引了学术圈的广泛关注。一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering（智能体 / 主动式上下文工程）的技术，让语言模型无需微调也能实现自我提升！

来自主题: AI技术研报

8260 点击 2025-10-15 12:14

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

9128 点击 2025-10-15 12:12

推理速度10倍提升，蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

近日，蚂蚁集团正式开源业界首个高性能扩散语言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

来自主题: AI技术研报

5806 点击 2025-10-15 11:46

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型学会“精确探索”，推理成绩飙升

大语言模型在RLVR训练中面临的“熵困境”，有解了！

来自主题: AI技术研报

8091 点击 2025-10-14 10:57

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

近年来，大型语言模型的参数规模屡创新高，随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本，成为业界关注的焦点之一。Mixture-of-Experts (MoE，混合专家) 架构通过引入大量 “专家” 子模型，让每个输入仅激活少数专家，从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报

8347 点击 2025-10-13 15:49

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

8165 点击 2025-10-13 11:02

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

当大语言模型生成海量数据时，数据存储的难题也随之而来。对此，华盛顿大学（UW）SyFI实验室的研究者们提出了一个创新的解决方案：LLMc，即利用大型语言模型自身进行无损文本压缩的引擎。

来自主题: AI技术研报

6687 点击 2025-10-12 11:00

管你模型多大，250份有毒文档统统放倒，Anthropic：迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所（UK AI Security Institute）和艾伦・图灵研究所（Alan Turing Institute）联合进行的一项研究彻底打破了这一传统观念：只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞，且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报

9037 点击 2025-10-10 12:14

Qwen要做机器人了：林俊旸官宣成立具身智能团队

昨天，阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣，他们在 Qwen 内部组建了一个小型机器人、具身智能团队，同时表示「多模态基础模型正转变为基础智能体，这些智能体可以利用工具和记忆通过强化学习进行长程推理，它们绝对应该从虚拟世界走向物理世界」。

来自主题: AI资讯

8931 点击 2025-10-09 14:24