AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

多轮Agent训练遇到级联失效?熵控制强化学习来破局

在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。

来自主题: AI技术研报
6097 点击    2025-10-19 12:06
稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU  门控和 Transformer Decoder 两套速度参数化。

来自主题: AI技术研报
7045 点击    2025-10-19 11:48
专访 AI 游戏创业者张昊阳:如何用《麦琪的花园》定义下一代沙盒范式

专访 AI 游戏创业者张昊阳:如何用《麦琪的花园》定义下一代沙盒范式

专访 AI 游戏创业者张昊阳:如何用《麦琪的花园》定义下一代沙盒范式

AutoGame 创始人张昊阳离开腾讯后,带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50,一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构,他们让普通玩家能“一句话生成 NPC、任务与道具”,将 UGC 创作门槛降至短视频级别,把传统“金字塔型”内容生态变为“十字型”社交表达平台。

来自主题: AI资讯
9707 点击    2025-10-19 10:46
LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

LiblibAI 正式推出2.0,十字路口第一时间评测:从 1.0 到 2.0,什么变了?

2 天前,国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级,正式推出了 2.0 版本。对许多创作者而言,这个平台并不陌生,LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地,也常被称为中国版的 CivitAI (大家常说的 C 站)。

来自主题: AI资讯
8415 点击    2025-10-19 10:45
推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

针对「大模型推理速度慢,生成token高延迟」的难题,莫纳什、北航、浙大等提出R-Stitch框架,通过大小模型动态协作,衡量任务风险后灵活选择:简单任务用小模型,关键部分用大模型。实验显示推理速度提升最高4倍,同时保证高准确率。

来自主题: AI技术研报
6099 点击    2025-10-18 12:21
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

来自主题: AI技术研报
7534 点击    2025-10-18 12:15
语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

语音助手的「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%

杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。

来自主题: AI技术研报
6612 点击    2025-10-18 12:08
破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

破解空间智能数据稀缺难题,影石开源DiT架构全景生成模型,在线可玩

空间智能领域的全景数据稀缺问题,有解了。影石研究院团队,推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架,DiT360能够实现高质量的全景生成。

来自主题: AI技术研报
6082 点击    2025-10-18 12:02
动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

在机器人与自动驾驶领域,由强化学习训练的控制策略普遍存在控制动作不平滑的问题。这种高频的动作震荡不仅会加剧硬件磨损、导致系统过热,更会在真实世界的复杂扰动下引发系统失稳,是阻碍强化学习走向现实应用的关键挑战。

来自主题: AI技术研报
7410 点击    2025-10-18 11:54
ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体

在今年的国际计算机视觉大会(ICCV 2025)上,来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。

来自主题: AI技术研报
7078 点击    2025-10-18 11:48