AI资讯新闻榜单内容搜索-训练

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8975 点击 2025-11-03 09:50

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

AEPO 系统性揭示了「高熵 Rollout 采样坍缩」和「高熵梯度裁剪」问题，并设计了「动态熵平衡 Rollout 采样」与「熵平衡策略优化」两项核心机制。前者通过熵预监控与连续分支惩罚实现全局与局部探索预算的自适应分配，后者在策略更新阶段引入梯度停止与熵感知优势估计以保留高熵 token 的探索梯度。

来自主题: AI技术研报

8371 点击 2025-11-02 10:32

锁定角色，「多主体」也可控！个性化文生图，给你PS般交互体验

LayerComposer革新了个性化图像生成，让用户像在Photoshop里一样自由操控元素位置、大小，解决传统方法交互性与多主体扩展难题，实现更自然、高效的创作，推动个性化生成迈向主动交互新阶段。

来自主题: AI技术研报

9528 点击 2025-11-02 10:07

少量视角也能得到完整3D几何，即插即用的语义增强重建插件来了

直观经验却告诉我们，只要把同一物体的 “对应部分” 对齐，形状就会变得清晰。基于这一朴素而有效的直觉，作者提出SERES（Semantic-Aware Reconstruction from Sparse Views），在不改动主干框架的前提下，把跨视角的语义一致性变成一种训练期先验注入到模型里，用低成本的方法去解决高价值的歧义问题，让少量视角也能得到清晰而完整的几何。

来自主题: AI技术研报

7646 点击 2025-11-02 10:03

上海AI Lab发布混合扩散语言模型SDAR：首个突破6600 tgs的开源扩散语言模型

近日，上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。该方法通过「训练-推理解耦」的巧妙设计，无缝融合了 AR 模型的高性能与扩散模型的并行推理优势，能以极低成本将任意 AR 模型「改造」为并行解码模型。

来自主题: AI技术研报

8695 点击 2025-11-01 12:57

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking）与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

来自主题: AI技术研报

9002 点击 2025-11-01 09:42

港科提出新算法革新大模型推理范式：随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生，研究方向包括强化学习和基础模型等，研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报

9197 点击 2025-11-01 09:24

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

9730 点击 2025-11-01 09:23

无需训练一键调用超600种工具，哈佛MIT打造AI科学家的“Linux操作系统”，让大模型秒变专家自主做实验

近日，OpenAI 宣称要在 2028 年实现让 AI 完全自主做研究，一下子又把焦点聚在了AI 科学家。过去，AI 只是作为“助理”辅助研究者们进行科学研究。现在，美国哈佛大学与美国麻省理工学院联

来自主题: AI资讯

10544 点击 2025-11-01 09:14

Kimi开源新线性注意力架构，首次超越全注意力模型，推理速度暴涨6倍

月之暗面最新发布的开源Kimi Linear架构，用一种全新的注意力机制，在相同训练条件下首次超越了全注意力模型。在长上下文任务中，它不仅减少了75%的KV缓存需求，还实现了高达6倍的推理加速。

来自主题: AI技术研报

10588 点击 2025-10-31 15:46