AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。

来自主题: AI技术研报
6976 点击    2025-06-02 16:22
极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

不久前,GPT-4o 的最新图像风格化与编辑能力横空出世,用吉卜力等风格生成的效果令人惊艳,也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

来自主题: AI技术研报
7269 点击    2025-06-02 15:53
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报
7258 点击    2025-06-02 15:24
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”

360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”

360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”

如何让CLIP模型更关注细粒度特征学习,避免“近视”?360人工智能研究团队提出了FG-CLIP,可以明显缓解CLIP的“视觉近视”问题。让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。

来自主题: AI技术研报
7723 点击    2025-06-02 15:17
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。

来自主题: AI技术研报
6720 点击    2025-06-02 15:04
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。

来自主题: AI技术研报
6269 点击    2025-06-02 14:16
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。

来自主题: AI技术研报
6915 点击    2025-06-01 17:58
AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。

来自主题: AI技术研报
7780 点击    2025-06-01 13:58
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip,并创新性地提出分组自注意力机制(group self-attention),在此任务上取得了优异的效果。

来自主题: AI技术研报
7703 点击    2025-06-01 13:30
斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

本想练练手合成点数据,没想到却一不小心干翻了PyTorch专家内核!斯坦福华人团队用纯CUDA-C写出的AI生成内核,瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示:本来不想发这个结果的。

来自主题: AI技术研报
7020 点击    2025-05-31 17:30