AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster

近期,大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架,该论文向研究社区展示了即使在 1B 左右的小参数量级模型上,也可以实现导演级的镜头调度和连贯叙事,且支持多图参考、主体运动控制。

来自主题: AI技术研报
9000 点击    2026-03-06 15:06
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审

让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审

让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审

昨天,Thinking Maching Lab 研究者、斯坦福大学博士生 Zitong Yang 正式完成了他的博士论文答辩,课题为「持续自我提升式 AI」(Continually self-improving AI),并且他在答辩完成后很快就放出了自己的答辩视频,从中我们可以看到他对未来 AI 发展路径的系统性探索。

来自主题: AI技术研报
8926 点击    2026-03-06 10:07
Qwen3.5-397B+Milvus+ColQwen2,如何做基于PDF的多模态RAG知识库

Qwen3.5-397B+Milvus+ColQwen2,如何做基于PDF的多模态RAG知识库

Qwen3.5-397B+Milvus+ColQwen2,如何做基于PDF的多模态RAG知识库

最近关于Qwen3.5还有其幕后团队,市场上的讨论沸沸扬扬,但今天我们不聊八卦,主要讲讲干货。

来自主题: AI技术研报
9182 点击    2026-03-06 09:33
ICLR 2026 | OpenAI打广告后,如何成为爆款?CMU提出AutoGEO解密流量密码

ICLR 2026 | OpenAI打广告后,如何成为爆款?CMU提出AutoGEO解密流量密码

ICLR 2026 | OpenAI打广告后,如何成为爆款?CMU提出AutoGEO解密流量密码

AI 搜索引擎正逐渐取代传统搜索入口,「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐,搜索与内容分发的边界正在被重新定义。在这样的环境下,你的内容能否在 AI 搜索中成为「爆款」,不再只取决于标题和流量,而是更大程度取决于 AI 本身的引用偏好。

来自主题: AI技术研报
6947 点击    2026-03-06 09:33
模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

模型砍掉一大半,准确率反升15%!华科&阿里安全新研究实现ViT近乎无损的类特定压缩|ICLR'26

近年来,视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用,但在真实业务环境中,“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报
6160 点击    2026-03-06 09:32
32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

32B逆袭GPT-5.2:首个端到端GPU编程智能体框架StitchCUDA问世

现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel,面对完整的端到端 GPU 程序(如整个 VisionTransformer 推理)往往束手无策。

来自主题: AI技术研报
8350 点击    2026-03-05 14:28
告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

人类在创作艺术时,大脑并非一味地输出,而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

来自主题: AI技术研报
9328 点击    2026-03-05 14:25
ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

ICLR 2026 | 当视频难以被表征:UCSD、HKUST等机构联合提出FlowRVS,用生成式流匹配重构视觉感知范式

长期以来,计算机视觉领域陷入了一个 “表征(Representation)” 的执念。我们习惯设计各种精巧的 Encoder,试图将动态世界压缩成一组特征向量。然而,视频作为现实的高维投影,其熵值之高、动态之复杂,让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报
6436 点击    2026-03-05 09:08
为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

为什么BF16的FlashAttention会把训练「炸掉」?清华首次给出机制解释,用极简改动稳住训练

一句话总结:社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了:在 BF16 等低精度训练里,FlashAttention 不是随机出 bug,而是会在特定条件下触发有方向的数值偏置,借助注意力中涌现的相似低秩更新方向被持续放大,最终把权重谱范数和激活推到失控,导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改,实测能显著稳定训练。

来自主题: AI技术研报
6675 点击    2026-03-04 13:49