AI资讯新闻榜单内容搜索-训练

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

来自主题: AI资讯

5946 点击 2025-07-03 18:22

谢赛宁团队新作：不用提示词精准实现3D画面控制

曾几何时，用文字生成图像已经变得像用笔作画一样稀松平常。

来自主题: AI技术研报

5502 点击 2025-07-03 18:16

华为CloudMatrix384超节点很强，但它的「灵魂」在云上

AI 领域最近盛行一个观点：AI 下半场已经开始，评估将比训练重要。而在硬件层级上，我们也正在开始进入一个新世代。

来自主题: AI资讯

7146 点击 2025-07-03 11:39

Bengio亲手戳穿CoT神话！LLM推理是假象，25％顶会论文遭打脸

原来，CoT推理竟是假象！Bengio带队最新论文戳穿了CoT神话——我们所看到的推理步骤，并非是真实的。不仅如此，LLM在推理时会悄然纠正错误，却在CoT中只字未提。

来自主题: AI技术研报

8123 点击 2025-07-03 11:09

让GUI智能体不再「过度执行」，上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲，研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。

来自主题: AI技术研报

8189 点击 2025-07-03 11:03

超CLIP准确率11%！伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器，从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择，在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报

5873 点击 2025-07-03 11:00

画到哪，动到哪！字节跳动发布视频生成「神笔马良」ATI，已开源！

近年来，随着扩散模型（Diffusion Models）、Transformer 架构与高性能视觉理解模型的蓬勃发展，视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务（Image-to-Video generation）尤其受到关注，其关键优势在于：能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。

来自主题: AI技术研报

6360 点击 2025-07-03 10:07

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

来自主题: AI技术研报

7364 点击 2025-07-03 10:00

AI训练版权重大判决：合法扫描可接受，盗版下载仍侵权

美国加州两起判决首次认定：AI公司扫描购买的正版书籍用于模型训练属合理使用，训练行为具变革性也属合理使用，但盗版素材获取仍侵权。中美监管宽松利于AI产业发展，欧盟严格规定要求素材许可或提供退出选项。AI输出侵权内容或诱导输出训练素材存在争议。

来自主题: AI资讯

7642 点击 2025-07-03 08:58

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

2025年上半年，AI开源领域的竞赛异常激烈，主要围绕着几个核心方向展开：首先是效率竞赛，各路玩家不再单纯追求千亿、万亿参数的“巨无霸”模型，而是更专注于通过新架构和训练方法，用更小的参数实现更强的性能。其次，多模态已成标配，纯文本模型越来越少，新发布的旗舰模型几乎都具备了处理图像、视频等多种信息的能力。

来自主题: AI产品测评

7869 点击 2025-07-02 17:31