AI资讯新闻榜单内容搜索-对齐

123页Claude 4行为报告发布：人类干坏事，可能会被它反手一个举报？！

刚刚发布的Claude 4被发现，它可能会自主判断用户行为，如果用户做的事情极其邪恶，且模型有对工具的访问权限，它可能就要通过邮件联系相关部门，把你锁出系统。这事儿，Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯

10666 点击 2025-05-23 22:14

首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报

11143 点击 2025-05-14 11:01

北大团队引领3D生成与对齐革新：OctGPT打破扩散模型垄断

最近，北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。在三维数据生成方面，团队提出了3D自回归模型新范式，有望打破3D扩散模型在三维生成方面的垄断地位。

来自主题: AI技术研报

10134 点击 2025-04-25 10:08

喝点VC｜a16z对话心理健康公司Slingshot AI创始人：通过AI扩大心理健康服务的可及性

作为一家公司，我们专注于三件事：预训练、微调和对齐。我们使用自有数据集进行预训练，这一点非常关键，而很多公司并不具备这样的能力。然后，我们用专家手工整理的数据进行微调。最有趣、最重要的部分在于对齐，这与简单地寻找“当前最优解”是截然不同的。

来自主题: AI资讯

8362 点击 2025-04-16 14:29

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

9622 点击 2025-04-15 14:29

让机器人更像人类有了新方法！港科大新算法对齐人机动作形态，无需重复训练，轻量模块通用且适配

“让机器人看懂世界、听懂指令、动手干活”正从科幻走向现实。

来自主题: AI技术研报

8354 点击 2025-04-12 13:22

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

11554 点击 2025-04-08 14:18

首个个性化对齐大模型问世！可精准识别用户内在动机和偏好，还有百万用户画像开源数据集 | 蚂蚁&人大

如何让大模型更懂「人」？

来自主题: AI技术研报

7583 点击 2025-04-08 09:07

视觉Token无缝对齐LLMs词表！V²Flow：基于LLMs实现高保真自回归图像生成

视觉Token可以与LLMs词表无缝对齐了！

来自主题: AI技术研报

9678 点击 2025-04-03 15:48

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%

来自主题: AI技术研报

5830 点击 2025-04-01 15:27