AI资讯新闻榜单内容搜索-Alignment

1.8万美金干掉顶级专家！Anthropic开启AI自主进化：Claude竟能自我「开颅」

1997年深蓝下棋，2016年AlphaGo围棋，2026年9个Claude副本做真实科研……每次我们都说「只是特定领域」。这一次，我们真的还能说什么？欢迎来到AI成为科研同事、竞争者、甚至继任者的时代。

来自主题: AI资讯

10078 点击 2026-04-15 14:53

AIGC检测为何频频“看走眼”？腾讯优图揭秘：问题可能出在数据源头

近日，腾讯优图实验室联合华东理工大学、北京大学等研究团队在A生成图像检测（AI-Generated Image Detection）泛化问题上展开研究，提出Dual Data Alignment（双重数据对齐，DDA）方法，从数据层面系统性抑制“偏差特征”，显著提升检测器在跨模型、跨数据域场景下的泛化能力。

来自主题: AI技术研报

7319 点击 2025-11-30 15:10

Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏

刚刚，Anthropic 发布了一项新研究成果。今天，他们发布的成果是《Natural emergent misalignment from reward hacking》，来自 Anthropic 对齐团队（Alignment Team）。他们发现，现实中的 AI 训练过程可能会意外产生未对齐的（misaligned）模型。

来自主题: AI技术研报

9198 点击 2025-11-22 15:33

阿里新开源提出建设性安全对齐方案，向“让用AI的人安全”新范式跃迁

阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校，联合发布技术报告；其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

来自主题: AI技术研报

8018 点击 2025-09-21 11:09

Claude 3.7 sonnet系统提示词的哲学

这份提示词有很多哲学性思考，很多表达让我看到背后的设计者把claude当成一个人去设计。　我猜，应该是Amanda Askell（Anthropic负责alignment和character design，是学哲学的一位女生，也是我的榜样) 主要设计的。　

来自主题: AI技术研报

9195 点击 2025-03-02 10:22

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

OpenAI 在 “双十二” 发布会的最后一天公开了 o 系列背后的对齐方法 - deliberative alignment，展示了通过系统 2 的慢思考能力提升模型安全性的可行性。

来自主题: AI技术研报

8924 点击 2025-01-24 14:45

全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

OpenAI o1风格的推理大模型，有行业垂直版了。HK-O1aw，是由香港生成式人工智能研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR) 联合北京大学对齐团队（PKU-Alignment Team）推出的全球首个慢思考范式法律推理大模型。

来自主题: AI资讯

4947 点击 2024-11-09 15:34

人机对齐，通用人工智能的必由之路

随着人工智能大模型的能力日益强大，如何让其行为和目标同人类的价值、偏好、意图之间实现协调一致，即人机对齐（human-AI alignment）问题，变得越发重要。

来自主题: AI资讯

4948 点击 2024-11-02 10:35

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

9768 点击 2024-10-10 12:21

LLM对齐综述｜迈向可扩展的大模型自动对齐，中科院软件所&阿里千问发布

近年来，大模型的高速发展极大地改变了人工智能的格局。对齐（Alignment）是使大模型的行为符合人类意图和价值观，引导大模型按照人类的需求和期望进化的核心步骤，因此受到学术界和产业界的高度关注。

来自主题: AI资讯

10654 点击 2024-09-12 10:10