AI TNT— 让一部分先用AI实现商业化

Ilya官宣离职，超级对齐负责人Jan直接辞职，OpenAI还是走散了

今天，OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推宣告离职。

来自主题: AI资讯

7494 点击 2024-05-15 23:33

字节开源大模型量化新思路，2-bit量化模型精度齐平fp16

随着深度学习大语言模型的越来越火爆，大语言模型越做越大，使得其推理成本也水涨船高。模型量化，成为一个热门的研究课题。

来自主题: AI技术研报

3542 点击 2024-05-13 17:18

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

来自主题: AI技术研报

4960 点击 2024-05-12 11:26

加入AI公司三个月，我都做了些什么？——与大模型对齐的人类工程师

本文主要内容为提示词工程师的工作实际经验和感悟。详人所略，略人所详。Prompt领域的优秀教程越来越多，基础知识可以参见社区先辈刘海同学：[23.08] 网上疯传的「AI 提示词工程师」到底是什么？

来自主题: AI资讯

5638 点击 2024-03-22 11:19

强壮全球200个大模型，OpenBMB推动开源社区对齐研究

迄今，全球超 200 个模型基于来自 OpenBMB 开源社区的 Ultra Series 数据集（面壁 Ultra 对齐数据集）对齐，数据集包括 UltraFeedback 和 UltraChat，共计月均下载量超 100 万。

来自主题: AI资讯

3763 点击 2024-03-14 16:33

仅需格式转换提升9%数学推理能力，上交开源新对齐方法ReAlign

大模型对齐新方法，让数学推理能力直接提升9%。

来自主题: AI技术研报

4641 点击 2024-03-13 11:10

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

来自主题: AI技术研报

9614 点击 2024-03-02 14:58

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

随着大语言模型（LLMs）在近年来取得显著进展，它们的能力日益增强，进而引发了一个关键的问题：如何确保他们与人类价值观对齐，从而避免潜在的社会负面影响？

来自主题: AI技术研报

8614 点击 2024-02-27 14:03

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

OPO 无需训练即可实现实时动态对齐，而且因其即插即用的特性，适用于所有的开源与闭源大模型。

来自主题: AI技术研报

6846 点击 2024-01-23 15:03

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。

来自主题: AI技术研报

2410 点击 2024-01-16 10:16