AI资讯新闻榜单内容搜索-微调

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。

来自主题: AI技术研报

5274 点击 2024-02-03 12:52

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

来自UCLA的华人团队提出一种全新的LLM自我对弈系统，能够让LLM自我合成数据，自我微调提升性能，甚至超过了用GPT-4作为专家模型指导的效果。

来自主题: AI技术研报

6469 点击 2024-02-02 17:27

消灭「幻觉」！谷歌全新ASPIRE方法让LLM给自己打分，效果碾压10x体量模型

谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统，通过软提示微调和自评估学习，取得了比10倍规模大的模型还要好的成绩，为开发下一代可靠的LLM提供了一个非常好的方向。

来自主题: AI技术研报

9363 点击 2024-01-23 15:20

周鸿祎傅盛：相逢大模型，一笑泯恩仇

此次发布的猎户星空大模型专为企业应用而生，该模型通过140亿参数实现了千亿参数大模型才能实现的效果，面向七大应用领域进行微调，可以在千元显卡算力上运行。用傅盛的说法是，用的好，用的起，用的安全。

来自主题: AI资讯

4129 点击 2024-01-23 10:31

英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

昨天，Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天，英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下，在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。

来自主题: AI资讯

9375 点击 2024-01-21 14:27