AI资讯新闻榜单内容搜索-微调

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 微调
人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

人类偏好优化算法哪家强?跟着高手一文学懂DPO、IPO和KTO

尽管收集人类对模型生成内容的相对质量的标签,并通过强化学习从人类反馈(RLHF)来微调无监督大语言模型,使其符合这些偏好的方法极大地推动了对话式人工智能的发展。

来自主题: AI技术研报
7815 点击    2024-02-18 12:25
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

检索增强生成(RAG)和微调(Fine-tuning)是提升大语言模型性能的两种常用方法,那么到底哪种方法更好?在建设特定领域的应用时哪种更高效?微软的这篇论文供你选择时进行参考。

来自主题: AI技术研报
5083 点击    2024-02-17 12:09
Github2.5k星,Karpathy转赞,「流程工程」让LLM代码能力瞬间翻倍,直接淘汰提示工程

Github2.5k星,Karpathy转赞,「流程工程」让LLM代码能力瞬间翻倍,直接淘汰提示工程

Github2.5k星,Karpathy转赞,「流程工程」让LLM代码能力瞬间翻倍,直接淘汰提示工程

Karpathy力推代码生成任务增强流程,让GPT-4在CodeContests从19%提升到44%,不用微调不用新数据集训练,让大模型代码能力大幅提升。

来自主题: AI技术研报
8435 点击    2024-02-17 10:55
陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More

造大模型的成本,又被打下来了!这次是数据量狂砍95%的那种。陈丹琦团队最新提出大模型降本大法——数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。

来自主题: AI技术研报
3212 点击    2024-02-10 13:15
进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

进我的收藏夹吃灰吧:大模型加速超全指南来了

2023 年,大型语言模型(LLM)以其强大的生成、理解、推理等能力而持续受到高度关注。然而,训练和部署 LLM 非常昂贵,需要大量的计算资源和内存,因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的方法。

来自主题: AI技术研报
3929 点击    2024-02-09 14:05
像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强化学习(RLHF)。然而,分数只能反应当前回复的好坏程度,并不能明确指出模型的不足之处。相较之下,我们人类通常是从语言反馈中学习并调整自己的行为模式。

来自主题: AI技术研报
5623 点击    2024-02-03 12:52
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。

来自主题: AI技术研报
6694 点击    2024-02-02 17:27
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型

谷歌和威斯康星麦迪逊大学的研究人员推出了一个让LLM给自己输出打分的选择性预测系统,通过软提示微调和自评估学习,取得了比10倍规模大的模型还要好的成绩,为开发下一代可靠的LLM提供了一个非常好的方向。

来自主题: AI技术研报
9440 点击    2024-01-23 15:20
周鸿祎傅盛:相逢大模型,一笑泯恩仇

周鸿祎傅盛:相逢大模型,一笑泯恩仇

周鸿祎傅盛:相逢大模型,一笑泯恩仇

此次发布的猎户星空大模型专为企业应用而生,该模型通过140亿参数实现了千亿参数大模型才能实现的效果,面向七大应用领域进行微调,可以在千元显卡算力上运行。 用傅盛的说法是,用的好,用的起,用的安全。

来自主题: AI资讯
4409 点击    2024-01-23 10:31
英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

昨天,Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天,英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下,在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。

来自主题: AI资讯
9664 点击    2024-01-21 14:27