OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜
9074点击    2024-12-07 09:26

OpenAI“双12”直播第二天,依旧简短精悍,主题:


新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。


少到什么程度呢?最低几十个例子就可以。


CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜



那么效果有多棒呢?


微调后的o1-mini模型得分提高80%,直接反超o1正式版。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。


进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。


蹲守直播间的网友们听得也是one愣one愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


OpenAI员工Jerry Tworek则表示“AGI不是授人以鱼,而是授人以渔”


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


OpenAI微调首次支持强化学习


直播嘉宾除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究员,还有伯克利实验室计算生物学家Justin Reese,他们共同演示了强化微调功能的全过程。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


具体来说,这是一个生物医学任务,AI需要根据病例描述的症状,找出相关基因。


训练数据长这样:

病人信息:51岁女性,疾病发病时间未具体说明。
症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍
未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管
请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


评分模型(Grader)会对模型的答案进行评分,OpenAI会提供不同的评分模型,并支持自定义。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


强化微调步骤很简单,在网页界面可选择训练集和验证集。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


再根据情况配置超参数即可。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


微调过程中,可以观察模型性能指标的变化趋势。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


测试完成后,也可以查看模型对每条验证数据的输出,这里TSC2基因是正确答案,模型把它排在第一位,所以通过。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


目前OpenAI内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。


强化微调将在2025年初作为产品发布,对企业、大学和研究院已开放申请测试通道。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


奥特曼默认会发Sora


OpenAI直播第二天,对比第一天o1正式发布、立等可用,似乎平淡了一些。


有不满足的网友表示:where is GPT-4.5?


评论区猜测可能大货会放在最后一天。


他们是真的懂如何吊所有人的胃口


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


不过,有网友钓鱼钓出了奥特曼,且奥特曼没有否认会发布Sora的消息。


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜


参考链接:

[1]https://openai.com/form/rft-research-program/




文章来自微信公众号 “ 量子位 ”,作者 梦晨 西风


OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜

关键词: AI , 微调 , openai , Fine-Tuning
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales