ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
8225点击    2024-07-24 20:21

刚刚,GPT-4o mini版迎来“高光时刻”——


登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3.5甩在了身后。



不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。


这个成绩一出,连CEO奥特曼都激动起来了:


面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/20,内心还是很激动。



网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。



与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——


GPT-4o mini的微调将逐步开放,目前已开放给tier 4和tier 5用户,然后会陆续扩展范围。


而且从即日起到9月23号,每天都能免费使用2百万的训练token



mini与满血版平起平坐


经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。


按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。


紧随其后的是Claude 3.5和Gemini家族,还有GPT-4的另外两个版本。



如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。



单独看两者比拼的结果,同样是打得不相上下。



之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——


不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。


在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。



这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。


这个大模型竞技场,最近还登上了机器学习顶会ICML2024



而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。


当时就已经排行第4,和GPT4-Turbo处在同一水平。



更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。



不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude 3.5 sonnet就有些言过其实了。



有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。



“小模型”也卷起来了


mini版本的推出,主打的就是一个性价比。


每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5 Turbo的一半。



如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。


而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——


“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。


实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。


在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。



除了OpenAI,其他公司也都纷纷搞起了小模型。


比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude 3-Haiku。


甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。



在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。


甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。


总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。


同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。


这样就不难理解,“小”模型为什么也越来越卷了。


文章来源于“量子位”,作者“关注前沿科技


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner