ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错
5946点击    2024-09-06 16:36


快速更迭的开源大模型领域,又出现了新王:Reflection 70B。


横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。


这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。



HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。


Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。


Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试结果表明, Reflection 的表现始终优于 Meta 的 Llama 系列,并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。



其中,它在 GSM8K 的得分甚至达到了 99.2%。要知道,GSM8k 中可能有有超过 1% 的被标为正确的答案实际上有错,也就是说,Reflection 70B 的得分几乎与满分无异。


值得注意的还有 Reflection 70B 的零样本推理能力。面对从未接触过的内容,Reflection 70B 的表现超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。



Reflection 70B 特别适用于需要高精度的任务,它将推理分为不同的步骤以提高精度。该模型可通过 Hugging Face 下载,API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。


Hugging Face:https://huggingface.co/mattshumer/Reflection-70B

试用网址:https://reflection-playground-production.up.railway.app/


假设训练有素

模型自动纠错


在通用能力之外,Reflection 70B 的亮点还包括「错误识别」和「错误纠正」。


一种名为「Reflection-Tuning」的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。


Reflection 70B 引入了几个用于推理和纠错的特殊 token,使用户能够以更结构化的方式与模型交互。在推理过程中,模型会在特殊标签内输出其推理,以便在检测到错误时进行实时纠正。



Playground 演示网站包含供用户使用的建议提示词,比如那些很经典的例子:询问 Reflection 70B 单词「Strawberry」中有多少个「r」,以及哪个数字更大(9.11 还是 9.9),这两个简单的问题曾经难倒过很多大模型。


Reflection 70B 在测试中显得有些迟缓,但最终 60 多秒后给出了正确的答案。



Reflection 70B 的发布只是 Reflection 系列的开端。与此同时,Reflection 405B 也在推出的路上了,预计下周上市。Shumer 表示,它的性能将远远超过目前的专有或闭源 LLM,例如目前全球领先的 OpenAI 的 GPT-4o。


Shumer 宣布,HyperWrite 正致力于将 Reflection 70B 模型集成到其主要的 AI 写作助手产品中。


Reflection 405B 有望超越当今市场上最顶尖的闭源模型。HyperWrite 将发布一份报告,详细介绍训练过程和基准,以及 Reflection 模型背后的创新之处。


两个人在几周内完成

归功于 Glaive 的合成数据


Shumer 表示完成 Reflection 70B 只花了三周,团队只有他和另一位 AI 创业公司的创始人 Sahil Chaudhary 两个人。



在这么短的时间内做出效果如此好的模型,Shumer 称,都要拜 Sahil 的公司 Glaive 所赐。Glaive 是一家专门为特定需求构建数据集的初创公司。Shumer 在 X 平台上反复 que 这一点:「联系了 Sahil 之后,训练数据几小时内就生成好了。」他还亲自站台安利:「如果你在训练 AI 模型,一定要试试 Glaive 提供的服务。」



Glaive 专注于解决 AI 开发中最大的瓶颈之一:高质量、任务特定数据的可用性。在去年获得了一轮 350 万美元的种子轮融资。


Sahil Chaudhary 


小型、更专业化的语言模型在使用 Glaive 提供的服务后,能够更快地完成训练。已经有一些小模型使用该公司已经证明了 Glaive 的能力,例如一个 3B 参数模型在 HumanEval 等任务上的表现超过了许多参数规模更大的开源模型。


火得措手不及

GPU 不够用了


Reflection 70B 一经发布,就火了,跑去试用的人太多,模型已经反应不过来了。




本来可以在线试用 Reflection 70B,但现在和它聊天反应很慢。



但是根据手快的网友发来的测评,Reflection 70B 也确实没辜负六个基础测试集里有四个都打败了 Claude 3.5 Sonnet 的战绩。


比如,它是首个能想明白这道缠绕不清的逻辑题的大模型。


提示词:有人在某地杀了 Agatha。Agatha、管家和 Charles 住在 此地,并且是那里唯一的居民。杀手恨他的目标,并且比受害者穷。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。没有人恨所有人。谁杀了 Agatha?


向它提问:「柏林的魏森湖地区当地人通常在哪里聚会?当地有哪些景点?」。对于这些本地人才知道的答案,其他模型虽然也能给出一些正确的回复,但是总会冒出一些在柏林之外的地点。Reflection 70B 是第一个能正确地说出主要地点,并且没有幻觉的模型。



Reflection-70B 的编码能力也得到了认证。有网友在 ProLLM 的编码辅助任务中对 Reflection-70B 进行了基准测试。它确实是最好的开源模型之一,击败了 Llama-3.1 405B。



不过,爆火的同时,由于 Reflection 70B 的底层模型采用了 Meta 的 Llama 3.1 70B Instruct,这也引发了一些争议。


有网友认为:「Reflection 70B 只是一种元提示(Meta-Prompting)的进步,似乎不能算是一种创新。」



但也有人对此提出反对,认为「利用思维链和让大模型说出自己的工作流程」这种方法能让大模型更好地模拟人类思考的过程。


「万一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」



团队介绍


乍一看,Reflection 70B 似乎是横空出世,HyperWrite 的知名度并不高。但其实 Shumer 已是 AI 领域的创业老将了:2020 年,他与就 Jason Kuperberg 共同创立了 Otherside AI。


从左至右分别为 Otherside AI 的联合创始人:Matt Shumer, Miles Feldstein 与 Jason Kuperberg。


Otherside AI 凭借其当家产品 HyperWrite 收获了一波流量。HyperWrite 最初是一款根据要点撰写邮件和消息的 Chrome 插件。后来,它的功能越来越强大,拓展出了起草文章、总结文本等功能。截至 2023 年 11 月,HyperWrite 拥有两百万用户。随着两位联合创始人登上了福布斯年度「30 岁以下精英」榜单,Otherside AI 也正式更名为 HyperWrite。 


在最新一轮融资中, HyperWrite 获得了 280 万美元的投资。在这笔资金的加持下,HyperWrite 引入了 AI 驱动功能,升级成了可以从网页浏览器自动完成预定航班、在 LinkedIn 上筛简历的智能管家。 


HyperWrite 在线帮你订达美乐披萨的外卖。


参考链接:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/


文章来自于微信公众号“机器之心”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0