首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

9673点击 2024-11-16 15:33

多智能体系统，可自动化整个 ML 工作流程，节省数千小时工时。

Open AI 的推理模型 o1，这么快就被比下去了？

本周五，AI 社区见证了又一项突破：一个完全自动化机器学习流程的 AI 工程师，能轻松获得 Kaggle 大师水平，在参与的 50 个 Kaggle 竞赛上获得了其中 26% 的奖牌，成绩远远优于之前 Open AI 的强化学习加强版的 o1 模型。

创造这项纪录的 AI，来自一家名为 NEO 的创业公司。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

据该公司介绍，NEO 可以自动化整个机器学习的工作流程，为开发人员节省数千小时的繁重工作。它是一个多智能体（AI Agent）系统，可用并行的方式解决单一问题。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

目前这一 AI 系统还在内测申请阶段，除了视频 Demo 内容，我们还能找到官方的简单介绍：

机器学习中的挑战

首先是 NEO 希望解决的问题。

机器学习的「从数据中学习」这一看似简单的前提掩盖了开发人员每天面临挑战的复杂性。虽然传统编程遵循明确的规则和逻辑路径，但机器学习引入了一系列新的不确定性，即使是经验丰富的开发人员也难以应对。从本质上讲，机器学习不仅需要代码开发的专业知识，还需要对统计学、线性代数和微积分有深入的理解，这是许多软件工程师自大学毕业后就不再遇到的数学问题。

开发人员面临的第一个障碍是数据质量和准备。原始数据很少以干净、直接可用的格式出现。相反，开发人员必须花费大量时间处理缺失值、异常值和不一致的格式，同时做出有关数据清理的关键决策，这可能会显著影响模型性能。

模型的选择带来了另一层复杂性。在解决某个问题时通常会有几十种算法可用，每种算法都有自己的优势和局限性，选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性，从简单的前馈网络到 Transformer，每个模型都需要仔细调整超参数。

计算资源增加了另一个复杂性维度。虽然小型模型可以在笔记本电脑上运行，但很多机器学习开发通常需要云基础设施、分布式计算和 GPU 优化。开发人员必须熟练掌握 Docker、Kubernetes 和各种云平台等工具。

部署本身也带来了一系列挑战。在开发过程中表现优秀的模型可能会随着数据漂移而退化，需要持续监控和重新训练 pipeline。开发人员不仅必须跟踪代码更改，还必须跟踪数据版本、模型参数和训练配置。

这可能意味着开发人员要在每个步骤中投入数周或数月的工时，才能构建一个能够有效解决问题的 AI 模型。

NEO—— 完全自主的机器学习工程师

NEO 的出现大幅简化了这整套机器学习工作流程，使工程师能够以 10 倍的速度构建和部署 pipeline。它的开发充分考虑了机器学习专业人士的需求，并被设计为像实习生一样，能够从人类的反馈中进行学习。

它是如何运作的？NEO 是由多个智能体驱动多个专门模型实现的，每个微调模型专门用于机器学习生命周期的不同部分。

面对具体目标，NEO 会启动一套完整的工作流以达成目标。NEO 通过结构化的多步骤方法，将复杂问题拆解为易于管理的组件，化繁为简，从而实现目标。

这一方法包括计划、编码、执行和调试的持续循环，确保在每个阶段都进行充分优化。在这个过程中，NEO 会根据进展不断调整和迭代，直到获得最佳结果。一旦开发者批准 NEO 的输出，整个工作流程即可在几秒钟内部署。NEO 为机器学习工程师简化了上述所有复杂环节。

它的目标不是取代数据科学家或工程师，而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中，人们仅用几个小时就能完成一周的工作。

听起来有点像今年 3 月在 AI 社区爆火的首个 AI 软件工程师 Devin，不过多智能体的方法青出于蓝。

NEO 展示了一系列实际工作的 demo，当要求 NEO 构建一个信用卡欺诈检测系统时，它给出了流畅的任务解决方案：

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

当要求 NEO 使用协同过滤方法构建一本书籍推荐模型时，它自动完成了数据集的准备工作，还进行了探索性分析，并对数据预处理进行了结构性优化，使数据集能够更好地用于训练：

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

那么它的跑分如何呢？研究团队在 MLE 基准测试（MLE-bench）上对 NEO 进行了全面评估。MLE-bench 是一种创新的基准测试，专注于将 AI 智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战不同，这个基准测试通过 75 场实际的 Kaggle 竞赛来评估 AI 智能体在机器学习工程中的表现，具有极高的实用性。

在 50 场 Kaggle 竞赛测试中，NEO 表现堪称卓越：在 26% 的竞赛中获得奖牌，超越了 OpenAI 最新推理加强模型 o1 的基准成绩。为了更直观地理解这一成就，看看 NEO 到底是什么水准，Kaggle 金牌的获得要求就很直白：参赛团队需要进入所有团队排名前 10%。这通常需要极高的专业技能、创新方法以及精细优化。

这回落在 NEO 后面的，是搭配 AIDE 框架的 o1-preview 了。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

NEO 在 50 场 Kaggle 比赛中进行了测试，并在其中 26% 的比赛中获得了奖牌，这一表现远远优于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基准测试中的 16.9% 的表现。

NEO 的表现不仅仅是数据，它代表了 AI 辅助机器学习工程的一个突破。凭借如此表现，NEO 已达到堪比 Kaggle 竞赛特级大师的水平，为用户带来了世界级的机器学习专业能力。

官方称，NEO 不仅仅是一款 AI 工具，而是一个像数据竞赛冠军一样的人类合作伙伴，随时准备解决复杂的数据挑战，以经过验证的竞赛获胜能力助你一臂之力。

NEO 的发布在 AI 社区引发了不小的关注，人们非常期待这款新工具能够帮助我们解决繁重的工作，不过也有人认为，目前的展示还只是一面之词，具体情况还得看网友实测。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

多智能体的 AI 真的有如此高的潜力吗？让我们拭目以待。

参考链接：

https://heyneo.so/blog

文章来自于“机器之心”，作者“泽南，亚鹂”。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

关键词: AI , o1 , Kaggle , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

​首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

机器学习中的挑战

NEO—— 完全自主的机器学习工程师

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱