OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试
6774点击    2025-02-03 17:51

一大早,OpenAI开启的在线直播,简直让人猝不及防。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


OpenAI研究负责人Mark Chen带领三位工作人员,在20多分钟内向我们详细演示了Deep Research的功能。


最大亮点之一:只要数十分钟,它就能完成人类专家花费几小时的复杂调研任务!


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


Mark Chen将之称为「我们的下一代智能体产品」。


去年,OpenAI就推出了o1,但这些推理模型的一个限制,是它们无法使用工具,因为缺少了浏览互联网这个核心能力,


因此,现在OpenAI宣布了一个重大步骤:引入Deep Research!


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


奥特曼激动地表示,这就像是拥有一种超能力,可以随时调用专家!


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


它能够使用互联网进行复杂的研究和推理,并为你提供详细报告。它非常强大,能够完成那些通常需要数小时、数天,且花费数百美元的任务。

需要强调的是,Deep Research是基于优化版o3打造——一个可以浏览网页和执行python代码的o3。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


这是一个可以在互联网上进行多步骤研究的模型,它能发现、综合内容,并对之进行推理。甚至随着发现更多信息,它还会调整自己的计划。


也就是说,Deep Research的一大特点,就是消除了模型中的延迟限制,它返回结果可能需要五分钟,甚至长达半小时。


模型能在无人监督的情况下,以更长时间执行自主任务,这俨然就是AGI的雏形。最终,OpenAI的愿景是:模型能自主发现和发掘新知识。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


OpenAI研究员表示,「使用Deep Research对我来说真的是一次个人的AGI时刻。只要10分钟,它就能生成准确又全面的竞争对手和市场研究报告(还有来源),以前这些东西我得花3个小时才能做完」。


现在,Deep Research会自己上网,然后给你一份全面、引用翔实的研究论文!也就是说,它已经妥妥达到了某领域研究专家的级别。


奥特曼还特意发文表示,这还不是o3-mini的「One More Thing」,这个小彩蛋过几天公布。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


今天,Deep Research就将在Pro中推出了(每月100次查询),之后还会很快在Plus、Team、Education和Enterprise版本中上线。


帮PM完成深度市场调查报告


从一个按钮「Deep Research」开始,就可以和Deep Research聊天了。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


OpenAI研究者演示说,自己一直在思考的就是,是否该开发一款新的语言翻译app呢?


这个市场调研,就可以交给Deep Research——


「帮我找到ios和Android的采用率,想要学习另一种语言的人的百分比,过去几年移动普及率的变化,以及发达国家和发展中国家的差异。」


研究者明确表示,希望自己想要的信息以格式化的报告呈现,其中要包含表格和明确建议,说明哪些是最佳的新兴机会。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


这个市场调查要求,可着实不简单。如果是普通打工人来调研,最少也得花费数小时。


但是Deep Research,立马就启动了调查。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


接下来,研究者进一步细化了自己的要求:给我渗透率的用户百分比,分析总体使用情况,对其余部分进行最好的假设。


在这里,Deep Research就开始发挥自己的长处:自主启动研究过程。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


在这个过程中,它会浏览不同网页,查看相关图片、表格、PDF,提取所有信息,来确定下一步要做什么。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


在OpenAI的演示结束时,Deep Research仍然在进行搜索和调研。此时,它已经查看了29个不同来源和大量信息。


可以看出,它的报告中已经包含了不同的表格,以及多种呈现数据的形式。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


而且,我们能够点击查看模型的每一个引用,以及它遇到的不同网站。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


对于不同学术领域的市场研究,比如物理学、计算机科学、生物学,Deep Research都很擅长。


OpenAI研究者还展示了一个财务研究的例子:「我是一个硅谷风投公司的投资分析师,想分析民用超音速航空旅行市场,准备一份详尽的投资备忘录。」


在这个过程中,模型开展了7分钟的研究,使用了12个不同来源,提供了一份全面的调查报告。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


下面是一个生物学方面的例子。


研究者上传了一篇论文,想找到关于同一主题的其他论文。


最终Deep Research给出的结果,得到了生物学专家的认可。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试



有趣的东西:买买买


而且,Deep Research能做的绝不仅仅是严肃的学术调查报告,它还可以帮你完成很多有趣、好玩的调查,比如——我该买什么?


如果我们要入手一件很贵的东西,肯定不敢贸然下单,而是提前在网上细细研读每一页说明和买家评论。


比如想在日本滑雪,想买滑雪板,就可以直接让Deep Research给我们出一份带表格的报告。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


在这个过程中,我们可以细化要求:高级滑雪者,有时雪是粉状的,自己身高很高所以需要长滑雪板,而且颜色要很漂亮。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


最终,Deep Research给出了长篇的报告,还对理想的滑雪板做了详细列表。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


也就是说,如果你想要的答案非常具体,那么Deep Research就会非常有效。


甚至,我们可以用Deep Research找出10年前在东京去过的餐厅的名字,或者找到我们忘记名字、但记得其中某集内容的电视剧。


除了描述情节之外,其余的信息就是这是5到10年前的电视剧了。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


结果,Deep Research居然找出了正确答案!


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试



优化版o3加持,AGI又近一步


去年12月,谷歌最先放出了研究智能体Deep Research。


OpenAI同款Deep Research,也是智能体的一种,能够针对复杂任务上网进行多步研究。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


它能在几十分钟内,完成人类需要数小时才能完成的工作。


只需一个提示,ChatGPT即可查找、分析和综合数百个在线资源,创建一份「研究分析师级」的综合报告。


值得一提的是,Deep Research由即将推出的o3模型的「优化版本」加持。


OpenAI通过端到端强化学习,对它的深度浏览和推理任务进行了训练。


该版本专门用于网页浏览和数据分析,它利用推理能力来搜索、解释和分析互联网上大量的文本、图像和PDF,并根据遇到的信息随时调整方向。


要知道,「综合知识」的能力,是创造新知识的先决条件。


因此,Deep Research的推出,标志着OpenAI向更广泛的目标——开发AGI迈出了重要一步。


OpenAI研究科学家Hyung Won Chung对此表示:


Deep Research的一个显著特点就是它极强的耐心。我认为它已经接近了「超人类耐心」。在这个项目的过程中,我意识到智力和耐心是非常契合的。

就像推理模型o1一样,Deep Research是通过强化学习(RL)进行学习的。它学习如何搜索相关信息,并通过推理整合知识。当scale遇上RL时,魔力就会产生。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


毕竟,OpenAI一直设想,真正的AGI是能够自己产出新颖的科学研究。


几天前的Reddit在线问答中,奥特曼也发表了同样的观点。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


在我看来,最重要的影响将是加速科学发现的速度,我认为这是对提高生活质量贡献最大的因素。

一个提示,即出一份专业报告


那么,Deep Research究竟能做什么?


据OpenAI介绍,它是专为那些在金融、科学、政策和工程等领域从事密集知识工作,需要全面、精确和可靠研究的人们而打造的。


对于那些「买买买」购物狂来说,Deep Research还能为你所需研究的购买项目,比如汽车、家电、家具等,提供高度的个性化建议。


而且,每个输出都有完整的文档记录,包含清晰的引用和思维过程总结,方便随后参考和验证。


尤其是,它特别擅长发现需要浏览众多网站才能获取的小众、非直观信息。


只需查询一次,Deep Research就能get要点,加快复杂、耗时的网络研究,节省了大量宝贵的时间。


此外,Deep Research能够独立发现、推理并整合来自网络各种见解。


在技术层面上,它采用了与o1相同的强化学习方法,并进行了重要的升级。


它在真实世界任务中进行了训练,整合了浏览器的操作能力,强化了Python工具使用。


虽然o1在编码、数学和其他技术领域展示了令人印象深刻的能力,但许多现实世界的挑战需要从不同在线来源获取大量背景和信息。


Deep Research在这些推理能力的基础上弥补了这一差距,使其能够处理人们在工作和日常生活中面临的各类问题。


最快5分钟,图像数据可视化要来


进入ChatGPT,可以再聊天对话框中选择「Deep Research」,直接输入提示即可。


不论是对流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告,ChatGPT全能hold住。


甚至,你还可以上传文件、电子表格,提供与问题更多相关的背景信息。


一旦开启对话,侧边栏会显示所采取步骤和信息来源的摘要。


一般来说,Deep Research需要5-30分钟完成一份研究,具体实践取决于深入网络研究所需的时间。


在此期间,你完全可以去干别的事,ChatGPT完成研究后会主动向你发送通知,最终的输出将以报告形式展现在聊天中。


更惊喜的是,未来几周,OpenAI还将在这些报告中添加嵌入式图像、数据可视化和其他分析输出,提供更多清晰度和背景信息。


与Deep Research相比,GPT-4o更适合实时的多模态对话。


对于需要深入和细节的多维度、专业领域的问题,Deep Research能够进行广泛探索并为每个论点提供引用来源。


这种能力使其有别于简单的快速总结,而是能够提供经过充分论证和验证的专业答案,这些答案的质量足以作为正式的工作成果使用。


比如,你想要统计过去10年内,按GDP排名的前10个发达国家和前10个发展中国家的以下数据:iOS和安卓系统的使用率、想学习另一门语言的人口比例、移动设备普及率的变化。


GPT-4o仅仅是帮你列了出来,而Deep Research更像是一个报告,甚至给出了完整的可视化表格。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


端到端强化学习,与o1同源


Deep Research是如何运作的?


它通过在各个领域的复杂浏览和推理任务上,进行端到端强化学习训练而成。


通过这种训练,它学会了规划和执行多步骤路径,找到所需数据,必要时可以回溯并对实时信息做出反应。


该模型还能够浏览用户上传的文件,使用Python工具绘制和迭代图表,在回答中嵌入生成的图表和网站图片,并引用其来源中的具体句子或段落。


通过这种训练,它在多个关注现实世界问题的公开评估中刷新SOTA。


人类最后一场考试,得分26.6%刷爆了


全网爆火的「人类最后一次考试」中,Deep Research取得了26.6%准确率破纪录。


奥特曼骄傲地表示,早在周五,「人类最后一场考试」的最高分是 o3-mini-high,得分为 13%。但到了周日,Deep Research功能的得分已经达到了26.6%。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


要知道这项测试包含了超3,000道「专家级」多选题和简答题,涵盖从语言学到火箭科学、从古典学到生态学等100多个学科。


与o1相比,最大的进步出现在化学、人文社会科学和数学领域。


驱动Deep Research的模型通过在必要时有效寻找专业信息,展现出类人的解决方案。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


GAIA


在GAIA测试中,这是一个评估AI解决现实世界问题能力的公开基准测试。


驱动Deep Research的模型同样刷新SOTA,位居外部排行榜榜首。


这些测试包含三个难度等级的问题,成功完成这些任务需要具备推理能力、多模态流畅性、网页浏览和工具使用等多项技能。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


下面是一级和三级任务的对比区别。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


专家级任务


另外,在对各个领域专家级任务的内部评估中,Deep Research能够自动化完成,需要多个小时的复杂人工调查工作。


下图为专家级任务与最大工具调用次数的对比,显示出了模型花更多时间思考和浏览时,性能就会更强。


这跟OpenAI的理念相吻合:在未来世界里,智能体将花费越来越长的时间,完成越来越困难的任务。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


下面这个案例中,Deep Research进行的化学研究,节省了大约4小时的时间。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


语言学方面,更是节省了5个小时。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试


以下两个图表可以证实这一事实。其中,上图为不同估算经济价值范围的通过率,下图为完成不同任务所需时间范围的通过率。


所谓通过率,即模型在专家级任务中提供满意答案的比率,答案由专家评定。


从图表中可以看出,通过率与估算经济价值的相关性,比估计小时数的相关性更高,也就是说,模型发现困难的事,也是对人类来说更耗时的事。


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试



OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试



局限性


Deep Research仍处于早期阶段,同样存在一些限制。


根据内部评估,它有时会在回答中产生虚构的事实或做出错误的推断,不过,频率明显低于现有的ChatGPT模型。


它可能难以区分权威信息和谣言,目前在置信度校准方面表现较弱,往往无法准确传达不确定性。


在发布时,报告和引用可能存在微小的格式错误,任务可能需要更长时间才能开始。


OpenAI预计所有这些问题都会随着使用时间的增加而快速改善。


Pro用户先上手,Plus一个月内上线


OpenAI称,Deep Research在ChatGPT中非常消耗计算资源。


研究查询所需时间越长,所需的推理计算就越多。


目前,OpenAI开始向Pro用户提供优化版本,每月最多100次查询。


接下来,这项功能会逐渐向Plus和Team用户(带越一个月内),以及Enterprise用户推出。


未来,所有付费用户都将获得更高的使用配额。


届时,OpenAI将发布一个更快、更具成本效益的深度研究版本,它由更小的模型驱动,但仍能提供高质量的结果。


下一步:Operator+Deep Research


ChatGPT的Deep Research功能现已在网页版正式上线,并将在一个月内推广到移动端和桌面端。


如前所述,目前,Deep Research可以访问实时互联网,获取最新信息,并对上传的文件进行深入分析。


但,这仅仅是开始。


未来,任何一个人将能够接入更专业的数据源,比如学术期刊或企业内部资源。


这种定制化的知识获取能力,让ChatGPT真正成为你的专属智能助手。


最激动人心的是,OpenAI正在酝酿一场更大的革命。


下一步,通过将Deep Research(负责异步网络调查)与Operator(负责实际行动执行)相结合,ChatGPT将不再局限于信息处理,能够为每个人执行愈加复杂的任务。


这种突破性组合,将开创一个全新的AI个人助手时代。


参考资料:


https://www.youtube.com/watch?v=jv-lpIsnLOo


https://openai.com/index/introducing-deep-research/


文章来自于微信公众号“新智元”


OpenAI紧急直播,ChatGPT疯狂开挂「深度研究」!10分钟爆肝万字现AGI雏形,刷榜人类最后考试

关键词: AI , chatGPT , AGI , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales