今天晚上,就在刚刚,豆包终于上了之前很多人期待的功能。
深度思考。
我之前用别人的账号体验过这功能,就是推理模型,而今天看到的第一刻,我以为的是,豆包的推理模型终于全量上线了。
但是当我体验了一下以后,发现他们这个深度思考,跟之前的推理模型、还有其他的AI联网还真的有点不太一样。
它不止是是个推理模型,还直接把思考和搜索,给融合在了一起,有点DeepSearch那个做法。
而不是像DeepSeek一样,把深度思考和搜索分开去处理,用户自己选择是否打开思考和联网。
这个说法可能有点难理解,看个案例。
比如说,我最近有一部非常喜欢的情景喜剧在看,是《鹊刀门传奇2》,今天终于看到大结局了,还挺舍不得的。。。
小声比比:我强烈安利所有没看过的人去看,真的超级无敌爆炸好看。
这里面的演员呢,其实很多都是赵家班的,我在弹幕上天天看到有人说,这人是《乡村爱情》里面的谁谁谁。
于是,我就想搜一下,鹊刀门传奇2中的演员,在乡村爱情中分别出演过什么样的角色?
如果你把这个问题,问DeepSeek的话,他的做法和答案是这样的。
你会看到,流程是先根据我的问题,去联网查询,查到了所有的内容以后,再根据这些搜到的内容和我的问题,来给我进行回答。
而最后的回答是这样的。
我当时脸都看懵了,一半是配角,一半是未透露。
不是,那几个主角,你是一句没提啊。。。
这个其实就是现在很多AI搜索的弊端,在一些稍微复杂一点的问题上,根本就不够准确。
而像我一直狂吹的OpenAI的DeepResearch之所以效果那么好,是因为他除了底模是o3强到爆炸之外,也是一个Agent,不是上来对着这句话先搜,而是先思考,先规划,规划完了再去一点一点搜索,得到答案。
豆包这个深度思考,是一样的逻辑。
比如我把刚才那句话,问豆包。
你会看到,跟DeepSeek的搜索不一样的是,豆包的深度推理是先思考,再搜索。
先把问题拆成了4步:
然后才去搜索相关资料。
在过程中,也不是搜索一次以后就结束了,而是思考 - 搜索 - 思考 - 继续搜索。
所以你会看到,在一次任务中,可能会出现好几次搜索。
我的这个任务,在豆包经历了两次搜索之后,给出了一篇答案。
主角都抓出来了,回答质量上也好不少,整体的正确率能达到80%。
当然,一些细节的错误也有,就单说鹊刀门传奇2的角色。
比如高大毛并不是鹊刀门的弟子,他是天池帮的;比如唐鉴军老师在鹊刀门传奇2中饰演的角色是绝绝子,不是公孙丽蓉,公孙丽蓉是张小英老师演的;比如王小虎饰演的是王公公,并不是任我翔。
细节的幻觉部分还是难以避免。
除了这个两部戏的演员关联,我也测了一些其他的例子。
比如我有一个很有意思的prompt,是:
《哈利·波特》系列电影中,每部电影出现但被大多数观众忽略的关键细节分别是什么?
豆包想了很久,整整搜索了3轮。
第一轮搜索,豆包把任务拆完分步骤以后,知道了大概的隐藏细节是什么样子的,知道纯靠自己估计答不好,需要去参考影迷社区的讨论。
可以在右边看到,搜索的还是很精准的,几乎都是精准的细节帖子。
在第一轮搜索结束之后,其实已经拿到不少内容了。但是豆包自己PUA自己了一圈以后,发现怎么只有第一、三、四、七部的,哈利波特总共8部的,缺了另外4部的一些内容,然后,它又开始了第二轮搜索。
拿了不少关于魂器和凤凰社的信息。
而第三轮搜索,则是给自己,继续补充细节。
最后,豆包自己感觉,信息基本都够了,再搜可能没啥增量信息了,决定停了,也差不多了,可以整合整合给用户回答了。
最后,回答的效果是这样的。
很全面,很细节,又勾起了我的很多的回忆。
比如我最近想买一个数码相机,学一学摄影。我是这么问豆包的:
我想买一台数码相机,预算1万左右,主要用途是旅游拍照和短视频拍摄。请你先在国内外评测网站搜索该价位区间内画质、视频防抖表现都不错的机型,然后再比较这些机型在镜头群、重量和售后服务方面的优劣。根据实际使用场景给出购买建议。
同样,也搜索了3轮,自己想了N多的回答。
最后,给我列了一个对比表。
对比了一通后,非常推荐我富士 X-T4 单机身,说是搭配二手镜头是最优解;若能接受小幅超支,佳能 EOS R8的综合性能更值得投资。
不知道有没有懂摄影的朋友,来看看豆包这个推荐的怎么样。
目前从我的测试来看,大多数的回答,都回在2~3轮会结束,时间最长在50秒左右,大多数情况在20多秒的时候都能出回答。
我个人对豆包的新版深度思考的评价是:
最终质量中规中矩,但是补上了一个生态位。
现在所有跟AI搜索相关的功能(包括AI搜索、深度思考、DeepResearch、DeeperSearch等等),其实可以列成一个四象限。
横轴是最后搜索结果的质量,从一般到高;纵轴是消耗时长(也可以说是成本)从高到低。
我自己也做了一下评测,然后做了一张图。(叠个甲:根据我自己日常使用场景进行测试,纯个人主观,如果不同意见勿喷。)
单从输出质量看,T0肯定是OpenAI的DeepResearch,但是消耗时间也最高,十几分钟是长有的事,也是最贵的模型,一次查询就是2美刀。
他们强就强在是一个极度完整的Agent,拥有最强基座o3模型。
其次就是Grok前几天更新的DeeperSearch,拥有X独特的资源,同时也大幅增加了搜索的时长,效果比之前牛逼很多。
而豆包的生态,就在于质量还不错,同时拥有最快的速度。性价比最高,而且,还无限免费用。
从这也能看出各家的打法,坦率的讲,DeepResearch原来就没法给国内的普通人用。
即使Gemini的DeepResearch可以一个月用5次,但是还是不够平权。
而豆包的深度思考,边想边搜的模式,有了Agent的雏形,同时把成本打得足够低,人人都能免费用的上。
而且是免费无限用。
这一点,我觉得他的意义更加重要。
再牛逼的东西,高高在上,处于云端之间,只可远观,虚无缥缈,那还有什么意思呢?
愿更多人。
与触手可及的宝刀相遇。
然后屠龙。
文章来自微信公众号 “ 数字生命卡兹克 “
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0