我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了
7121点击    2025-01-24 11:11

真的是离谱。


众所周知,每当业内有牛逼的大模型发布,肯定免不了被咱们号一顿 case 毒打,让这个模型知道什么叫人类的智慧,让它低调做人。


但这次,终于翻车了。


事情是这样的。


昨天豆包大模型 1.5 全家桶正式发布了嘛,官方刚发布 15 分钟,就被咱们 Family 群里的家人给发现了,并且发出灵魂拷问——谁能测测?


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


行,测测就测测。


我就让编辑部的一个男同事去测了。


而且我告诉同事,有家人说豆包大模型是非常能给用户提供情绪价值的。


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


情绪...情绪...


可能我同事对情绪这个词有什么误解,测着测着,我见他逐渐嘴角上扬,甚至老脸愈发红润起来,我们办公室也开始出现一些奇怪的声音..


给你们听一听——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


我见情况不对劲了,我赶紧叫停了,我让他去看会儿论文冷静下。


于是,就换了位女同事。为了保证这次测试能顺利进行,我特意嘱咐她,你别把豆包设置成“男声”,你就测女声就行。于是——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


这次终于行了,这位女同事最近准备出国玩儿,她希望通过豆包大模型 1.5 的文本 + 语音模态能力,帮她赶紧恶补一下英语。


虽然男同事“翻车”了,但从其留下的珍贵影像来看,豆包这次升级后的语音模型在语音的表现力、控制力和情绪承接方面都相当惊艳,聊起来后,完全让人忘了这是个 AI。


而女同事这边,没有用实时语音,而是走了文本 + 语音播报的形式,但惊艳的是,我发现豆包模型的语音与文本模态的融合非常到位——文本口语化,语音拟人化,混合语言的衔接处很自然。从学英语这类日常的使用场景来看,体验非常丝滑。


就在这时,Family 群里有家人抛出了一个号称只有 chatgpt 回答正确的「视觉理解」题——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


这真是大模型视觉能力测试的高端局,AI 算法工程师看了都会恍惚一下,不懂 AI 技术的小伙伴就更懵了。这里引用下群友 Shangzhe Li 对本图的完整解释:


他这个代表了在 ffn 里面的一个 feed forward 的过程,其实就是一个 relu 的 projection


即,答案为「relu 激活函数」


我顺手把这张图丢给 GPT-4o——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


结果,GPT-4o 竟然翻车了。我进一步测试了下,发现群友这里指代的 chatgpt 其实是 o1。


再来看 Claude-3.5-Sonnet——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


果然也翻车了。


而最离谱的莫过于 Gemini 2.0 Flash ——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


它竟然说这是个时钟,好家伙,你这是把学过的机器学习知识完全忘了啊...


但很快,就有家人发现这张题,刚上线的豆包大模型 1.5 竟然做对了——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了

我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


实话说,豆包能把这道题完胜 GPT-4o、Claude-3.5-Sonnet 和 Gemini 2.0 Flash,我其实心里是有问号的,我觉得只是巧了而已。


此前版本的豆包大模型能力,我觉得体感上是谈不上能碾压这三个模型的。


我不相信这次豆包大模型 1.5 的升级跨度这么大。


为了验证我的猜测,我准备祭出更多私藏的恶心视觉题 + 文本题去跟豆包、GPT-4o 和 Claude-3.5-Sonnet 做一下横评!


数猫


先来看看各个 AI 能否识别出来这张图里实际有几只猫!


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


这可是真·视觉推理,AI 要注意到镜子的存在,并因此通过猫在镜子里这件事儿让猫的数量减 1。


压力先给到今天的测试主角!


豆包大模型 1.5:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


牛逼,我开始有点相信豆包不是在吹了。


压力传递给外国选手。


首先是国外口碑最佳的 Claude-3.5-Sonnet:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


竟然也做对了。


再来看看 GPT-4o:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


哈?现在的 AI 视觉推理都进化的这么强了吗,竟然都做对了。


行,为此我要准备上难度了!


视觉错觉图


考验 AI 的视觉能力,还有一类很恶心的题,叫视觉错觉图。长这样——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


这类题目难度不仅适用于 AI,也同样适用于人类。


先来试试这道,比较两个橙色圆的大小(这俩真的一样大)。


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


豆包大模型 1.5:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


竟然这么轻松做对了,还告诉我这是一道错觉题并做了解释。


我有点怀疑题目是不是太简单了。


Claude-3.5-Sonnet:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


万万没想到,曾经的视觉霸主 Claude-3.5-Sonnet 竟然翻车了!不仅答案错了,而且也没意识到这是道视觉错觉测试题。


看来 AI 的眼睛也受不了这种错觉影响。


再来看看 GPT-4o:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


不错不错,GPT-4o 抗住了压力!本题 4o 与豆包打平,Claude 出局。


视觉找茬


有了上面几道题的经验,我觉得是不能再小看 AI 军团了。


必须祭出咱们人类的杀手锏了——


题目:找出不是鸡的字,在第几行第几列


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


豆包大模型 1.5:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


太好了,今晚终于把豆包搞崩了,让它感受到了人类的智慧。


Claude-3.5-Sonnet:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


Claude 也完全眼花了。


GPT-4o:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


好家伙,我连着跑了好几次,只要把这张图丢给 GPT-4o,它就提示缺少中文语言包。这还给 OpenAI 测出来个系统 Bug?


本题 AI 全挂,人类胜!


李白风格写诗


这道题非常接地气,是来自 Family 群的家人“葱花”。


非常考验模型的文学功底,这种题目非常适合让 AI 再朗读出来,考验其语音能力。


题目:你是一名杰出的诗人,请你模仿李白的风格,写一首七言律诗,主题为“黄酒配辣椒炒肉”


先来看 + 听下豆包大模型 1.5 写的诗:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


你别说,真的有味道了,尤其配上这个朗读。


而且我觉得很棒的是,整个诗中,巧妙避开了直接提及“辣椒”、“炒肉”这种让人出戏的“俗语”,字里行间流露出李白那种豪气。无论是眼看还是朗读,都很有诗仙的味道。


好了,接下来压力给到外国 AI。


Claude-3.5-sonnet:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


由于 claude 无法朗读,本题直接就略输一筹了。而从诗本身出发,看到“辣椒”、“青葱入锅”、“肉丝快炒”这种词,我实在无法跟李白产生什么联想...


没事,GPT-4o 会朗读啊,看看它的表现!


GPT-4o:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


好家伙,这个视频你们一定要开喇叭听,我直接笑喷了。


4o 哥哥啊,你这是快板还是诗歌啊...


长长长长长长长,长长长长长长长


这道题本来是恶心做 NLP 算法的人的(拼音标注任务),我现在拿来去恶心 AI 了。


写给卖豆芽的对联,我想打印出拼音:


长长长长长长长,长长长长长长长


先来看看豆包:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


这道题豆包竟然完美做对了,非常 nb,而且给出了全部两种解法。


Claude-3.5-Sonnet:


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


claude 则是进入一本正经的胡说八道的状态了...


最后看看 GPT-4o!


GPT-4o:


这次,请务必打开喇叭。


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


答案错误就不说了,重点是,当我让 GPT-4o 语音念出来后,原谅我不厚道的笑疯了!


都说豆包是大模型里面最接地气、能提供情绪价值的,擅长解决用户的生活学习问题。今天,我对这句话终于有了更直观的理解。


而且,从纵向的版本迭代来看,豆包这次大模型全家桶升级,实测确实惊艳到我了。无论是文本,还是视觉、语音模态,都能在体感上明显感知到相比上一代的提升,这一点属实不易。


我去扒拉了一下这个豆包大模型 1.5 的学术榜单评测,比如视觉能力评测——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


好家伙,真是几乎全面屠榜了。尤其在“College-level Problems”评测中,完全碾压了包括 GPT-4o、Claude-3.5-Sonnet 甚至 Gemini-2.0-Flash,这也难怪能做对“激活函数”那道那么难的视觉题了。


做过算法的都知道,让大模型在学术测试集上涨点虽然不易,但让大模型在真实 case 层面让用户体感上感知到惊艳和提升更难。


而且我注意到这次豆包发版时在公众号文章里提到了一个细节——


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了


如果你是做大模型算法的,你肯定知道这个细节的信息量&含金量。


业界有个公开的秘密:当国外有很强的大模型发布时,要快速追平他,你只需要将海量的用户提问丢给这个大模型,拿到大量的回答,然后再把这大量的“问题-答案对”作为训练数据喂给自己的模型做训练(这个过程叫“知识蒸馏”),那么你模型的能力很快就能接近这个先进的模型。


这也是为什么,OpenAI 上线 o1 之后,一直把思维链藏着掖着,其实就是希望大家别蒸它,追赶的慢一点...


当然,这种“捷径”不是没有代价的。


最大的代价就是,你成为了永远的追赶者...


无限蒸馏、无限追赶,你永远只能接近第一梯队的能力而无法超越它。


如果数据清洗的不到位,训练过了头,甚至会出现副作用,比如 AI 会称自己是另一个模型,以及在一些问题上,回答会看起来跟你蒸馏的那个 AI 的回答长得非常像,甚至一字不差。


而根据我字节算法朋友的可靠求证,字节做豆包大模型,确实在训练过程中未使用任何其他模型生成的数据。


就冲这一点,算法出身的我必须要给豆包大模型 1.5 点个赞。


最后,不忘提醒一嘴,这次升级的豆包全家桶在火山方舟上都能通过 API 调用,除了实时语音模型 Realtime API 预计于今年上半年上线外,其余模型的 API 已经可以直接调用了。


附传送门:


https://www.volcengine.com/product/ark


不说了,我先冲了。


文章来自于微信公众号“夕小瑶科技说”,作者 “夕小瑶编辑部”


我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales