原来,这些顶级大模型都是蒸馏的
原来,这些顶级大模型都是蒸馏的「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。
「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。
最近,科技圈都在传一个数据:百度旗下的文库业务,AI功能月活用户突破9000万,超过字节旗下豆包的7000万。最近,科技圈都在传一个数据:百度旗下的文库业务,AI功能月活用户突破9000万,超过字节旗下豆包的7000万。
实际上 Operator 只是最近一段时间,全球大模型公司智能体集中发布浪潮的一部分。早于 Operator 发布前两天,字节跳动豆包大模型团队就已经公布了同类型智能体:UI-TARS。
昨天豆包大模型 1.5 全家桶正式发布了嘛,官方刚发布 15 分钟,就被咱们 Family 群里的家人给发现了,并且发出灵魂拷问——谁能测测?
刚刚发布的豆包大模型1.5,不仅多模态能力全面提升,霸榜多个基准;更难得的是,它在训练过程中从未使用过任何其他模型生成的数据,坚决不走蒸馏「捷径」。
早上MiniMax上线TTS,字节上线AI编程Trae;下午字节全量上线豆包实时语音;晚上DeepSeek开源R1性能直接对标OpenAI o1,然后Kimi的k1.5直接正面硬刚。昨天的余温还没过,今天下午,腾讯混元又悄悄开了个闭门发布会,作为混元的老基友,我自然是受邀参加期期不落。
模型蒸馏也有「度」,过度蒸馏,只会导致模型性能下降。最近,来自中科院、北大等多家机构提出全新框架,从两个关键要素去评估和量化蒸馏模型的影响。结果发现,除了豆包、Claude、Gemini之外,大部分开/闭源LLM蒸馏程度过高。
如果我们打开阿里的招聘官网,可以发现通义To C的一些招聘细节。在“智能信息”这个事业板块搜索与“通义”相关的可以看到总共有六个岗位,初步发布时间刚好就是去年年底通义To C分拆这一消息刚传出来的时候:
就在刚刚,豆包的超级实时语音全量上线了。
前两天,在游戏论坛闲逛时,看见一个帖子说《逆水寒》手游更新了。这个 AI 浓度超高的游戏最近多了几位各有特色的「AI 娘」,还多了一种名叫「AI 大模型竞技场」的新玩法。