多模态能力全球TOP3，来自中国从容大模型

5460点击 2024-07-02 18:20

国产多模态大模型的头号交椅，再次易主——

来自云从科技的从容大模型，登上OpenCompass权威榜单，仅次于GPT-4o、Claude3.5-Sonnet，位居全球第三。

没有听错，就是AI1.0 四小龙最年轻那个，科创板AI平台第一股。

国产大模型百花齐放之际，云从大模型始终显得低调很多。

结果现在不鸣则已，一鸣惊人，一举交出这样一个瞩目的答卷。

来看看多模态新擂主的实力如何。

多模态新擂主：从容大模型

来自OpenCompass多模态榜单最新评测结果显示：

从容大模型在该体系中平均得分为65.5，超越了谷歌的Gemini-1.5-Pro和GPT-4v，仅次于GPT-4o（69.9）和Claude3.5-Sonnet（67.9），位居全球第三。

而在国内市场，该成绩也超过了InternVL-Chat（61.7）和GLM-4V（60.8），排名首位。

OpenCompass大模型开放评测体系是上海AI Lab的完整开源可复现的评测框架。

其多模态评测方面采用了8个具有代表性的数据集，主打一个全范围、多视角、客观量化。

评估维度覆盖目标检测、文字识别、动作识别、图像理解和关系推理、艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程、数学推理等多个方面。

多模态能力全球TOP3，来自中国从容大模型

结果此次测评中，从容大模型在6个数据集上表现优异，位列全国第一，包括MMBench、MMStar、MathVista、HallusionBench、AI2D、OCRBench。

多模态能力全球TOP3，来自中国从容大模型

尤其在OCRBench测试集上以取得全球最高的827分（总分为1000分），且高于第二名GLM-4v13分。

这意味着，从容大模型在文本识别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等任务场景下表现优异。

事实上，这也不是从容大模型第一次在全球大模型竞技场中霸榜。

在此之前，它已在视觉、跨模态领域10次刷新世界纪录。综合性能经第三方SuperClue、C-Eval等综合评测，位列全球前五。

云从科技视觉大模型在Benchmark COCO上，从微软研究院（MSR）、上海AI Lab、智源AI研究院等多家知名企业与研究机构脱颖而出，刷新了世界纪录；

去年11月，SuperClue测试集中，从容大模型综合成绩在国内大模型排名第一，仅次于GPT-4和GPT-4 Turbo。

多模态能力全球TOP3，来自中国从容大模型

特别是OPEN测试模块中表现抢眼，包括角色扮演、上下文对话、生成创作等多项能力实现SOTA。

多模态能力全球TOP3，来自中国从容大模型

云从的AI大模型布局和落地

新擂主云从，声势低调，但大模型和AI进展生猛，动作频频。

以从容大模型为代表，来看看云从在AI大模型布局和落地上面交出的是一个什么样的答卷。

去年5月，行业内千呼万唤之中，从容大模型终于亮相。当时起步不算晚，但早早释放出强烈的行业应用信号。

当时除了基座大模型外，云从还演示了多场景下行业大模型，像政务、金融、制造、教育、游戏等。

与此同时，发布会现场还建立了行业生态联盟，与中检、神州信息、佳都、深圳报业、游族、今世缘、艾登等多家公司签约。

同一个月，云从西部智算中心正式运营，标志着从容大模型生产线正式投产。

有基座模型、有应用生态、有智算中心…种种砝码加注，可以看到，从容大模型起跑线不低，而且加速度明显。

这在之后一年多的迭代与落地之中也得以验证，从容大模型在模型、应用以及生态层面全方位发力。

模型层，从容大模型共迭代两次，有1.5以及2.0版本。目前整个从容大模型系列，包含语言、视觉、语音、代码生成、图像生成等大模型。

其技术能力，频频被学术顶会认可。

像云从联合上海交大、中山大学等团队提出一种视觉模型自监督学习方法PointCMP，仅需过往1%的数据量或者无需真实数据便可以达到相同的效果，最终成功被CVPR 2023接收。

多模态能力全球TOP3，来自中国从容大模型

此外其视觉大模型还在ICCV2023细粒度行为检测挑战赛斩获冠军。

多模态能力全球TOP3，来自中国从容大模型

还有像All-in-One大一统，这个时下最前沿的大模型学术思路，早在去年8月，云从就已经有所尝试。

他们在多模态领域唯一CCF A类顶级学术会议ACM MM上提出视觉-语言跟踪大一统模型All-in-One，最终在跨模态领域（TNL2K, LaSOT, LaSOTExt, WebUAV-3M）刷新4项世界纪录。

底座大模型能力持续提升，带动着行业基础大模型的迭代升级以及应用落地。

比如在交通领域，他们的行人基础大模型在PA-100K、RAP V2、PETA、HICO-DET四个数据集上从阿里巴巴、日立等多家知名高校、企业机构脱颖而出，刷新了世界纪录。

还有消费领域，他们的商品基础大模型在MUGE、Product1M 两个规模最大的开源中文多模态商品检索数据集更是刷新了世界纪录，同场竞技者还包括百度、快手、京东、OPPO等玩家。

在应用层，过去一年中，他们软硬件皆有布局，且在金融、安防、政务、交通、能源、教育、医疗、港口、文娱等行业领域都有落地。

他们推出数字人云月，除了高度拟人化呈现，它在动作、形象和智力层面都接近真人水平。

多模态能力全球TOP3，来自中国从容大模型

而为了更大范围落地，他们还打造了数字人服务平台，端到端实现造人、育人、用人等一站式构建数字人操作。

在个人办公领域，他们推出了智能硬件——

内置大模型的AI鼠标，结合本地个人知识库，支持语音输入、PPT生成、智能问答、智能写作等功能。

只需一个「AI」键，每个人都拥有自己AI助手。

多模态能力全球TOP3，来自中国从容大模型

关于AI大模型的应用和落地，除了自身技术融合，也同样离不开生态层面的支撑。

他们很早就同华为昇腾合作，推出从容大模型训推一体机，依托于国产算力，为企业提供从模型训练到推理应用的一体化解决方案。

解决方案内置了大模型推理引擎、调优工具和算子加速库，支撑客户开箱即用，无需进行二次硬件活配即可让客户能够直接使用大型预训练模型，从而实现本地化部署。

多模态能力全球TOP3，来自中国从容大模型

他们还联合推出了变电智巡大模型，可替代人类完成对电力设备的自动巡检，为能源行业的数字化转型提供了大模型应用范式。

多模态能力全球TOP3，来自中国从容大模型

而此前建成的西部智算中心，目前已达到1200P算力资源，可以满足10个百亿级或2-5个千亿级基础大模型同时进行预训练，以及约100个行业大模型同时进行微调训练。

可以看到，云从的“一鸣惊人”，并非一日之功，也并非单打独斗。

除了自身技术实力以及应用生态优势，也同他们从一开始「技术认知」不无关系。

从容大模型的几次迭代，瞄准的都是能快速普及应用的刚需能力，比如多模态能力，以提供更好的交互性能；还有像推理与压缩大模型参数，更低成本实现更快的部署。

本身就立足于人机协同操作系统的云从，此次大模型恰好给它带来了新的灵感和范式。

与此同时，带来了新的行业问题：

AI格局、大模型格局，现在距离“确定”还很远。

大模型格局，是时候重新审视

行业发展到现在，的确到了重新审视的时候了。

此前，业内将全新大模型创业独角兽，按照了“五虎”、“六小强”来统称。

虽然团队技术风格、战略路线都不尽相同，但都有个共同点：

他们来势汹汹，资本押注，迅速闪耀。

有OpenAI这样一个超强独角兽在前作为参考，国内资本市场对他们寄予厚望，其关注度自然比以往任何一次技术浪潮更甚，诸多创新公司以对标OpenAI出发，从0到1打造基础大模型，然后在第一阶段竞速中脱颖而出，被统称、被归类，视为冲击下一阶段AGI大目标的种子选手。

新玩家的关注度，始终占据主流。

甚至一度要比巨头玩家，硅谷的谷歌、Meta，国内的BAT华为讯飞，都更被期待。究其原因，无非是市场对于“年轻锐气”的偏爱，以及认定“一个时代有一个时代的公司”。

但即便如此，在AI 2.0的浪潮中，却也有不容忽视的独特性。

因为AI 2.0，无非是对生成式AI、大模型浪潮的一种人为划分，但AI或者深度学习的本质驱动力三要素，始终没有发生过改变。

依然是：算法、算力和数据。

而且随着Transformer成为主流，业内接受其算法范式新潮流的地位，那算法的魔力、带来的差异性，只会随着时间的流逝而减弱。

算力和数据正在成为新阶段竞速的关键，或者更准确地说，是运用算力和数据的能力。

所以谁是运用算力和数据的能力里，不容忽视的实力派玩家？

答案可能有很多，但一定有AI 1.0里久经考验、落地为王中胜出的公司。

他们有深度学习的研发能力，拥有学研和产业落地检验后的算力能力，还有时间和规模构建起的数据壁垒。在巨头玩家和AI 2.0初创公司之间，他们是不折不扣的中坚、中流砥柱，绝对不容忽视。

实际上，如此维度的观测并非只是趋势指引，而是对已经发生的现象归纳出的总结。

就在大模型浪潮开始后，商汤、旷视、云从……都迅速给出了属于新浪潮的成绩单，这就是技术源发一脉才能展现的实力。以及还有更具体搅动产业竞速的Token成本降价大战，“始作俑者”深度求索，实际也是一家AI 1.0时代出发的公司。

而且AI 1.0里的赢家，面对接下来的擂台赛，还有更有利的位置和资源。

如果说现在统称的AI新四小龙、五小虎、六小强……都只是对技术实力、估值的概括，那接下来真正考验能力的，是落地场景和商业化能力。

对于AI 2.0公司是新挑战，对于AI 1.0公司则是飞轮之下久经考验的小case，甚至他们有成熟的团队、方案、场景和数据，拥有时间和实践检验的保证。

就像从容大模型刚刚发布时，云从这样回答大模型带给他们的变与不变——

变了吗？其实没变，同样人机协同的立足点，同样的行业生态伙伴，就是服务客户也基本上是同一批。要说变了吗，其实也变了。那就是大模型带来技术范式的新灵感。大量的智能化涌现，让更多技术实践中遇到的问题都可以迎刃而解。

现在来看，从容大模型的最新成绩，各行业场景的落地，印证了判断的准确性。

所以归根结底，大模型带来的AI格局冲击和重写，才刚刚开始。

1.0也好、2.0也好，都是对阶段性发展的概括。四小龙也好、五小虎也罢，都是对一个类型一个横截面的片面统称。

如果要更加全局性审视AI江湖，按照技术和商业的两大指标，参考算法、算力和数据的价值潜力……行业概念就需要重新审视了。

比如以从容大模型站上擂台之巅、已经开启规模化场景产业落地的云从，是1.0时代的龙，也很难说不是2.0时代的虎——至少，是时候提出这个问题了。

文章来自于微信公众号“量子位”，作者 “白交”

多模态能力全球TOP3，来自中国从容大模型

关键词: 多模态 , AI , 从容大模型 , Claude3.5-Sonnet , 云从科技

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales