ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o
7798点击    2024-08-31 10:38
在与 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing:清言上线了视频通话功能,首批面向部分用户开放。


中国的大模型,正在世界舞台上站稳脚跟。


近日,数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开,来自中国的研究团队和科技企业纷纷亮相。其中,在 8 月 29 日举办的大语言模型日(Large Language Model Day)上,智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM,成为中国科技力量的鲜明代表 。



与此同时,他还介绍了智谱基础模型的重大升级,即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。


此外,他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能,后者具备卓越的图像理解能力和基于时间感知的视频理解能力,上线开放平台后将成为国内首个通用视频理解模型 API。


在视频生成方面,比 CogVideoX 2B 更大的 5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。


这些模型共同构成了智谱自主原创的全栈大模型谱系,推动智谱全面对标国际先进水平,巩固中国在全球大模型领域的领先地位。


第一手实测

通用知识、视觉理解、图像生成体验升级


我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。


先看官方给出的指标。从结果来看,在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。



对于逻辑推理任务,先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看,GLM-4-Plus 很懂小数位比较的逻辑思路。



给 GLM-4-Plus 上上难度,看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路,并给出准确答案。



GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌,说明背后的搜索功能做得也不错。



接下来,我们测试了 GLM-4V-Plus 的图像理解能力。


给出一张有关英伟达的漫画,GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热,指出英伟达是铲子卖家,其他 AI 公司是铲子买家,和漫画寓意相符。



接下来,我们又给了它一张包含多个人物的梗图。结果发现,GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景,还能看出几个人之间的关系以及表情的成因,效果出乎意料。



GLM-4V-Plus 在「实战」中不仅可以理解网页内容,将它们转换为 html 代码,而且能够对复杂的视频内容进行透彻的理解与分析,并做到与人类之间类似的沟通。


我们也让 GLM-4V-Plus 生成了机器之心官网截图的 html 代码。它基本对设计稿进行了分区规划,排版方式用了比较现代的 flex,支持一定的响应式,具有一定的基于当前代码继续补充细节的可行性。


从代码功能来看,它能够正确识别模块的内容大概是什么(比如是 Logo、是 Banner 还是新闻),并且语义化给出 class 命名(如新闻板块命名为.news)。



眼见为实,GLM-4V-Plus 强不强,下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频:



然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。


Q1: 这个穿绿色衣服的球员在整个视频都做了什么?
A1: 在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
Q2: 这个视频的精彩时刻是什么?发生在第几秒?
A2: 这个视频的精彩时刻发生在第 4 秒,当时穿绿色衣服的球员跳起并将球投入篮筐。


可以看到,GLM-4V-Plus 显然准确地 get 到了视频传达的内容,并进行了全面的总结。不仅如此,它还能根据「看到」的某些显著特征(如球员的服装)来展开进一步合理的推理判断;并针对具体时间节点的内容进行概括总结,在某种程度上可以说具备了时间感知能力。


我们测试了当前大火的《黑神话・悟空》片段,GLM-4V-Plus 也能按照时间顺序描述清楚,而且描述语言文学性高,与视频片段高度适配。



一个穿着传统中国盔甲的动画孙悟空,站在多云的天空下,散发出决心和战斗的准备。随着时间的推移,他的装束被详细展示,包括金色的盔甲、红色的流苏和类似羽毛的头饰,背景是雾蒙蒙的。他的表情从严肃的决心变为沉思,暗示着内省。场景转换到一个雾蒙蒙的山区地形,在那里,一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物,预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级,最终在多云的天空下,一场戏剧性的对峙达到高潮。


最后,从 CogView-3-Plus 生成的一系列图像示例中,我们体验到了文生图能力的显著提升。


比如在下面这张图中,我们看到 CogView-3-Plus 可以非常准确地生成单词,这在很多文生图应用中都是高频翻车区。



在下面这张图中,CogView-3-Plus 不仅准确还原了马斯克的面部特征,还创意性地给马加上了类似电路的纹理,非常富有想象力。



CogView-3-Plus 对于古诗词的理解有些出乎意料,不仅画出了所有的元素,还还原了诗词中的意境。



人物的生成则非常逼真,而且细节丰富、氛围感强。



可以说,智谱「超大杯」模型系列的实际体验效果,「兑现了」性能指标上的全面提升。


One More Thing

智谱版「Her」正式上线


除了以上基础模型的进展,智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。


我们知道,在 GPT-4o 出现后,大家都在猜测,下一个 Killer APP 的交互方式会是什么样子。很多人看好语音,但毋庸置疑,语音 + 视频会更加方便,所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」,让大模型不仅会写、会听、会说,还会看。


在国内,智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言,然后打开视频通话窗口,就可以和它视频通话。



这个视频通话跨越了文本、音频和视频模态,并具备实时推理的能力。随着该功能的加入,清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。


从官方 demo 来看,这个功能可以用在陪伴、教学、办公、生活等多种场景。



为了验证效果,机器之心在第一时间进行了尝试。


首先,我们尝试了一道小学数学题。在看到题目后,清言似乎自动代入了一个小学老师的角色,语速放慢且富有耐心。而且,它不是直接给出结果,而是用苏格拉底启发式教学法,引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗?



接下来,我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出,它不仅能把新闻概括出来,还能自行扩展新闻背后的信息,可以考虑拿来当工作搭子了。



目前,该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端,就能站内申请内测。智谱表示会持续迭代并逐步放开规模,尽快让全员都可以使用。


此外,智谱还透露,这其实只是一个 beta 版本,清言的视频通话功能近期还会迎来大的版本迭代。看来,智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level,在行业内掀起新一轮竞赛。


密集的迭代背后

智谱有着充足的技术弹药


在众多大模型公司中,智谱是非常有辨识度的一家。这一方面是因为,智谱的模型早早就做到了接近 GPT-4 的水平;另一方面则是因为,没有哪家国产大模型公司像智谱的技术动作这样密集。


比如 2024 开年以来,智谱这家公司就一直「没消停过」。


比如,在模型方面,智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今,GLM-4 再度进化,时间间隔也不过半年多。


在战火纷飞的小模型战场,智谱也没闲着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 还是多模态的,通过加入 Vision Transformer,该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是,这个模型是开源的。


而在产品方面,智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务,这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制,帮助没有编程基础的用户实现大模型的便捷开发。


在清言这款 C 端产品上,智谱也是更新不断,其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。而且,和 OpenAI 迟迟没有上线的 Sora 不同,清影同源的视频生成模型 ——CogVideoX 也是开源的,而且一路从 2B 开源到 5B(未来可能更大),这在国内外开发者群体中都引发了不小的轰动。



今天 HuggingFace 热榜,CogVideoX-5b 排名第三,超过 Llama 了。



据悉,智谱开源模型累计下载量已突破 2000 万次


可以看到,从基础大模型到小模型,从语言到多模态,从技术到产品,智谱在各个方向全面发展,且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。


在竞争激烈的全球大模型市场中,智谱正通过频繁的技术迭代和开源举措,不断推动行业和生图的发展,赢得了越来越多的关注与认可。


文章来源“机器之心”,作者“张倩、杜伟”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/