ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
全国首个上手机的AI视频通话来了!《黑神话:悟空》经文也能破译
7973点击    2024-08-30 17:54

免费的AI视频通话功能,就这么水灵灵地来了。


之前B站Up主“女流姐”在直播《黑神话:悟空》的时候,科普游戏内的经文被大家津津乐道。


那么这个可以打视频通话的AI,是否也能帮玩家破译经文呢?


我们这就实测了一波:


这个AI在看完经文后,表示大致意思是:


佛陀在菩提树下教导弟子如何修行和获得无上的智慧。


而清华毕业的“女流姐”在直播中给出的解释也是“世尊在启示众人”。


这一波,AI算是把博大精深的经文给解释到位了。


那么对于这款游戏,AI又了解多少呢?我们给它看了下开场大片并提问:



嗯,这个AI准确地认出了孙悟空和游戏的名字。


这便是智谱AI最新推出的类GPT-4o视频通话的功能——让AI边看世界边和你聊天


而且已经在自家App智谱清言里上线了,是全国首个正式开放的那种(一部分人先用起来,再逐步完全开放)。


AI视频通话,还能用来干啥?


首先,AI视频通话的入口,就在首页底部输入框右侧的电话按钮



进入通话界面,再点击视频按钮,就可以开启视频通话的模式了:



现在,是时候打开新世界的大门了!


它能直接辅导小孩做作业。不仅能直接看到、看懂题目,还会循循善诱,一步步引导小孩自己思考找到正确答案。


轻松拿捏英语翻译,甚至是专业论文。



当然还能变成日常生活助手,比如让它帮忙看下食品是否过期。



还能陪人闲聊,情绪价值拉满。



而且可以随时打断它的话,不用固定一来一回,就像和人聊天那样。


(聊天过程也主打一个“啊对对对,你们人类说的都对”)



同时也能和人互动,可以准确找到手指指到的地方。



总结来说,新增的AI视频通话能力,让智谱清言不用仅仅依赖打字、语音这种人类主动输入的形式了解世界,只要打开摄像头,咱们看到的画面,AI也能了解。


这样一来,AI的能力立马提升了一个维度。具备跨文本、音频、视频实时推理能力后,AI也在交互上变得更加灵活、亲切。


基座大模型也升级了


除了这次AI视频通话功能之外,智谱AI在大模型技术上也一波大更新——


推出新一代基座大模型GLM-4-Plus


而且是敢在KDD国际数据挖掘与知识发现大会上发布的那种。今年以来,智谱以“国产之光”的形象频繁在ICLR等国际舞台上露脸亮相,向外展示中国大模型当下最前沿进展。


首先,在语言文本能力方面,GLM-4-Plus已经取得与GPT4o及405B参数量的Llama3.1相当的成绩。



大模型长文本能力也随着此次的更新得到了加强:



图像和视频理解能力方面,GLM-4-Plus也取得了较为突出的成绩;而且还是可以理解网页内容,并将其转换为HTML代码的那种。



即使是面对复杂的视频内容,GLM-4V-Plus也能轻松hold住。


据了解,该模型将上线开放平台(bigmodel.cn),智谱AI还将提供国内首个通用视频理解模型的API!



以下面这个视频为例:



GLM-4V-Plus在看完视频之后,便可以对其内容做理解并回答用户的问题。


用户:这个穿绿色衣服的球员在整个视频都做了什么?


GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。


用户:这个视频的精彩时刻是什么?发生在第几秒?


GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。


由此,也就不难理解智谱清言上的AI视频通话功能为什么可以做到如此丝滑了。


智谱AI,又先迈了一步


今年以来,智谱的大动作不断。


不仅仅是这次上线的AI视频通话是全国首个,更早之前的每一个“大动作”也都是属于领先的梯队。


比如年初发布的新一代基座模型GLM-4,全面对标GPT-4;7月发布的类Sora视频生成模型CogVideoX;以及文生图模型迎来最新版本CogView-3-Plus,其效果接近目前最佳的MJ-V6及FLUX等模型,并支持图片编辑功能。



全面对标OpenAI,不是说说而已。


更关键的是,发布即开放,这很智谱。


智谱清影上线即可免费体验。底层模型同样开放。


也是在这两天,智谱AI的CogVideoX-5B宣布开源。它能在低门槛条件下带来更好的视频生成效果。



为开源社区提供了更丰富选择。



与此同时,GLM-4-Flash也已经做到了完全免费。


由此可见,智谱AI在让大模型变得亲民这条路上是认真的。


毕竟AIGC应用,好用、易用才是硬道理;得用户者得天下。


那么你觉得智谱AI的视频通话功能如何呢?欢迎体验过后在评论区留言讨论哦~


p.s.目前只是Beta版本,近期还会有更大版本迭代~


参考链接:

[1]https://www.bilibili.com/video/BV1p2421Z7f1/?vd_source=2cbb36f222ba4fbcf9054d7042914889

[2]https://www.bilibili.com/video/BV1giWHewELY/?spm_id_from=333.337.search-card.all.click&vd_source=1da63cf85df97568b93eb5f22aae3fa3


—  —


文章来源“量子位”,作者“金磊 明敏”



AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales