ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法
5724点击    2024-09-21 12:43

再酷炫的多模态和具身智能,抵不过“实用”二字


2024年9月19日开幕的阿里云云栖大会上,近300家涵盖算力、模型、应用的AI企业,和近1000种AI产品,构成了一幅全行业的活地图。


多模态和具身智能,两个今年最热的AI风口,在云栖占据绝对的C位——


云栖大会“人工智能+”馆。


走进汇聚了近60家模型企业的“人工智能+”馆,能明显感受到,如果不加点音视频相关的多模态能力,光拼参数的大模型已经不够看了。


而具身智能,是“前沿应用馆”最“City”的存在。一进场馆,就能看到20多家机器人企业,携着或仿真人、或仿狗子的产品,给你来上一段取货、翻跟头、猛踹不倒的炫技表演。


不过,无论是多模态,还是具身智能,再高大上和先锋的科技,能在云栖引起围观的,只有“接地气”。


这届云栖,参观者中第一次出现了“义乌老板团”。面对同声传译、数字人主播和可一键生成商品图的应用,他们替用户提出了最为现实的问题:能帮我赚多少钱?


当红大模型独角兽月之暗面的展台,大概是“班味”最浓的一个。不少白领、IT都聚了过来,激辩字节的“豆包”和月暗的“Kimi”,哪个办公更好使。


在最具未来感的具身智能展台,被暴力踹踢而不倒的“小强”——逐际动力的双足机器人,引得不少路人围观。这款用于展示机器“小脑”研究成果的机器人,目前还待在实验室里,供力学研究。


逐际动力双足机器人。


这也挡不住观众对此发出灵魂一问:


“推不倒,到底有啥用?”


多模态,模型的标配


通义千问:没有不想落地短视频的多模态应用


一进模型扎堆的“人工智能+”体验馆,很难不被“通义大模型”展区的AI太极写真生成体验区吸引。


通义AI太极写真。


体验者只要比划对应的姿势,在镜头中与简笔画合上——几十秒后,一张太极写真就出炉了。


当然,图生图的AI写真功能,只是阿里云模态版图中的一小块。作为东道主,阿里不仅发布了最新的视频生成模型,还搬来了文生图、图生视频、图+音频生视频的多模态全家桶。


全民舞王。


比如,在通义千问App内,阿里上线了10秒左右的短视频生成应用“全民舞王”。


用户只需上传人或宠物的照片,以及一段说话音频,就能在1-2分钟内生成舞蹈视频、对嘴唱歌视频,或者动态表情包。目前,这还是个免费的功能。


人像动态视频生成技术EMO(Emote Portrait Alive)。


“全民舞王”的背后,是阿里巴巴智能计算研究所在2024年2月发布的人像动态视频生成技术EMO(Emote Portrait Alive)。仅需一张肖像照和一段音频,EMO就能让人物按照音频内容张嘴唱歌、说话。


据现场工作人员介绍,自2024年4月25日上线以来,“全民舞王”的使用人数已经突破了10w+。多数用户的使用方式是


“这太适合I人做短视频了吧!”有参观者感叹。


“没有不想落地短视频的多模态应用!”


智谱:视频拍到哪,作业讲到哪


让家长纷纷驻足的展台中,一定有智谱。


2024年8月29日,智谱将“类GPT-4o”的视频通话功能,搬上了自己的C端应用“智谱清言”。


这款融合了视频理解、语音对话能力的功能,就好比AI突然有了五感。用户可以用智谱清言学穿搭、识别物品,也可以把它当成赛博闺蜜。


当然,更适合中国人“活到老学到老”体质的玩法,就是AI教师。


对着作业打开摄像头,手机镜头拍到哪,智谱清言就能解答到哪。并且,智谱清言的讲解,质量甚至和真人教师有的一拼,不仅循循善诱,还有问答互动。


比如讲解“鸡兔同笼”,智谱清言不会直接给出答案,而是先引导孩子列出二元一次方程组。


智谱清言视频通话功能。


孩子再也不怕难题,家长也解放了双手。


生数Vidu:给我一张剧照,我还你一段新海诚


同样是“清华系”出身的生数科技,展出了自研的视频生成模型Vidu。2024年4月发布时,Vidu因为性能优秀,还一度出圈,被称作“中国版Sora”。


但即便是OpenAI的Sora本尊,也很难解决视频的前后一致性问题。不难发现,大多AI视频中,每一帧的脸都不一样。


为了解决一致性难题,生数的解决办法是,给Vidu找个“模特”。


2024年9月11日生数科技发布的“主体参照”(Subject Consistency)功能,让Vidu根据给出的参考图,确定视频主体的形象和风格。


“主体参照”(Subject Consistency)功能。


现场,作者上传了一张新海诚电影《铃芽户缔》的女主角“铃芽”的剧照,Vidu就根据铃芽的形象,生成了一段秋日公园视频。


VAST Tripo:3D生成也有Scaling Law


“我们有全球最大的3D数据库。”


这是我们在展区唯一听到过的带有“最”字的判断。这句话,来自3D生成领域的明星企业VAST。


国内不少人可能会觉得VAST面生,原因在于,这家由前MiniMax和商汤成员创立的公司,第一天就做了出海的生意。


据工作人员介绍,VAST在海外主打面向游戏、XR开发者的C端应用,在国内则主打B端应用,“并且我们在海外商业化不错”。


不少圈内人对VAST的3D生成模型Tripo的评价是:高性能,操作友好。根据输入的文字或者图片,Tripo仅8秒就能生成3D原型图,并且支持市面上所有的3D原型编辑软件,还能直接3D打印。


Tripo现场3D打印。


Tripo文字生成3D素材。


当下,3D生成模型的训练,也沿用堆参数的暴力美学Scaling Law。2024年初,VAST发布的Tripo 1.0,参数就达到了数十亿,在训练数据稀缺的3D模型中是相当庞大的存在。


提高参数,相应的也要增加模型的训练数据。


工作人员透露,在获取稀缺的高质量3D数据过程中,团队花了不少时间在“犄角旮旯”中获取数据。而在训练过程中,模型也用了不少AI合成3D数据。


就在2024年9月19日,VAST还发布了生成质量更好的Tripo 2.0,实现10秒⽣成形状⼏何、10秒⽣成纹理及PBR(一种模拟光与材质相互作用的渲染技术)。


音疯:AI玩音乐照样疯


2024年7月,网红秦新宇因整容失败发布的名为《还我妈生鼻》的魔性歌曲,突然冲上了微博热搜。


而这首歌的谱曲者,不是秦新宇,也不是专业音乐团队,而是一个上线不到两月的AI音乐生成平台“音疯”。


音疯AI音乐体验区。


音疯展台。


这款由昆仑万维推出的音乐制作平台,特点在:长。工作人员表示,音乐生成的难点在于保持前后一致性,一旦歌曲超过1分钟,前后的曲风很难保持一致。


因此,音疯的卖点在于,将AI音乐生成的时长拉到了4分钟,并且能够相对保持前后风格的一致性。用户只需要输入歌词,并且在曲库和人声库中选择喜欢的风格,就能生成一段歌曲。


当然,工作人员告诉作者,目前音疯使用最高频的场景,也是短视频:)。


HiDream.ai:为电商量身定制的AI生图


HiDream.ai(智象未来)的展台,驻足了一批批的义务商家。


这家由前京东探索研究院副院长梅涛成立的AIGC公司,基因里就带着“电商”两个字。虽然同样是图片生成,HiDream.ai的AIGC创作平台“秩象”,就像集布景、拍摄、后期于一身的商品图工作室。


HiDream.ai的AIGC创作平台“秩象”。


比如,商家只要输入商品图,就能灵活切换背景、模特。在为服装生成模特图的过程中,商家甚至能够选择模特姿势、性别、肤色、人种。


月之暗面:视频功能,Kimi怀胎中


人工智能+馆人气最旺的展馆,有Kimi的一席之地。


在一众把图片、音频、视频、3D等模态玩出花的模型中,仍然主打文本、表格和代码任务的Kimi就稍显朴素。


当然,这并不影响Kimi展台的人气——或者准确来说,是“班味”。


现场不乏有上班族,直接向工作人员询问文字转excel、文件生成报表、文书撰写的方法。甚至还有企业IT,直接来咨询Kimi API如何接入钉钉、企微和飞书。


Kimi展台。


不过,这款打工神器,也免不了朝着更多模态迭代。工作人员对作者透露,Kimi的视频功能,已经在路上!


机器人炸场,虚拟人扎堆


银河通用:松弛感拉满的机器人售货员


擅长“抓”的银河通用机器人Galbot G1,这次走进了未来的无人商超。


消费者在平板上下单后,Galbot G1机器人就会前往货架,准确拿取下单的商品。


Galbot G1。


不过,这位机器人售货员的取货速度,有些太慢了——从下单到接到冰红茶,差不多用了1分钟。想要进商超,机器人还是得先戒掉这绝佳松弛感。


当然,无人售货只是银河通用展示的其中一个场景。目前,Galbot G1已经能够精准抓取矿泉水、雨伞等随机放置的物品,还能够熟练开柜门、抽屉和晾衣服。


工作人员表示,2024年Q4,就有希望看到机器人进入真实的商业场景。


清宝:仿真机器人,上流水线搬砖


和披着人皮的机器厂友做同事,马上就要成为现实了。


在清宝机器人的展台,几名不断变换pose的仿真机器人构成了门面——然而,由于眼珠转动过于灵活,但表情麻木,这几名机器人还是产生了一些恐怖谷效应。


清宝机器人。


而这几名仿真机器人的作用,既不是陪伴,也不是做智能导游、机器人主播之类的“文职”,而是直接进工厂!


目前,由于流水线SOP(标准操作流程)比较固定单一,且整机机器人成本较高,投入真实流水线使用的机器人,大多是单一的机械臂。


据工作人员介绍,目前签单的整机人形机器人,在流水线上主要做的是质检和零件分配,客户给出的理由也很别致:“想让产线有点温度”。


当然,对于客户而言,机器人带来的温暖,还得在降本增效上。工作人员对作者表示,机器人一年可以节省20%左右的人工成本。


酷开:云电视,抓住AI稻草


“这几年电视行业太难了!”云电视厂商酷开的员工,上来就倒了满满的苦水。随着电视机大盘被移动智能产品挤压,云电视厂商的日子也不好过。


不过,2024年以来,酷开算是守得云开见月明——AI是他们抓住的稻草。


酷开在云电视上线的AI OS,支持语音搜索电视剧、电影,以及网络咨询,还能向Chatbot等智能助手一样,给用户推荐片单。


比如用语音输入“陈道明演皇帝的电视剧是什么?”酷开立刻显示了搜索结果:《庆余年1、2》《楚汉传奇》《康熙王朝》。


酷云云电视 AIOS。


值得一提的是,搜索结果显示的演员照片、电视剧剧照,全都是由AI在后台生成的。酷开工作人员告诉作者,这是为了能够精准贴合用户的搜索需求,“比如你的偶像是鹿晗,你想看他的剧,肯定也想看到搜索结果全都是他的照片。”


不仅如此,酷开也能根据用户的个人喜好,用AI生成片单推荐视频。


上线AI OS一个月,酷开就吃到了AI带来的甜头。工作人员表示,内嵌大模型能力后,使用语音交互功能的用户数量和时长有了明显的提升;与此同时,技术成本的增加还能控制在10%以内。


阿里云视频团队:一键给《甄嬛传》配英文字幕


一部成熟的电视剧,就应该学会自己给自己配多语言字幕。


这个美好的愿景,已经被阿里云视频团队实现了。


阿里云视频团队的视频字幕翻译功能。


以往给电视剧配外语字幕,是个大工程。你需要先把台词转录成中文字幕,再翻译成外语。与此同时,配字幕还免不了用剪辑工具。


如今,基于通义实验室自研的算法,用户已经可以实现“端到端”翻译甄嬛传:不需要给字幕,直接扔视频文件,就能自动配英文字幕。


猎聘“多面·doris”:未来,AI给你发offer


第一批数字人面试官,已经上岗了。


猎聘旗下的AI产品“多面·doris”,就是一位在24小时内,面试400多人的AI面试官。


目前,猎聘AI面试有设定问题、智能问答等多种模式。比如在智能问答环节,AI首先会基于简历,分析出应聘者的潜在风险点,比如“频繁跳槽”“任职时间不长”,后续的面试,也大概率会围绕这些问题展开。


猎聘AI面试产品“多面·doris”。


不过,不少面试者反馈,由于缺乏即时交互,以及难以从AI面试官的扑克脸中获得反馈,和AI面试反而更紧张了。


最后,工作人员贴心提醒,数字人面试官比较适合一面、二面等人才的初筛环节。如果企业想要聘请高端人才,还是由人出马更显诚意!


Motiff 妙多:设计师救星,一句话也能生成UI了


目前国内最懂UI设计的大模型,源自一个叫做Motiff 妙多AI的团队。


至少需要一周的UI设计,现在被简化成了输入一段话。


用户只需文字输入所需的界面类型、组成部分,以及定制化的描述,20秒左右,就能生成两版UI设计稿。


Motiff AI生成UI。


与此同时,基于自研的UI大模型对布局的理解能力,原有Cmd+V、Cmd+C的重复动作,被Motiff简化成了一步到位的下拉动作。


狼人杀不尽,AI吹又生


除了机器人和数字人,前沿应用馆最容易找到的,应该就是AI狼人杀。


游戏公司巨人网络,就将AI狼人杀,作为投放在抖音、B站上的季节性用户活动。


这些AI NPC的“攻击性”还挺高,玩家发言一旦有逻辑漏洞,就会被“群起而攻之”。


巨人网络AI狼人杀。


这些24小时无休、永远在线的AI NPC,将巨人季节性活动的用户时长,增加了10倍多。


在2018年上线的剧本杀App“百变大侦探”,近一个月也基于通义千问上线了AI剧本杀。


更进一步,玩家可以直接用语音和AI NPC进行对话。不过,对话的轮次有限制,想要增加对话次数,玩家只能氪金——这也是目前不少AI剧本杀的主要商业模式。


“百变大侦探”AI剧本杀。


当然,在游戏前加了“AI”两字,并非全是好事。


工作人员告诉作者,接入大模型后,技术成本就提升了不少。与此同时,团队选择剧本也更为谨慎:太复杂的本,AI不理解;太简单的本,用户不愿玩。


只能说,AI在进步,人也得跟着进步。


文章来自于“周鑫雨”,作者“周鑫雨”。


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
AIExcel公式

【开源免费】smart-excel-ai是一个输入你想要的Excel公式的描述,即可帮你生成对应公式的AI项目

项目地址:https://github.com/weijunext/smart-excel-ai

在线使用:https://www.smartexcel.cc/(付费)

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales