从2018年第一届开始,世界人工智能大会就已成为全国乃至全球的AI风向标,比起高深的算法对垒、高端的大佬对话,“镇馆之宝”是离普罗大众最近的应用,是中外AI最高智慧的横截面。7月4日开幕第一天,WAIC2024八大“镇馆之宝”揭晓:阿里云通义灵码、联想YOGA Book 9i AI元启、基于蚂蚁百灵大模型的“支付宝智能助理”、商汤科技Vimi可控人物视频生成大模型、特斯拉赛博越野旅行车、智谱AI基座大模型、智能飞行器展示区,以及一个神秘惊喜宝藏——“十八金刚”人形机器人先锋阵列。
《IT时报》记者在揭开“镇馆之宝”神秘面纱时发现,可以用一句话来形容今年大模型的应用新风向:AI助理包围WAIC。
写代码写到一半想“摸鱼”?辛苦写了几百行代码,却无法执行,哪里错了?或者虽然有个好想法,但不会编程无法实现?不妨都来问问通义灵码。
阿里云入选WAIC“镇馆之宝”的事AI编程助手通义灵码。《IT时报》记者在展台了解到,通义灵码精通200多种编程语言,可以辅助写代码、读代码、查Bug、优化代码,其下载量超350万,每日辅助开发者生成代码超3000万次,已广泛应用于金融、制造、互联网、交通、汽车、能源等行业。
据了解,阿里云已经在内部推行全员AI编码。4月2日,1号AI员工“通义灵码”已经上线,其“简历”显示,这是一个出生于0101世界、无性别的硅基生命,人格属于INTJ,职位是AI智能编码助手。
传统开发模式下,程序员每天需要耗费大量精力做编写重复性代码、调试优化、编写代码注释等基础工作,大幅挤压了核心业务代码编写的时间。目前,通义灵码已在各个开发环节担任代码助理角色,辅助程序员写代码、读代码、查 BUG、优化代码等,辅助研发提效10%,AI代码生成占比超过30%。
中华财险也已经全面采用了通义灵码,从目前测试结果来看,单测生成一次通过率达85%,研发问答准确率超90%,AI代码生成占比已经在整体开发中超过25%。
程序员们有没有感到一丝凉意?
AI跑腿买咖啡 首创AI“逛展搭子”
什么样的AI大模型才有用?能帮我挂号、订票、充话费,一句话总结就是“不仅有脑有嘴能对话,还要有手有脚能办事”。
走进WAIC蚂蚁展台,一台拥有机械手臂的“AI咖啡机器人”忙得不可开交,输入语音指令“帮我点一杯星巴克大杯冰美式”,AI就能快速下单,指挥机器人端上一杯咖啡。
现在支付宝App已经开启测试,首批支持星巴克、瑞幸、霸王茶姬、蜜雪冰城等11个茶饮品牌的支付宝小程序,用户已经可以开始尝试,付款后就能到附近线下门店取咖啡奶茶。
今年4月开始,支付宝智能助理开始灰度测试,打开支付宝首页下拉就能唤醒智能助理,就是一位精通超8000项数字生活服务的AI个人助理,它也是专业AI智能体的入口,一键连接生活、金融、医疗等垂直行业的AI智能体。
此次WAIC,支付宝联合官方推出“WAIC大会智能助手”,首次将AI融入真实的展会线下服务。到达会场后,在支付宝首页下拉,基于LBS唤起这位“AI逛展搭子”,除了查询大会亮点、场馆导览、论坛议程等,还能预定酒店、呼叫网约车、搜寻附近餐馆和共享充电宝、定制上海游玩攻略等。
在一夜从“梅”入夏的上海,37℃高温天,不仅能让AI跑腿买一杯清凉解乏的咖啡,还有一位“AI逛展搭子”帮忙搞定一切,岂不羡煞人也?
一波接一波的参观者,商汤展台一位工作人员忙得汗流浃背,他负责介绍的展品正是登上“镇馆之宝”的Vimi,它是首个可控人物视频生成大模型,而且是真C端可用。
使用过市面上让照片动起来的AI视频应用后,你会发现,几乎所有AI大模型做不到人物的一致性,动作、表情无法精准控制,人物长相、背景效果变幻莫测,而且有的限制时长在3~4秒,完全没办法满足AI视频创作者的需求。
目前该产品已经对C端开放,在商汤科技官网上预约开通后,用户只需上传一张任意风格的照片,就能生成和目标动作一致的人物类视频,比如写真视频、数字分身、表情包等,头发、服饰、背景变化、光影变化等都能自动生成,而且手势、头发和肢体十分合理、自然、和谐,不会显得呆板和失真。
聊天、唱歌、舞动等娱乐互动场景任意挑选,唯美写真风、奇幻风等多种风格随意切换,写真影楼们是不是胆战心惊了?它的应用场景和市场空间远不止于此。
要知道,Vimi“稳定输出”的时长是1分钟,这和sora基本对齐了。
Cybertruck赛博皮卡、Optimus人形机器人,是特斯拉展台的两大明星。
比卡车更实用,比跑车更快,近5吨的牵引力,可以拉动一头非洲象,百公里加速仅需2.7秒,超越了保时捷911,它就是世界上第一款纯电动皮卡Cybertruck。
虽然能看到明显的指纹留痕,但并不影响它防弹车身和变形金刚般的造型带来的震撼感。采用航天级超硬30X冷轧不锈钢,子弹也打不穿,强度最高达1700MPa,而当前潜艇专用钢材的强度也仅为1100MPa。
特斯拉不造慢车,百公里加速仅需2.7秒,搭载了线控转向技术和后轮转向技术,使得转向和掉头变得轻松,使得超过5.6米的赛博越野旅行车转弯半径和Model S一样。
而这辆赛博皮卡跟AI有何关系?它支持完全自动驾驶能力,配备HW4.0最新自动辅助驾驶硬件,支持OTA升级,几乎每月都会推出新功能,更新范围涉及安全、智能和娱乐,内容丰富、功能更强,如车道级导航、“全息座驾”、泊车精灵、后备箱自动开启、独特锁车声音等。
特斯拉CEO马斯克提到,赛博越野旅行车已实现单周生产1300台的产量纪录,目标是年底达到2500台/周。
此外,特斯拉工作人员透露,预计于明年开始限量生产人形机器人,届时将有超1000个Optimus人形机器人在特斯拉工厂帮人类完成生产任务。而特斯拉的远期目标是将人形机器人的价格打下来,从数十万美元降至一两万美元。
流水线工人们是否感到又一波职业焦虑来临?
在联想集团展台,《IT时报》记者见到了有意思的一个场景:用户的双手分别触摸YOGA Book 9i AI元启下方屏幕的两侧,数秒后便会弹出一个虚拟键盘。
这是一款全尺寸双屏笔记本电脑,搭载英特尔Ultra处理器,标配32GB大内存,瀑布屏玩法升级,横屏模式亦可开启,实现了全新双屏的跨屏体验。同时,该设备搭载了联想天禧智能体系统,开启AI办公新体验,可实现跨设备文件传输等AI功能。
联想AI PC具有五个特征:第一,内嵌于个人大模型和用户自然交互的智能体;第二,形成个人知识库;第三,具有本地异构AI算力;第四,具有开放的人工智能应用生态;第五,具有更强的个人数据和隐私安全保护。“较之于上一代产品,该产品的亮点在于服务器的升级,目前用户可在市面上买到。”工作人员表示。
你是否感觉到,PC和手机都被AI紧紧包围?
在智谱AI展区,智谱大模型开放平台 bigmodel.cn 的最新成果随处可见,用户可以在现场体验智谱 GLM 系列大模型的产品矩阵。据现场工作人员介绍,bigmodel.cn 上部署着智谱大模型全家桶,不仅包括具备视觉和智能体能力的GLM-4/4V,推理极速且高性价比的GLM-4-Air,还有基于文本描述创作图像的CogView-3、超拟人角色定制模型CharacterGLM、擅长中文的向量模型Embedding-2 、代码模型 CodeGeeX以及最新开源的 GLM-4-9B等。
不管是完全没有代码基础的普通用户,还是大模型技术极客、专业工程师,又或是寻求专业大模型技术服务的企业,都可以找到适合自己的产品。
除了这一镇馆之宝,智谱展台还展示了一款“神秘品”——“智谱小镇”,首次亮相的它,集合了bigmodel.cn赋能公共事务、消费、文旅、医疗、保险、教育、汽车、金融、工业等多个行业场景的案例。基于智谱基座大模型,新一代智能驾驶、智能投顾助手、财报Copilot、公积金咨询助手、智能问诊、旅行智能体等智能服务百花齐放。
一座AI小镇的雏形不就诞生了?
本文来自微信公众号“IT时报”(ID:vittimes),作者:孙妍 郝俊慧 孙永会
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】ai-town是MIT授权的一个AI虚拟小镇,该项目可以让研发人员轻松构建和定制你自己的AI小镇版本,其中居住在小镇的AI角色可以进行交流和社交。该项目受到研究论文《生成代理:人类行为的交互模拟》的启发。
项目地址:https://github.com/a16z-infra/ai-town
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI