ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
揭秘镇馆之宝:AI助理“包围”2024世界人工智能大会
9100点击    2024-07-05 09:58

从2018年第一届开始,世界人工智能大会就已成为全国乃至全球的AI风向标,比起高深的算法对垒、高端的大佬对话,“镇馆之宝”是离普罗大众最近的应用,是中外AI最高智慧的横截面。7月4日开幕第一天,WAIC2024八大“镇馆之宝”揭晓:阿里云通义灵码、联想YOGA Book 9i AI元启、基于蚂蚁百灵大模型的“支付宝智能助理”、商汤科技Vimi可控人物视频生成大模型、特斯拉赛博越野旅行车、智谱AI基座大模型、智能飞行器展示区,以及一个神秘惊喜宝藏——“十八金刚”人形机器人先锋阵列。


《IT时报》记者在揭开“镇馆之宝”神秘面纱时发现,可以用一句话来形容今年大模型的应用新风向:AI助理包围WAIC。


阿里云通义灵码:精通200多种语言的“程序员”


写代码写到一半想“摸鱼”?辛苦写了几百行代码,却无法执行,哪里错了?或者虽然有个好想法,但不会编程无法实现?不妨都来问问通义灵码。


阿里云入选WAIC“镇馆之宝”的事AI编程助手通义灵码。《IT时报》记者在展台了解到,通义灵码精通200多种编程语言,可以辅助写代码、读代码、查Bug、优化代码,其下载量超350万,每日辅助开发者生成代码超3000万次,已广泛应用于金融、制造、互联网、交通、汽车、能源等行业。



据了解,阿里云已经在内部推行全员AI编码。4月2日,1号AI员工“通义灵码”已经上线,其“简历”显示,这是一个出生于0101世界、无性别的硅基生命,人格属于INTJ,职位是AI智能编码助手。


传统开发模式下,程序员每天需要耗费大量精力做编写重复性代码、调试优化、编写代码注释等基础工作,大幅挤压了核心业务代码编写的时间。目前,通义灵码已在各个开发环节担任代码助理角色,辅助程序员写代码、读代码、查 BUG、优化代码等,辅助研发提效10%,AI代码生成占比超过30%。


中华财险也已经全面采用了通义灵码,从目前测试结果来看,单测生成一次通过率达85%,研发问答准确率超90%,AI代码生成占比已经在整体开发中超过25%。


程序员们有没有感到一丝凉意?


支付宝智能助理:AI跑腿买咖啡,首创AI“逛展搭子”


AI跑腿买咖啡 首创AI“逛展搭子”


什么样的AI大模型才有用?能帮我挂号、订票、充话费,一句话总结就是“不仅有脑有嘴能对话,还要有手有脚能办事”。


走进WAIC蚂蚁展台,一台拥有机械手臂的“AI咖啡机器人”忙得不可开交,输入语音指令“帮我点一杯星巴克大杯冰美式”,AI就能快速下单,指挥机器人端上一杯咖啡。



现在支付宝App已经开启测试,首批支持星巴克、瑞幸、霸王茶姬、蜜雪冰城等11个茶饮品牌的支付宝小程序,用户已经可以开始尝试,付款后就能到附近线下门店取咖啡奶茶。


今年4月开始,支付宝智能助理开始灰度测试,打开支付宝首页下拉就能唤醒智能助理,就是一位精通超8000项数字生活服务的AI个人助理,它也是专业AI智能体的入口,一键连接生活、金融、医疗等垂直行业的AI智能体。


此次WAIC,支付宝联合官方推出“WAIC大会智能助手”,首次将AI融入真实的展会线下服务。到达会场后,在支付宝首页下拉,基于LBS唤起这位“AI逛展搭子”,除了查询大会亮点、场馆导览、论坛议程等,还能预定酒店、呼叫网约车、搜寻附近餐馆和共享充电宝、定制上海游玩攻略等。


在一夜从“梅”入夏的上海,37℃高温天,不仅能让AI跑腿买一杯清凉解乏的咖啡,还有一位“AI逛展搭子”帮忙搞定一切,岂不羡煞人也?



商汤Vimi可控人物视频生成大模型:一张照片生成1分钟人物视频


一波接一波的参观者,商汤展台一位工作人员忙得汗流浃背,他负责介绍的展品正是登上“镇馆之宝”的Vimi,它是首个可控人物视频生成大模型,而且是真C端可用。


使用过市面上让照片动起来的AI视频应用后,你会发现,几乎所有AI大模型做不到人物的一致性,动作、表情无法精准控制,人物长相、背景效果变幻莫测,而且有的限制时长在3~4秒,完全没办法满足AI视频创作者的需求。



目前该产品已经对C端开放,在商汤科技官网上预约开通后,用户只需上传一张任意风格的照片,就能生成和目标动作一致的人物类视频,比如写真视频、数字分身、表情包等,头发、服饰、背景变化、光影变化等都能自动生成,而且手势、头发和肢体十分合理、自然、和谐,不会显得呆板和失真。



聊天、唱歌、舞动等娱乐互动场景任意挑选,唯美写真风、奇幻风等多种风格随意切换,写真影楼们是不是胆战心惊了?它的应用场景和市场空间远不止于此。


要知道,Vimi“稳定输出”的时长是1分钟,这和sora基本对齐了。


特斯拉赛博越野旅行车:拖大象、快过保时捷911


Cybertruck赛博皮卡、Optimus人形机器人,是特斯拉展台的两大明星。


比卡车更实用,比跑车更快,近5吨的牵引力,可以拉动一头非洲象,百公里加速仅需2.7秒,超越了保时捷911,它就是世界上第一款纯电动皮卡Cybertruck。

虽然能看到明显的指纹留痕,但并不影响它防弹车身和变形金刚般的造型带来的震撼感。采用航天级超硬30X冷轧不锈钢,子弹也打不穿,强度最高达1700MPa,而当前潜艇专用钢材的强度也仅为1100MPa。



特斯拉不造慢车,百公里加速仅需2.7秒,搭载了线控转向技术和后轮转向技术,使得转向和掉头变得轻松,使得超过5.6米的赛博越野旅行车转弯半径和Model S一样。


而这辆赛博皮卡跟AI有何关系?它支持完全自动驾驶能力,配备HW4.0最新自动辅助驾驶硬件,支持OTA升级,几乎每月都会推出新功能,更新范围涉及安全、智能和娱乐,内容丰富、功能更强,如车道级导航、“全息座驾”、泊车精灵、后备箱自动开启、独特锁车声音等。


特斯拉CEO马斯克提到,赛博越野旅行车已实现单周生产1300台的产量纪录,目标是年底达到2500台/周。


此外,特斯拉工作人员透露,预计于明年开始限量生产人形机器人,届时将有超1000个Optimus人形机器人在特斯拉工厂帮人类完成生产任务。而特斯拉的远期目标是将人形机器人的价格打下来,从数十万美元降至一两万美元。


流水线工人们是否感到又一波职业焦虑来临?



联想YOGA Book 9i AI元启:定义AI PC的五大特征


在联想集团展台,《IT时报》记者见到了有意思的一个场景:用户的双手分别触摸YOGA Book 9i AI元启下方屏幕的两侧,数秒后便会弹出一个虚拟键盘。



这是一款全尺寸双屏笔记本电脑,搭载英特尔Ultra处理器,标配32GB大内存,瀑布屏玩法升级,横屏模式亦可开启,实现了全新双屏的跨屏体验。同时,该设备搭载了联想天禧智能体系统,开启AI办公新体验,可实现跨设备文件传输等AI功能。


联想AI PC具有五个特征:第一,内嵌于个人大模型和用户自然交互的智能体;第二,形成个人知识库;第三,具有本地异构AI算力;第四,具有开放的人工智能应用生态;第五,具有更强的个人数据和隐私安全保护。“较之于上一代产品,该产品的亮点在于服务器的升级,目前用户可在市面上买到。”工作人员表示。


你是否感觉到,PC和手机都被AI紧紧包围?


智谱AI基座大模型:大模型全家桶


在智谱AI展区,智谱大模型开放平台 bigmodel.cn 的最新成果随处可见,用户可以在现场体验智谱 GLM 系列大模型的产品矩阵。据现场工作人员介绍,bigmodel.cn 上部署着智谱大模型全家桶,不仅包括具备视觉和智能体能力的GLM-4/4V,推理极速且高性价比的GLM-4-Air,还有基于文本描述创作图像的CogView-3、超拟人角色定制模型CharacterGLM、擅长中文的向量模型Embedding-2 、代码模型 CodeGeeX以及最新开源的 GLM-4-9B等。


不管是完全没有代码基础的普通用户,还是大模型技术极客、专业工程师,又或是寻求专业大模型技术服务的企业,都可以找到适合自己的产品。


除了这一镇馆之宝,智谱展台还展示了一款“神秘品”——“智谱小镇”,首次亮相的它,集合了bigmodel.cn赋能公共事务、消费、文旅、医疗、保险、教育、汽车、金融、工业等多个行业场景的案例。基于智谱基座大模型,新一代智能驾驶、智能投顾助手、财报Copilot、公积金咨询助手、智能问诊、旅行智能体等智能服务百花齐放。



一座AI小镇的雏形不就诞生了?


本文来自微信公众号“IT时报”(ID:vittimes),作者:孙妍 郝俊慧 孙永会


关键词: AI , WAIC , AI峰会 , AI助手
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI小镇

【开源免费】ai-town是MIT授权的一个AI虚拟小镇,该项目可以让研发人员轻松构建和定制你自己的AI小镇版本,其中居住在小镇的AI角色可以进行交流和社交。该项目受到研究论文《生成代理:人类行为的交互模拟》的启发。

项目地址:https://github.com/a16z-infra/ai-town

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI