在生成式 AI 的汹涌浪潮里,“让技术奔跑得更快”似乎已成行业共识;而无障碍领域一直关心的是另一端——“让每个人都跟得上”。当这两股力量在今年的第七届科技无障碍发展大会(2025 TADC)相遇,一场以“AI+无障碍:探索、实践”为主题的圆桌会议吸引了全场目光。大会邀请到阿里巴巴通义实验室高级产品运营专家毕超、绘话智能CEO贾学锋、微软亚洲区员工事务总监王岭、百度技术中台市场副总经理吴昊、方圆宝信息科技总经理曾昆和主持人非凡产研创始人吴畏展开了圆桌对谈,几位产业实践者给出了一个共同指向: 只有当技术的锋利与包容兼得,AI 的未来才有真正的普惠价值。
AI的普惠,始于底层技术的开放。阿里巴巴通义实验室的毕超提到,无论是通义千问的文本能力,还是多模态的视觉、语音技术,其核心都是通过开放API和SDK,将能力赋予千行百业的合作伙伴。他强调:“我们希望把这些好的赛道留给我们的伙伴们,让他们去做,避免我们赛道太拥挤。”
百度技术中台市场副总经理吴昊分享了百度在无障碍产品开发方面的成果。百度通过对AI 技术(如飞桨深度学习平台、文心大模型)的研发,通过技术中台向集团内部及产业界赋能,助力无障碍产品与服务的场景化落地。
智能代码助手“文心快码”无障碍版,帮助视障开发者更高效地编写代码;“萝卜快跑”无人驾驶出租车通过语音和蓝牙技术为视障人士提供独立出行支持;AI手语数字人技术则为听障人士提供了更准确的沟通工具。
如果说大模型提供了土壤,那么真正开出花朵的,是那些深入场景、体察入微的产品。
绘话智能CEO贾学锋专注于“银发经济+养老科技”,他带领团队打造的桌面机器人,核心是“主动沟通”。他分享道:“你什么时候还能不打扰?我们通过摄像头和毫米波雷达,监测父母是否进入可沟通范围,再生成个性化话题。”在细节上,他们反复测试发现,机器人的语速设置在正常语速的85%,最适合老年人接收信息。他希望,AI的加持最终能“让每一个人都能够有尊严和更幸福的老去”。
同样聚焦于老年用户,方圆宝总经理曾昆则希望通过一个定制化的Pad,“为老人能定制一个通过AI慢慢生成他的专属的一个个人自传”。他认为,这不仅是帮助老人留存记忆,更是“一个家族的精神财富的一个传承”。作为应用开发者,他非常看重产业链的协同,并提出了“能力共享,成本公允”的愿景,希望通过共同努力,让好的产品能被大众接受和使用。
一个完善的无障碍生态,离不开体系化的构建和对责任的坚守。
微软亚洲区员工公益事务总监王岭分享了微软长达近30年的无障碍历程。她强调了“如果没有我们参与,就不要替我们做决定” (nothing about us, without us)的核心理念,指出无论是开发seeing AI应用的视障工程师,还是孤独症员工等,残障员工参与研究、产品开发等环节可以确保各类用户的需求可以被充分考虑。
更进一步,王岭提出了一个引人深思的问题:“有的时候不是技术能不能做,而是你的技术应不应该做。秉持负责任的人工智能原则与技术本身同等重要。”她提醒道,在开发手语识别等应用时,需要考虑到“南方手语和北方手语的差异性,甚至北京和天津的手语都有不同之处”,数据的多样性和全面性决定了AI解决方案的公平性和包容性,而隐私、安全和可负担性,更是从业者必须思考的伦理命题。
正如主持人非凡产研创始人吴畏所总结的,这场讨论的核心是“AI向善”与“AI普惠”。从服务于每个人的桌面机器人,到解决“最后一公里”问题的AR眼镜;从对脑机接口的畅想,到对技术伦理的冷静思考,我们看到,一个真正无障碍的未来,需要技术、产品、商业和人文精神的同频共振。
这场精彩的对话只是一个开始。下面,让我们一同沉浸到这场圆桌会议的完整讨论中,聆听来自行业最前沿的洞见与思考。
吴畏:尊敬的各位领导,各位嘉宾,各位朋友们,大家下午好。下午这个时间点我猜想可能最困的时候,所以我刚才在后面站了一会儿,生怕状态不好。希望大家也可以调整一下状态。我相信科技本身就是一个普惠的事情,AI也随着每一波技术浪潮,从最早的判别式AI,到深度学习AI,再到今年我们说的Agentic AI, 每一代AI技术,我感觉都可以为我们无障碍的事业起到一种科技普惠的作用。所以第一个环节,先请各位嘉宾简短地介绍一下自己,另外可以讲讲自己跟这个AI无障碍之间的关系。我们先从毕总开始。
毕超:好的,非常感谢信息无障碍这次的邀请,也感谢吴总的开场。刚才吴总也讲到,今年的AI发展迅速,不管是从模态上还是从形态上都是如此。我是来自于阿里通义实验室的产品运营负责人,主要负责整个通义千问、通义万相等底层模型的产品运营工作。我们通义大模型跟无障碍的结合,有非常多的场景。大家也知道,我们在今年发布了混合推理的模型,以及深度思考和非深度思考的混合模式,这些都是基于文本模型衍生出来的文本生成和理解能力。
除了文本之外,今年我们在语音方向也做了非常大的突破,从ASR、TTS延伸到了Audio以及多模态互动方向。在视觉形态上,我们也上线了像通义万相多模态融合这样的一些混合调用模型。所以说,今年我们在整个通义千问,包括万象生成类模型上的进展非常迅速。
在跟无障碍的结合中,我们中午看宣传片时,里面讲到了”追星星的AI”,这其实就是我们基于视觉模型,通过绘本生成来辅助孤独症儿童的应用。另外在文本方向,我们也做了像心理陪伴、适老化科技等产品。在硬件方向,我们目前正在做一些尝试和结合。因为我们上线了多模态模型,它可以基于文本、语音和视觉的理解与生成,再跟端到端的终端做一个云边端结合的模型落地。这样未来我们就会结合非常多的硬件,不管是眼镜、轮椅,还是耳机和穿戴设备,包括在助残的科技硬件产品中,都会植入我们声控、语音控制的能力。所以接下来,我们也希望能和吴总、信息无障碍以及各个产业的合作伙伴有更深度的结合。
吴畏:我相信这个简短的介绍对您来说是不够的,阿里做的这些跟无障碍相关的科技普惠的事情相信还有很多。我根据我的理解稍微补充一点,今年大家都知道DeepSeek很火,推动了很多人对AI的理解和认知。但其实在整个开源生态里面,一个是DeepSeek的开源模型,另一个就是阿里通义的开源模型,在全球开发者中的关注度和好评是最高的,包括千问、万象,都有非常多的开发者在使用。
毕超:对,我再补充一下。关于开源这个事情,刚才有点遗漏。我们知道Llama是全球最大的开源厂商,但其实我们去年基于千问的开源模型衍生数量已经超过了Llama,我们是全球衍生数量最多的。所以欢迎大家来我们的魔搭(ModelScope)开源平台进行调用。
吴畏:因为开源本身就是一个普惠的事情,这是一个很大的贡献。来,贾总,介绍一下自己以及跟AI无障碍的关系。
贾学锋:各位朋友下午好,我是上海绘话智能科技有限公司的创始人贾学锋。我自己搞人工智能时间蛮长了,从2003年开始到现在二十多年了,也经历了人工智能这个热词的三个不同阶段:刚开始叫机器学习(MachineLearning), 到2012年左右我们提出了深度学习,现在则进入了大模型时代。我这么多年来,一直都是围绕着人工智能,从算法研究开始,后面进入到产品设计和方案落地。
我的公司叫”绘话智能”,之所以叫这个名字,是因为我坚信总有一天,人和机器人、和AI的沟通一定能够通过自然语言的形式来进行。我们公司专注在”银发经济+养老科技”领域,打造了一款比较创新的、面向老年人的桌面机器人。这款机器人在前几天(6月11号)的老博会上刚刚发布,我们希望它能够帮助子女更好地去照顾父母。在打造这款智能陪伴机器人的过程中,我们发现做的每一个功能都跟AI无障碍密切相关。
这个机器人有三个核心特征:第一是”主动沟通”。你让父母对着一个音箱类的产品主动找话题聊天,其实是蛮难的。所以我们打造了主动沟通能力,希望能够克服交流的障碍。第二是提供个性化的互动,包括内容上和情绪上的互动。第三是为父母提供生活上的便捷。因为受限于身体状况,有些生活服务,比如找人看病、约人上门洗澡等,如果让父母直接用传统的APP, 使用上是有障碍的。所以在整个过程中,我们对交互界面做了全新的设计。
吴畏:我感受到贾总对自己产品的热爱,很有热情。您刚才提到交互界面,其实AI本身一方面是生产力革命,另一方面就是交互革命。我们跟计算机交互,最开始通过命令行,后来是视窗界面,但这些都需要学习。而现在有了大语言模型,未来的交互方式可能会改变,这本身是不是也是对于无障碍的一种体现?
贾学锋:对,如何更好地学会使用,本身也是一种障碍。我再补充一点,我们自己感受比较深刻的是,适老化是不是把字放大一点、功能说明说清楚一点就够了?其实我们感觉仅仅有这个还是不够的,后面我可以再做详细分享。
王岭:谢谢组委会和主持人的邀请。我在微软公益部门,现在负责亚洲区员工的公益事务,一方面对接我们员工的科技技能和公司资源,另一方面收集公益组织的需求,然后将两方面撮合在一起,产生一些科技赋能的项目,不光是无障碍,也包括其他方面。
我本身和无障碍结缘很多年了。2005年,微软在中国成立员工志愿者项目,我们是第一家和“红丹丹”(专注于视障伙伴服务的公益组织)合作的企业。我们从单纯地去给红丹丹修电脑、为视障朋友讲电影,一路发展到把我们的云和AI技术与视障群体的需求相结合。比如,我们通过语音合成技术,收集名人的声音,为视障朋友制作高质量的有声书,并且还和红丹丹做了中国第一个民间的“云+端”解决方案——在线语音图书馆。
2013年,微软也作为发起方之一,成立了信息无障碍产品联盟。今年是微软成立50周年,整体来说我们的无障碍历程有30年历史,从员工研发到产品应用,都有一套非常完整的体系和方法论。我们有一个非常强大的无障碍团队,员工中就有各种残障人士的代表。在微软,我们把无障碍分为六大类:视觉、听觉、神经多元性(Neurodiversity)、行动障碍、学习障碍以及精神障碍。每一类我们都有自己的员工代表,因为我们有一个很强的理念:“如果没有我们参与,就不要替我们做决定(Nothing about us without us)。
这个理念微软一直在坚持。比如十多年前,我们就开发出了SeeingAI这个App, 就是由我们在英国的一位视障工程师参与开发的。现在我们在澳大利亚也在招募孤独症员工。无障碍已经融入我们全线产品,M365任何一个产品里你都可以找到无障碍组件, 包括我们现在的Copilot智能副驾,我们专门有Copilot for Accessibility。此外,微软关注的是整个生态体系,我们不单纯关注自己,而是要带动整个生态,后面有时间我可以再展开讨论。
曾昆:感谢主办方的邀请,谢谢主持人。我是来自于深圳方圆宝的曾昆,我是公司创始人。我接触无障碍的时间相对比较短,刚好我们这两年有一个产品,是面向老人用户的一个Pad。我们考虑这个事的出发点,是发现老人在使用电视遥控器选择内容时存在很多不便。即便是现在的语音遥控器,内容提供也是一种定向的,而不是根据他自己的需求去选择。而对于手机来说,对老人的视力还是有点勉为其难。
从我父母的亲身体会上,我挺想打造一个有温度的产品,这是产品的初衷。刚好现在AI的能力也能为我们开发这些产品提供更多赋能。所以顺便感谢一下阿里和百度,我也是他们的客户,他们刚刚介绍的部分能力我其实也在使用,我属于应用上层。但是对于客户来说,他是需要有一个硬件,把软件能力集成在一块才有更好的体验。
我们自己在创业之前,在中国电信工作了14年。运营商有巨大的客户和网络,他希望这个网络能给客户的应用层面带来更多体验和价值,但相对来说,也缺乏更好的产品。所以我从运营商离职出来,去扮演一个产品经理的角色,去做软硬件的定制。所以也挺感谢有这样一个平台,能有更多学习和分享的机会。
吴畏:贾总,我觉得你可以再进一步地解读一下您的那个产品,多说一说。这个过程中有没有什么比较难啃的骨头,或者怎么去平衡商业跟技术之间的矛盾?
贾学锋:好的。我们这个机器人,现在是从一个桌面式机器人入手的,可以放在客厅或者卧室。它主要有两个部件,一个带屏幕,另一部分则有一定的形象,可以在沟通中通过情绪姿态,把一些情绪价值传递出去。
在打造过程中,感受最深的有两点。第一点是在产品的功能形态怎么来定义。面向老年群体,我们倡导的是”语音优先”,也就是说他不用动手,百分之百的任务都可以通过语音互动来完成。但在语音优先的时候,并不是不需要界面辅助,而是说在沟通过程中,界面到底以什么样的形式出现,来帮助他更好地完成任务。
举个例子,我们主打的核心功能叫”主动沟通”,这个做起来就比较难。什么时候主动沟通才不会打扰?所以我们在硬件上也做了一些设计,比如屏幕上有个摄像头,还有一个毫米波雷达,我们可以监测到爸爸妈妈是不是进入了机器的可沟通范围。在进入这个环境后,机器人可能就会生成一些个性化的话题。
在交互细节上,我们经过反复测试发现,机器人的响应速度要快,但在真正的沟通过程中,语速应该设置到正常语速的85%。这样,60岁以上的用户可能能够更好地接收信息。
第二个技术上的壁垒,我们感受很深的是,现在的大模型还是属于”问答模式”。我问一个问题,他给我答案。但我们真正需要的陪伴场景是”聊天”。举个简单的例子,你问大模型”我今天脖子痛怎么办?“,它会告诉你答案,应该怎么治。但回到现实生活中,我们的聊天是这样的:你告诉我脖子痛,我会问”怎么回事?你做什么了?“,它其实是一个互动和引导的过程,第一时间并不是给你答案。
另外,我们还实现了多模态的”察言观色”。因为有摄像头,我们想通过视觉模型捕捉聊天对象的情感。如果他看起来不开心,机器人就会问:“今天发生什么事了?看起来你不是很开心。99
吴畏:我追问一个问题,因为这群人是面向老年人的,那么可能也会涉及到他的子女。这个过程中怎么去平衡使用者和购买者之间的关系?谁来买单?
贾学锋:买单的肯定还是子女。我们发现很多子女也会给爸妈买手机、Pad。另外,我们其实也有一个”子女端”“App。这个子女端可以做两件事:第一,今天爸爸妈妈聊了哪些重要话题,我们会总结一下告诉子女。第二,子女可以在App上设置,请机器人多跟我的爸爸或妈妈聊哪些方面的话题。 这样我们在主动沟通的时候,就会围绕这些话题展开。
吴畏:曾总,我追问一下您的产品。您做的这个是应用层,一个软硬件结合的产品,可能相对依赖底层的AI模型能力。在这个过程中,你觉得有什么样的挑战和难点要去解决呢?
曾昆:传统的语音对话,相对还不能完全满足客户的需求。其实很多老人他有一个场景化的需求,是喜欢分享他当年的经历。我们其实希望为老人能定制一个通过AI慢慢生成他的专属”个人自传”。这是一个很有意思的事,你帮助这个老人形成他的记忆,也是一个家族精神财富的传承。
有时候我们比较忙,陪爸妈的时间过少。但有时候父母跟孙子孙女分享的时候,你会发现有些内容是你原来没有听过的,这是很有意义的一件事。我们希望把AI能力赋能到生活中的点点滴滴,让他们觉得很舒服、很温暖,对家里的子女也是一个很有价值的事情。
吴畏:好的,毕总,给您几分钟的时间推荐一下您的这个语音模型,开个玩笑。
毕超:最后的宝贵时间留给我了。其实我最后想说,不管是我们阿里云的基础设施建设,还是我们整个通义的MaaS(Model as a Service )核心能力,我们都提供的是底层的API和SDK服务。我们自己不太去做上层应用或者硬件,希望把这些好的赛道留给我们的伙伴们去做,避免赛道太拥挤。
第二,刚才提到的案例,比如老年数字人这个方向,其实可以用我们的”心尘”模型。通过Prompt把人物的角色、历史背景全部灌进去以后,就可以生成一个复刻老人历史传记的内容。
像桌面机器人,可以通过我们的CosyVoice来做声音复刻。我们可以把父母的声音用来陪伴他们的子女。我们之前把天猫上很多电子书数字化,然后收集购买者父母的实际声音,通过CosyVoice就能复刻他父母的音色和情感。把它加持到桌面机器人中去,即使父母不在家,机器人也可以通过他父母的声音来陪伴孩子聊天互动。
包括还有产业侧, 像亮亮视野的AR眼镜,我们提供的也是整个底层的多模态整套SDK。我们都希望能为广大的企业伙伴、创业者提供更多开源的好应用。希望你们多调研我们通义。
吴畏:我想问一个有关生态的问题。市场上有很多技术公司、科技公司,还有政府、大型企业,怎么样去构建一个好的生态,能够把AI无障碍这件事情普惠出去?
王岭:从生态这个角度来讲,我们有几个非常重视的点:
01.开发者社群(Developer Community):我们生态中有非常活跃的个人开发者,也有合作的公司,我们叫ISV(独立软件供应商)。他们规模不一定大,但非常灵活,能敏锐捕捉到最新技术。我们有一些工具,像Accessibility Insights, 就是给开发者群体用的,他们在开发产品时就可以用这个工具去做无障碍的测试和适配。
02.行业倡导与标准建立:我们每年都有一个叫做 Accessibility Summit的大会,今年三月份就有来自164个国家、超过两万名参会者,大家一起探讨AI和无障碍的现状与未来。我们还有一套非常成熟的InclusiveDesign(包容性设计)原则和方法论,全部是公开的,并且在2023年和中国合作伙伴一起做了本地化。
03.携手本地伙伴,解决”最后一公里”: 我们的云平台上面有很多无障碍的API,但要把它落地,特别要靠我们当地的合作伙伴。我拿我们的合作伙伴”亮亮视野”举例,他专注于”AI+AR”解决方案,现在做的一款增强视觉眼镜,听障朋友戴上后,可以实时看到字幕翻译呈现在眼前。
04.细节决定成败:为什么”最后一公里”重要?我跟亮亮的COO有过很长时间合作,他们不停地在改产品。比如第一代眼镜很笨重,现在就比较轻量化了。还有很多细节,比如续航能力、戴上后会不会发热、没有网的地方怎么办?这些都需要特别了解服务对象的合作伙伴去一点一点地雕琢出来。
吴畏:最后一个问题,让每位嘉宾做一点畅想。借助AI,在无障碍领域,未来我们的社会和工作可能会是一种什么样的状况?我们做一个美好的祝愿,也作为每个人的一个ending。
毕超:我说两个点。我觉得在未来无障碍场景中,人形服务机器人和脑机接口是我畅想的两个很好的方向。虽然现在人形机器人受限于传感技术,没法精准服务于需要无障碍帮助的人群,但未来通过生物技术、空间技术等,能够解决它在空间坐标中的识别问题。再加上我们底层的多模态能力,我希望服务机器人能更多地服务我们需要帮助的人群。第二个,我非常畅想脑机接口。现在很多无障碍设备仍需手动或肢体控制,我希望未来能通过脑部信号或自然语言来驱动硬件设备,拉近人群跟设备之间的距离。
贾学锋:我觉得未来的AI,不管硬件以什么形态出现,都可能不可避免地成为我们的”第三个家人”。在养老这一块,我希望有了AI的加持以后,能够让每一个人都能够有尊严和更幸福地老去。
王岭:从技术角度讲,很多事情都可以解决。但我们考虑问题时,有时不是技术”能不能做”,而是”应不应该做”。这就是负责任的人工智能(Responsible AI)。我希望有更多人能考虑到公平、隐私、安全这些问题。比如手语,它跟自然语言一样,有很多方言,北京和天津的手语都不一样,北方和南方的差别非常大。你在收集数据时,是不是考虑到了这种差异?只有数据收集得全面,才能在设计产品时体现公正性。
技术归根结底是一个工具,像一把刀。你是拿来做好事,还是做不好的事,取决于拿着这个工具的人的心是怎样的。
此外还有隐私和安全,因为我们服务的很多是相对弱势的群体,要从你的角度去第一步保护他们。还有就是可负担性,希望各个大厂把价钱都打下来。
曾昆:我想分享八个字:能力共享,成本公允。我们几位都有共识,就是怎么样让更好的服务能够进入大众的生活。外面展示了很多很好的产品,但可能因为研发成本、商业模式等原因,短时间无法给更多人提供服务。通过阿里、百度等公司,我们大家可以很好地控制开发成本;同时,比如在深圳,利用周边的产业供应链优势,通过规模化把服务成本降低。我们很希望共同努力,把成本控制在大众能接受的角度,这样才特别有意义。
文章来自于“非凡产研”,作者“100aiapps.cn”。
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales