ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI语音转录工具被曝严重幻觉:转录100小时,一半儿在瞎扯
2721点击    2024-10-27 15:22

OpenAI的AI语音转写工具,那个号称近乎“人类水平”的Whisper,被曝幻觉严重——


100多小时转录,被工程师发现约一半都在瞎扯。


更严重的是,美联社还爆料有医疗机构利用Whisper来转录医生与患者的会诊,瞬间引发大量网友关注。



据悉,明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。


而且他们已经转录了大概700万次医疗就诊。


网友纷纷表示这就有点吓人了。




值得一提的是,OpenAI之前早就警告过,该工具不应在“高风险领域”中使用


针对最新爆料,有OpenAI发言人回应,OpenAI会在模型更新中加入相应的反馈机制。


OpenAI被督促赶紧解决此问题


Whisper是OpenAI老早前推出的开源自动语音识别(ASR)系统,于2022年9月发布。



它采用简单的端到端方式,基于编码器-解码器Transformer架构。输入音频将被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。


经过68万小时的多语言和多任务监督网络数据的训练,Whisper可以进行多语言转录。


Whisper推出后得到广泛应用,如今GitHub已揽获70.2k标星:



据悉,它还被集成在ChatGPT的一些版本中,同时也是Oracle和微软云计算平台的一项内置服务,而这些平台为全球数千家公司提供服务。


此外,仅在上个月,HuggingFace上的一个最新版本Whisper就被下载了超420万次。HuggingFace社区的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型。


而现在,据美联社报道,很多研究人员和工程师反映,在工作中他们经常遇到Whisper产生的幻觉。


例如,密歇根大学的一位研究员在尝试改进模型之前,发现其检查的每10份音频转录中有8份出现了幻觉。


一位机器学习工程师指出,在他分析的超过100小时Whisper转录中,大约一半出现了幻觉。


还有一位开发者表示,在他使用Whisper创建的26,000份转录中,几乎每一份都发现了幻觉。


……


这种问题甚至存在于录制良好的短音频样本中。


在最近的一项研究中,计算机科学家们在审查的超过13000个清晰音频片段中发现了187个幻觉。


工程师和研究人员表示,他们从未见过其它任何AI驱动的转录工具像Whisper这样频繁地产生幻觉。


Whisper幻觉严重的原因目前尚未可知,但有软件开发者表示,这些虚构内容往往发生在停顿、有背景声音或音乐播放时



之前,OpenAI就有提醒:


不要在决策情境中使用Whisper,准确性上的缺陷可能导致结果出现明显偏差。


然鹅,美联社表示,这一警告并未阻止一些医院或医疗中心使用Whisper等语音转文字模型——


包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内,已经有超30000名临床医生和40个医疗系统已经开始使用由Nabla公司基于Whisper开发的工具。


Nabla CTO Martin Raison称,该工具针对医疗语言对模型进行了微调,用于转录和总结患者的交流。


目前,该工具已被用于转录约700万次医疗就诊。


在得知Whisper可能会产生幻觉后,Nabla表示正在解决此问题,不过:


由于“数据安全原因”,Nabla的工具会删除原始音频,无法将Nabla生成的AI文本与原始录音进行比较。


此外,据了解,Whisper还被用来为聋人和听力障碍者创建字幕。


Whisper幻觉严重问题被发现后,有人敦促OpenAI赶紧解决此问题。


今年2月离开OpenAI的研究员William Saunders也开麦了:


如果公司愿意优先考虑,这似乎是可以解决的。如果你把它放出去,人们过于自信于它的功能,并将其集成到所有这些其他系统中,那就成了问题。


有OpenAI发言人回应称,公司持续研究如何减少幻觉现象,并感谢研究人员的发现,同时补充道OpenAI会在模型更新中融入相应反馈机制。


参考链接:


[1]https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14


[2]https://x.com/AP/status/1850150400424345858


文章来自于微信公众号“量子位”,作者“西风”


关键词: openai , AI , 幻觉 , Whisper
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales