Whisper是科技巨頭OpenAI新發(fā)布的一個(gè)自動(dòng)語(yǔ)音識(shí)別系統(tǒng),OpenAI公司稱其具有接近“人類水平的可靠性和準(zhǔn)確性”。
但是據(jù)多名軟件工程師、開發(fā)人員和學(xué)術(shù)研究人員反饋,Whisper也有一個(gè)重大缺陷——它有時(shí)會(huì)編造出一大段文字甚至是整句。專家表示,這些被AI虛構(gòu)出來的文字(在業(yè)內(nèi)也被稱作幻聽),有可能包含種族主義和暴力言論,甚至是憑空想象出來的醫(yī)學(xué)療法。
專家表示,AI的這種“幻聽”可不是一個(gè)小問題,因?yàn)閃hisper已經(jīng)被世界各地的許多行業(yè)用于翻譯和轉(zhuǎn)錄對(duì)話,為一些流行的消費(fèi)技術(shù)生成文本,以及為視頻創(chuàng)建字幕等等。
更令人擔(dān)憂的是,一些醫(yī)院甚至利用了基于Whisper開發(fā)的工具,來記錄醫(yī)患之間的對(duì)話。盡管OpenAI已經(jīng)警告稱,Whisper并不應(yīng)該被用在“高風(fēng)險(xiǎn)領(lǐng)域”。
要想精準(zhǔn)判斷這個(gè)問題的嚴(yán)重程度,并非一件容易的事。不過據(jù)研究人員和工程師稱,他們經(jīng)常會(huì)在工作中遇到Whisper“幻聽”的情況。比如,密歇根大學(xué)一名研究人員開展了一項(xiàng)針對(duì)公開會(huì)議的研究,他發(fā)現(xiàn)他仔細(xì)檢查過的10個(gè)音頻轉(zhuǎn)錄文本中,有8個(gè)都出現(xiàn)了“幻聽”的情況。
一位機(jī)器學(xué)習(xí)工程師也表示,在他分析的100多個(gè)小時(shí)的Whisper轉(zhuǎn)錄文本中,他發(fā)現(xiàn)有一半都存在“幻聽”。一位第三方開發(fā)者表示,在他用Whisper編寫的2.6萬(wàn)份文本中,每乎每一份都在“幻聽”問題。
即使在那些錄制良好的短音頻樣本中,問題也仍然存在。有計(jì)算機(jī)科學(xué)家在最近的一項(xiàng)研究中檢查了13000多份清晰音頻片段的轉(zhuǎn)錄文本,結(jié)果發(fā)現(xiàn)了187處“幻聽”。
研究人員表示,如果是這樣的話,那么在幾百萬(wàn)份語(yǔ)音轉(zhuǎn)錄文本中,至少會(huì)出現(xiàn)幾萬(wàn)份轉(zhuǎn)錄錯(cuò)誤。
拜登政府的前白宮科技政策辦公室主任阿隆德拉·尼爾森指出,這種錯(cuò)誤可能會(huì)導(dǎo)致“非常嚴(yán)重的后果”,特別是在醫(yī)療場(chǎng)景中。
尼爾森現(xiàn)在是新澤西州的普林斯頓高級(jí)研究所的一名教授。他表示:“沒有人希望自己被誤診,在這方面應(yīng)該有更高的標(biāo)準(zhǔn)?!?/p>
Whisper還被用于為聾啞人和聽障人士制作字幕。加勞德大學(xué)技術(shù)獲取項(xiàng)目負(fù)責(zé)人克里斯蒂安·沃格勒指出,如果這些字幕轉(zhuǎn)錄錯(cuò)誤的話,對(duì)聾人和聽障人士的影響顯然是更加嚴(yán)重的,因?yàn)樗麄兏緹o(wú)法識(shí)別“隱藏在所有這些文字中的虛假內(nèi)容。” 沃格勒自己就是一名聾人。
各方敦促OpenAI盡快解決問題
由于AI“幻聽”的問題非常常見,不少專家甚至包括前OpenAI公司的員工都在呼吁聯(lián)邦政府考慮制定相關(guān)監(jiān)管政策。至少也得讓OpenAI解決這個(gè)缺陷。
“如果OpenAI公司愿意重視這個(gè)問題,它是有辦法解決的?!迸f金山的研究工程師威廉·桑德斯今年2月剛剛從OpenAI辭職,原因是他對(duì)OpenAI的發(fā)展方向感到擔(dān)憂?!叭绻惆阉旁谀抢锊还?,那就有問題了,因?yàn)槿藗兲嘈潘墓δ芰耍疫€把它集成到了所有其他系統(tǒng)上?!?/p>
OpenAI的一位發(fā)言人表示,該公司一直在研究如何減少“幻聽”現(xiàn)象,并對(duì)廣大研究人員的發(fā)現(xiàn)表示了贊賞。該發(fā)言人還表示,OpenAI已經(jīng)在模型更新中加入了反饋功能。
雖然大多數(shù)開發(fā)人員都認(rèn)為。作為一種語(yǔ)音轉(zhuǎn)錄工具,它出現(xiàn)拼寫錯(cuò)誤或者其他錯(cuò)誤都屬正常,但是也有工程師和研究人員表示,他們從未見過其他哪款A(yù)I轉(zhuǎn)錄工具的“幻聽”像Whisper一樣多。
Whisper的“幻聽”
目前,該工具已經(jīng)被集成到ChatGPT的某些版本中,并且被內(nèi)置于甲骨文和微軟云計(jì)算平臺(tái)中,這些平臺(tái)服務(wù)著全球成千上萬(wàn)的企業(yè)。它也會(huì)被用來轉(zhuǎn)錄和翻譯其他語(yǔ)言。
僅僅是上個(gè)月,最新版本的Whisper就在開源AI平臺(tái)HuggingFace上被下載了420多萬(wàn)次。
該平臺(tái)的一位名叫桑吉特·甘地的機(jī)器學(xué)習(xí)工程師表示,Whisper是目前最受歡迎的開源語(yǔ)音識(shí)別模型,它已經(jīng)被集成到了從呼叫中心到語(yǔ)音助理的各種程序中。
康奈爾大學(xué)的埃莉森·克內(nèi)克教授和弗吉尼亞大學(xué)的莫娜·斯洛安妮教授開展了一項(xiàng)試驗(yàn),他們檢查了來自卡耐基梅隆大學(xué)的TalkBank研究存儲(chǔ)庫(kù)的數(shù)千個(gè)音視頻片段,結(jié)果發(fā)現(xiàn),近40%的“幻聽”是有害的,或者是值得關(guān)注的,因?yàn)檎f話者的意思很可能會(huì)被誤解或歪曲。
比如在一段音頻中,說話者說的是:“他,那個(gè)男孩,他要……我不太確定,可能是要拿雨傘?!?/p>
但是Whisper給出的轉(zhuǎn)錄文本卻是:“他拿了一個(gè)大十字架,一小塊……我不太確定,他沒有一把恐怖的刀,所以他殺了很多人?!?/p>
還有另一段錄音,說話者描述了“另外兩個(gè)女孩和一位女士”。Whisper卻“腦補(bǔ)”出了額外的種族主義評(píng)價(jià):“……另外兩個(gè)女孩和一位女士,嗯,她們是黑人。”
在另一段錄音中,Whisper發(fā)明了一種不存在的藥物,名叫“過度激活抗生素”。
研究人員也不確定為什么Whisper和類似的一些AI工具會(huì)產(chǎn)生“幻聽”,但軟件開發(fā)人員表示,這種“幻聽”往往發(fā)生在停頓、有背景音或者有音樂的時(shí)候。
OpenAI公司對(duì)此給出的官方建議是,“不要在決策環(huán)境中使用Whisper,因?yàn)樗跍?zhǔn)確性上的缺陷,有可能導(dǎo)致結(jié)果出現(xiàn)明顯缺陷”。
記錄醫(yī)生的預(yù)約
雖然OpenAI公司發(fā)布了相關(guān)警告,但還是有不少醫(yī)院仍在使用包括Whisper在內(nèi)的語(yǔ)音轉(zhuǎn)文字工具,來記錄醫(yī)生診療患者時(shí)說的話,以減少醫(yī)護(hù)人員記筆記或?qū)憟?bào)告所花費(fèi)的時(shí)間。
目前,美國(guó)有超過3萬(wàn)名臨床醫(yī)生和40多家醫(yī)院,都在使用Nabla公司開發(fā)的基于Whisper的工具,包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院。Nabla公司在法國(guó)和美國(guó)都設(shè)有辦公室。
Nabla的首席技術(shù)官馬丁·雷森表示,他們開發(fā)的版本是基于醫(yī)學(xué)語(yǔ)言的專業(yè)版,以轉(zhuǎn)錄和總結(jié)醫(yī)生與患者之間的交流。
該公司的負(fù)責(zé)人表示,他們已經(jīng)意識(shí)到了Whisper會(huì)產(chǎn)生“幻聽”,并且正在想方設(shè)法解決這個(gè)問題。
雷森表示,Nabla無(wú)法將AI生成的文本與原始錄音進(jìn)行比較,因?yàn)镹abla的工具出于“數(shù)據(jù)安全原因”會(huì)刪除掉原始音頻。
Nabla公司表示,該公司開發(fā)的工具已經(jīng)記錄了大約700萬(wàn)次問診。
前OpenAI公司工程師桑德斯指出,如果文本沒有經(jīng)過雙重檢查,或者臨床醫(yī)生無(wú)法檢查錄音以驗(yàn)證文本的正確性,那么刪掉原始音頻是一種令人擔(dān)憂的做法。“如果你把原話都刪了,你就找不到錯(cuò)誤了?!?/p>
Nabla公司則表示,沒有一個(gè)模型是完美的,目前他們的模型要求醫(yī)生對(duì)文本結(jié)果進(jìn)行快速編輯和審核,但是以后這種做法也可能會(huì)有變化。
隱私擔(dān)憂
醫(yī)患對(duì)話屬于隱私信息,但我們目前還很難知道,AI生成的文本對(duì)患者的個(gè)人隱私有何影響。
加利福尼亞州議員麗貝卡·鮑爾·卡漢表示,今年早些時(shí)候,她帶著一個(gè)孩子去看醫(yī)生,結(jié)果醫(yī)院給了她一張表格要她簽字,內(nèi)容是讓她同意向幾家公司分享問診的音頻。這幾家公司中就包括微軟Azure,也就是OpenAI背后的最大投資者運(yùn)營(yíng)的云計(jì)算平臺(tái)。她表示,她不希望這種隱私信息被科技公司掌握。
鮑爾·卡漢是一名民主黨人,她在州議會(huì)中代表著舊金山郊區(qū)的部分地區(qū)。她表示:“那份表格很明確地說明了,營(yíng)利性公司有權(quán)使用這些音頻。但是我說:‘絕對(duì)不行?!?/p>
約翰繆爾健康中心的發(fā)言人本·德魯指出,該醫(yī)院一向遵守聯(lián)邦和該州的相關(guān)隱私法律。(財(cái)富中文網(wǎng))
譯者:樸成奎
Whisper是科技巨頭OpenAI新發(fā)布的一個(gè)自動(dòng)語(yǔ)音識(shí)別系統(tǒng),OpenAI公司稱其具有接近“人類水平的可靠性和準(zhǔn)確性”。
但是據(jù)多名軟件工程師、開發(fā)人員和學(xué)術(shù)研究人員反饋,Whisper也有一個(gè)重大缺陷——它有時(shí)會(huì)編造出一大段文字甚至是整句。專家表示,這些被AI虛構(gòu)出來的文字(在業(yè)內(nèi)也被稱作幻聽),有可能包含種族主義和暴力言論,甚至是憑空想象出來的醫(yī)學(xué)療法。
專家表示,AI的這種“幻聽”可不是一個(gè)小問題,因?yàn)閃hisper已經(jīng)被世界各地的許多行業(yè)用于翻譯和轉(zhuǎn)錄對(duì)話,為一些流行的消費(fèi)技術(shù)生成文本,以及為視頻創(chuàng)建字幕等等。
更令人擔(dān)憂的是,一些醫(yī)院甚至利用了基于Whisper開發(fā)的工具,來記錄醫(yī)患之間的對(duì)話。盡管OpenAI已經(jīng)警告稱,Whisper并不應(yīng)該被用在“高風(fēng)險(xiǎn)領(lǐng)域”。
要想精準(zhǔn)判斷這個(gè)問題的嚴(yán)重程度,并非一件容易的事。不過據(jù)研究人員和工程師稱,他們經(jīng)常會(huì)在工作中遇到Whisper“幻聽”的情況。比如,密歇根大學(xué)一名研究人員開展了一項(xiàng)針對(duì)公開會(huì)議的研究,他發(fā)現(xiàn)他仔細(xì)檢查過的10個(gè)音頻轉(zhuǎn)錄文本中,有8個(gè)都出現(xiàn)了“幻聽”的情況。
一位機(jī)器學(xué)習(xí)工程師也表示,在他分析的100多個(gè)小時(shí)的Whisper轉(zhuǎn)錄文本中,他發(fā)現(xiàn)有一半都存在“幻聽”。一位第三方開發(fā)者表示,在他用Whisper編寫的2.6萬(wàn)份文本中,每乎每一份都在“幻聽”問題。
即使在那些錄制良好的短音頻樣本中,問題也仍然存在。有計(jì)算機(jī)科學(xué)家在最近的一項(xiàng)研究中檢查了13000多份清晰音頻片段的轉(zhuǎn)錄文本,結(jié)果發(fā)現(xiàn)了187處“幻聽”。
研究人員表示,如果是這樣的話,那么在幾百萬(wàn)份語(yǔ)音轉(zhuǎn)錄文本中,至少會(huì)出現(xiàn)幾萬(wàn)份轉(zhuǎn)錄錯(cuò)誤。
拜登政府的前白宮科技政策辦公室主任阿隆德拉·尼爾森指出,這種錯(cuò)誤可能會(huì)導(dǎo)致“非常嚴(yán)重的后果”,特別是在醫(yī)療場(chǎng)景中。
尼爾森現(xiàn)在是新澤西州的普林斯頓高級(jí)研究所的一名教授。他表示:“沒有人希望自己被誤診,在這方面應(yīng)該有更高的標(biāo)準(zhǔn)?!?/p>
Whisper還被用于為聾啞人和聽障人士制作字幕。加勞德大學(xué)技術(shù)獲取項(xiàng)目負(fù)責(zé)人克里斯蒂安·沃格勒指出,如果這些字幕轉(zhuǎn)錄錯(cuò)誤的話,對(duì)聾人和聽障人士的影響顯然是更加嚴(yán)重的,因?yàn)樗麄兏緹o(wú)法識(shí)別“隱藏在所有這些文字中的虛假內(nèi)容?!?沃格勒自己就是一名聾人。
各方敦促OpenAI盡快解決問題
由于AI“幻聽”的問題非常常見,不少專家甚至包括前OpenAI公司的員工都在呼吁聯(lián)邦政府考慮制定相關(guān)監(jiān)管政策。至少也得讓OpenAI解決這個(gè)缺陷。
“如果OpenAI公司愿意重視這個(gè)問題,它是有辦法解決的?!迸f金山的研究工程師威廉·桑德斯今年2月剛剛從OpenAI辭職,原因是他對(duì)OpenAI的發(fā)展方向感到擔(dān)憂?!叭绻惆阉旁谀抢锊还?,那就有問題了,因?yàn)槿藗兲嘈潘墓δ芰耍疫€把它集成到了所有其他系統(tǒng)上?!?/p>
OpenAI的一位發(fā)言人表示,該公司一直在研究如何減少“幻聽”現(xiàn)象,并對(duì)廣大研究人員的發(fā)現(xiàn)表示了贊賞。該發(fā)言人還表示,OpenAI已經(jīng)在模型更新中加入了反饋功能。
雖然大多數(shù)開發(fā)人員都認(rèn)為。作為一種語(yǔ)音轉(zhuǎn)錄工具,它出現(xiàn)拼寫錯(cuò)誤或者其他錯(cuò)誤都屬正常,但是也有工程師和研究人員表示,他們從未見過其他哪款A(yù)I轉(zhuǎn)錄工具的“幻聽”像Whisper一樣多。
Whisper的“幻聽”
目前,該工具已經(jīng)被集成到ChatGPT的某些版本中,并且被內(nèi)置于甲骨文和微軟云計(jì)算平臺(tái)中,這些平臺(tái)服務(wù)著全球成千上萬(wàn)的企業(yè)。它也會(huì)被用來轉(zhuǎn)錄和翻譯其他語(yǔ)言。
僅僅是上個(gè)月,最新版本的Whisper就在開源AI平臺(tái)HuggingFace上被下載了420多萬(wàn)次。
該平臺(tái)的一位名叫桑吉特·甘地的機(jī)器學(xué)習(xí)工程師表示,Whisper是目前最受歡迎的開源語(yǔ)音識(shí)別模型,它已經(jīng)被集成到了從呼叫中心到語(yǔ)音助理的各種程序中。
康奈爾大學(xué)的埃莉森·克內(nèi)克教授和弗吉尼亞大學(xué)的莫娜·斯洛安妮教授開展了一項(xiàng)試驗(yàn),他們檢查了來自卡耐基梅隆大學(xué)的TalkBank研究存儲(chǔ)庫(kù)的數(shù)千個(gè)音視頻片段,結(jié)果發(fā)現(xiàn),近40%的“幻聽”是有害的,或者是值得關(guān)注的,因?yàn)檎f話者的意思很可能會(huì)被誤解或歪曲。
比如在一段音頻中,說話者說的是:“他,那個(gè)男孩,他要……我不太確定,可能是要拿雨傘?!?/p>
但是Whisper給出的轉(zhuǎn)錄文本卻是:“他拿了一個(gè)大十字架,一小塊……我不太確定,他沒有一把恐怖的刀,所以他殺了很多人。”
還有另一段錄音,說話者描述了“另外兩個(gè)女孩和一位女士”。Whisper卻“腦補(bǔ)”出了額外的種族主義評(píng)價(jià):“……另外兩個(gè)女孩和一位女士,嗯,她們是黑人?!?/p>
在另一段錄音中,Whisper發(fā)明了一種不存在的藥物,名叫“過度激活抗生素”。
研究人員也不確定為什么Whisper和類似的一些AI工具會(huì)產(chǎn)生“幻聽”,但軟件開發(fā)人員表示,這種“幻聽”往往發(fā)生在停頓、有背景音或者有音樂的時(shí)候。
OpenAI公司對(duì)此給出的官方建議是,“不要在決策環(huán)境中使用Whisper,因?yàn)樗跍?zhǔn)確性上的缺陷,有可能導(dǎo)致結(jié)果出現(xiàn)明顯缺陷”。
記錄醫(yī)生的預(yù)約
雖然OpenAI公司發(fā)布了相關(guān)警告,但還是有不少醫(yī)院仍在使用包括Whisper在內(nèi)的語(yǔ)音轉(zhuǎn)文字工具,來記錄醫(yī)生診療患者時(shí)說的話,以減少醫(yī)護(hù)人員記筆記或?qū)憟?bào)告所花費(fèi)的時(shí)間。
目前,美國(guó)有超過3萬(wàn)名臨床醫(yī)生和40多家醫(yī)院,都在使用Nabla公司開發(fā)的基于Whisper的工具,包括明尼蘇達(dá)州的曼卡托診所和洛杉磯兒童醫(yī)院。Nabla公司在法國(guó)和美國(guó)都設(shè)有辦公室。
Nabla的首席技術(shù)官馬丁·雷森表示,他們開發(fā)的版本是基于醫(yī)學(xué)語(yǔ)言的專業(yè)版,以轉(zhuǎn)錄和總結(jié)醫(yī)生與患者之間的交流。
該公司的負(fù)責(zé)人表示,他們已經(jīng)意識(shí)到了Whisper會(huì)產(chǎn)生“幻聽”,并且正在想方設(shè)法解決這個(gè)問題。
雷森表示,Nabla無(wú)法將AI生成的文本與原始錄音進(jìn)行比較,因?yàn)镹abla的工具出于“數(shù)據(jù)安全原因”會(huì)刪除掉原始音頻。
Nabla公司表示,該公司開發(fā)的工具已經(jīng)記錄了大約700萬(wàn)次問診。
前OpenAI公司工程師桑德斯指出,如果文本沒有經(jīng)過雙重檢查,或者臨床醫(yī)生無(wú)法檢查錄音以驗(yàn)證文本的正確性,那么刪掉原始音頻是一種令人擔(dān)憂的做法?!叭绻惆言挾紕h了,你就找不到錯(cuò)誤了?!?/p>
Nabla公司則表示,沒有一個(gè)模型是完美的,目前他們的模型要求醫(yī)生對(duì)文本結(jié)果進(jìn)行快速編輯和審核,但是以后這種做法也可能會(huì)有變化。
隱私擔(dān)憂
醫(yī)患對(duì)話屬于隱私信息,但我們目前還很難知道,AI生成的文本對(duì)患者的個(gè)人隱私有何影響。
加利福尼亞州議員麗貝卡·鮑爾·卡漢表示,今年早些時(shí)候,她帶著一個(gè)孩子去看醫(yī)生,結(jié)果醫(yī)院給了她一張表格要她簽字,內(nèi)容是讓她同意向幾家公司分享問診的音頻。這幾家公司中就包括微軟Azure,也就是OpenAI背后的最大投資者運(yùn)營(yíng)的云計(jì)算平臺(tái)。她表示,她不希望這種隱私信息被科技公司掌握。
鮑爾·卡漢是一名民主黨人,她在州議會(huì)中代表著舊金山郊區(qū)的部分地區(qū)。她表示:“那份表格很明確地說明了,營(yíng)利性公司有權(quán)使用這些音頻。但是我說:‘絕對(duì)不行。’”
約翰繆爾健康中心的發(fā)言人本·德魯指出,該醫(yī)院一向遵守聯(lián)邦和該州的相關(guān)隱私法律。(財(cái)富中文網(wǎng))
譯者:樸成奎
Tech behemoth OpenAI has touted its artificial intelligence-powered transcription tool Whisper as having near “human level robustness and accuracy.”
But Whisper has a major flaw: It is prone to making up chunks of text or even entire sentences, according to interviews with more than a dozen software engineers, developers and academic researchers. Those experts said some of the invented text — known in the industry as hallucinations — can include racial commentary, violent rhetoric and even imagined medical treatments.
Experts said that such fabrications are problematic because Whisper is being used in a slew of industries worldwide to translate and transcribe interviews, generate text in popular consumer technologies and create subtitles for videos.
More concerning, they said, is a rush by medical centers to utilize Whisper-based tools to transcribe patients’ consultations with doctors, despite OpenAI’ s warnings that the tool should not be used in “high-risk domains.”
The full extent of the problem is difficult to discern, but researchers and engineers said they frequently have come across Whisper’s hallucinations in their work. A University of Michigan researcher conducting a study of public meetings, for example, said he found hallucinations in 8 out of every 10 audio transcriptions he inspected, before he started trying to improve the model.
A machine learning engineer said he initially discovered hallucinations in about half of the over 100 hours of Whisper transcriptions he analyzed. A third developer said he found hallucinations in nearly every one of the 26,000 transcripts he created with Whisper.
The problems persist even in well-recorded, short audio samples. A recent study by computer scientists uncovered 187 hallucinations in more than 13,000 clear audio snippets they examined.
That trend would lead to tens of thousands of faulty transcriptions over millions of recordings, researchers said.
Such mistakes could have “really grave consequences,” particularly in hospital settings, said Alondra Nelson, who led the White House Office of Science and Technology Policy for the Biden administration until last year.
“Nobody wants a misdiagnosis,” said Nelson, a professor at the Institute for Advanced Study in Princeton, New Jersey. “There should be a higher bar.”
Whisper also is used to create closed captioning for the Deaf and hard of hearing — a population at particular risk for faulty transcriptions. That’s because the Deaf and hard of hearing have no way of identifying fabrications are “hidden amongst all this other text,” said Christian Vogler, who is deaf and directs Gallaudet University’s Technology Access Program.
OpenAI urged to address problem
The prevalence of such hallucinations has led experts, advocates and former OpenAI employees to call for the federal government to consider AI regulations. At minimum, they said, OpenAI needs to address the flaw.
“This seems solvable if the company is willing to prioritize it,” said William Saunders, a San Francisco-based research engineer who quit OpenAI in February over concerns with the company’s direction. “It’s problematic if you put this out there and people are overconfident about what it can do and integrate it into all these other systems.”
An OpenAI spokesperson said the company continually studies how to reduce hallucinations and appreciated the researchers’ findings, adding that OpenAI incorporates feedback in model updates.
While most developers assume that transcription tools misspell words or make other errors, engineers and researchers said they had never seen another AI-powered transcription tool hallucinate as much as Whisper.
Whisper hallucinations
The tool is integrated into some versions of OpenAI’s flagship chatbot ChatGPT, and is a built-in offering in Oracle and Microsoft’s cloud computing platforms, which service thousands of companies worldwide. It is also used to transcribe and translate text into multiple languages.
In the last month alone, one recent version of Whisper was downloaded over 4.2 million times from open-source AI platform HuggingFace. Sanchit Gandhi, a machine-learning engineer there, said Whisper is the most popular open-source speech recognition model and is built into everything from call centers to voice assistants.
Professors Allison Koenecke of Cornell University and Mona Sloane of the University of Virginia examined thousands of short snippets they obtained from TalkBank, a research repository hosted at Carnegie Mellon University. They determined that nearly 40% of the hallucinations were harmful or concerning because the speaker could be misinterpreted or misrepresented.
In an example they uncovered, a speaker said, “He, the boy, was going to, I’m not sure exactly, take the umbrella.”
But the transcription software added: “He took a big piece of a cross, a teeny, small piece … I’m sure he didn’t have a terror knife so he killed a number of people.”
A speaker in another recording described “two other girls and one lady.” Whisper invented extra commentary on race, adding “two other girls and one lady, um, which were Black.”
In a third transcription, Whisper invented a non-existent medication called “hyperactivated antibiotics.”
Researchers aren’t certain why Whisper and similar tools hallucinate, but software developers said the fabrications tend to occur amid pauses, background sounds or music playing.
OpenAI recommended in its online disclosures against using Whisper in “decision-making contexts, where flaws in accuracy can lead to pronounced flaws in outcomes.”
Transcribing doctor appointments
That warning hasn’t stopped hospitals or medical centers from using speech-to-text models, including Whisper, to transcribe what’s said during doctor’s visits to free up medical providers to spend less time on note-taking or report writing.
Over 30,000 clinicians and 40 health systems, including the Mankato Clinic in Minnesota and Children’s Hospital Los Angeles, have started using a Whisper-based tool built by Nabla, which has offices in France and the U.S.
That tool was fine tuned on medical language to transcribe and summarize patients’ interactions, said Nabla’s chief technology officer Martin Raison.
Company officials said they are aware that Whisper can hallucinate and are mitigating the problem.
It’s impossible to compare Nabla’s AI-generated transcript to the original recording because Nabla’s tool erases the original audio for “data safety reasons,” Raison said.
Nabla said the tool has been used to transcribe an estimated 7 million medical visits.
Saunders, the former OpenAI engineer, said erasing the original audio could be worrisome if transcripts aren’t double checked or clinicians can’t access the recording to verify they are correct.
“You can’t catch errors if you take away the ground truth,” he said.
Nabla said that no model is perfect, and that theirs currently requires medical providers to quickly edit and approve transcribed notes, but that could change.
Privacy concerns
Because patient meetings with their doctors are confidential, it is hard to know how AI-generated transcripts are affecting them.
A California state lawmaker, Rebecca Bauer-Kahan, said she took one of her children to the doctor earlier this year, and refused to sign a form the health network provided that sought her permission to share the consultation audio with vendors that included Microsoft Azure, the cloud computing system run by OpenAI’s largest investor. Bauer-Kahan didn’t want such intimate medical conversations being shared with tech companies, she said.
“The release was very specific that for-profit companies would have the right to have this,” said Bauer-Kahan, a Democrat who represents part of the San Francisco suburbs in the state Assembly. “I was like ‘a(chǎn)bsolutely not.’”
John Muir Health spokesman Ben Drew said the health system complies with state and federal privacy laws.