現在,你可以說了
????語音識別技術已經成熟,這對成熟的競爭者和新來者來說都意味著巨大商機 ????作者: Jeanette Brozo ????人 機對決通常有兩大要素: 自負的年輕冠軍和新改進的計算機。下面這次對決中的年輕冠軍是 17 歲的本?庫克(Ben Cook),他已經被《吉尼斯世界紀錄》確認為是世界上發短信最快的人,但機器并不是超級計算機,而是手機。不過,這并不能降低對決的精彩程度。至少對去年到奧蘭多參加語音識別軟件會議的人們來說是如此。哪個能更快地將一個復雜句子轉化成文本?是庫克飛一般的拇指,還是 Nuance Communications 公司開發的語音軟件的精妙程序?顯示屏上閃動著那個變態的考試句: The razor-toothed piranhas of the genera Serrasalmus and Pygocentrus are the most ferocious freshwater fish in the world. In reality they seldom attack a human(牙齒如剃刀一般的鋸脂鯉屬和尻鋸脂鯉屬食人魚是世界上最兇猛的淡水魚,實際上它們很少攻擊人類)。庫克瘋狂扭動著拇指,Nuance 公司的一位員工則平靜地對著手機念出這個句子。結果引起了轟動: Nuance 的軟件在 16 秒內就將這句話毫無差錯地轉化成文本,庫克用了 48 秒鐘才費勁地完成了。他用困惑的語調嘟囔著說: “不知道你們是怎么做到的。” ????他們用了 Nuance 不久前推出的移動聽寫軟件(Mobile Dictation),這款軟件在今年上半年就將由運營商提供給用戶。它還有更深的一層含義: 語音識別長期以來受人譏笑,說它就像個人飛行噴氣裝置和神探的腕表,永遠都是即將出現的技術,如今這一技術最終出現了。處理能力的提高、新的軟件程序、麥克風質量的改進,使得 Nuance 這樣的成熟企業和一大批新創公司能夠設計出實用的軟件,準確率近乎 100%。它為許多市場創造了極大的增長潛力,包括手持聽寫設備、移動電話、車載設備和戰場翻譯機。 ????2006 年,語音識別技術的市場規模第一次超過了 10 億美元,比兩年前增長了 100%。這一廣闊市場內的細分市場同樣也在飛速增長。據奧普斯研究公司(Opus Research)統計,用于呼叫中心、依托服務器的語音識別技術的市場規模在 2006 年已接近 6 億美元,并且有望在 2009 年翻番。據研究公司 Datamonitor 提供的資料,安裝于電話和汽車儀表盤上的語音識別系統的市場規模,在 2006 年為 1.25 億美元。隨著“能說話的電子設備”的水平的不斷提高,電話和汽車的語音指揮功能將得到快速推廣。到 2010 年,這一市場將增長三倍,達 5 億美元。有專家預計,語音識別系統最終有可能被用到所有設備、電器和機器上。 ????需求的猛增促使原有的語音公司和新加入的競爭者增加投入。2006 年,Nuance 收購 Dictaphone,加強其在醫療產業的地位。同時,Nuance 的銷售額增長了 20%,超過了 3 億美元。微軟公司(Microsoft)新出的操作系統 Vista 采用了語音技術。起初,它的語音技術存在令人難堪的漏洞,如今終于得到了評論家的賞識。谷歌據說正研究語音搜索技術。而風險資本家現在正排著隊,等待資助硅谷內外有語音識別方面創意的創業家。Datamonitor 的分析師丹尼爾?洪(Daniel Hong)說: “語音技術最終由一項酷技術變成了商業解決方案。” ????語音識別技術可追溯到 1952 年,貝爾實驗室(Bell Labs)在那一年組裝了一套原始系統,可以識別電話里報出的數字。自那以后,這項技術進展緩慢。但隨著強大的計算設備的出現,又經過多年的錯誤測試,如今的系統達到了極致,能處理各種口音、方言和怪異的聲調。2004 年,華盛頓州貝爾維尤市的一家新創企業 VoiceBox Technologies 推出了一種樣品,有鐵皮箱那么大。而今天,同樣的設備可以安裝在信用卡大小的機器當中,已經成為豐田公司(Toyota)語音指揮控制板的大腦。VoiceBox 的系統已經十分先進,甚至能根據上下文分析詞義。比如,能搞清指令“traffic”究竟是指道路擁堵、史蒂夫?溫伍德(Steve Winwood)的曲目(溫伍德曾是 Traffic 樂隊成員──譯注),還是邁克爾?道格拉斯(Michael Douglas)主演的那部有關毒品走私的電影。 ????如今的系統還有強大的自學能力。加利福尼亞州芒廷維尤市的新創企業 Tellme Networks 生產用于企業呼叫中心和電信公司的 411 信息系統(指電話查詢服務──譯者)的語音識別軟件。Tellme 的平臺每天可捕獲 100 萬個發音,并不斷加以分析,真正做到了天天提高準確度。Tellme 高級經理杰夫?昆尼斯(Jeff Kunins)說: “語音識別就是模式識別。你的數據越多,識別效果越好。” ????語音識別用作客戶工具時價值更高。老式的講話識別技術只知道提示“按 1 或說 1”,令人惱火,也使呼叫中心和客戶服務部的口碑很差。但客戶的憤怒并不是唯一的懲罰: 根據 Datamonitor 提供的數據,如果安排一名員工處理呼叫,呼叫中心平均每次呼叫的成本為 5 美元;但如果采用自動服務、可通話的設備,成本僅有 50 美分。在線經紀公司 E-Trade 采用 Tellme,日處理 5 萬次呼叫,其中有一半不由員工經手。公司說,Tellme 的系統每年至少為它節約 3,000 萬美元。TuVox 也從呼叫中心和公司市場上拉客戶。營銷副總載阿齊達?馬丁(Azita Martin)讓她的團隊給呼叫中心打電話,錄下接通某個部門(比如財務部門)的復雜而繁瑣的步驟。然后,他們再制作一個音頻文件,顯示如果馬丁的目標公司采用 TuVox 軟件,以先進的語音識別技術轉接呼叫,聽上去會是怎樣的一個互動情形。她用電子郵件把這兩種互動的情況發送給使用那家呼叫中心的目標公司的首席執行官。兩者之間的對比幫助馬丁在過去數月里簽下了大量客戶。這也是 TuVox 年營業額以兩位數增長和客戶群在 12 個月內增長三倍的原因之一。它的客戶之一新西蘭電信公司(Telecom New Zealand)報告說,自從安裝了 TuVox 系統,呼叫中心的客戶滿意度提高了兩倍。 ????呼叫中心和汽車預計仍將是語音識別不斷增長的市場。但真正的高利潤的到來,可能是等將來識別系統經改進后在各種移動設備上的應用。首先說說手機。電信公司認為,如果手機上有了好用的語音界面,消費者將樂意為很多附加服務付費,比如聽寫電子郵件、搜尋餐廳等。奧普斯研究公司說,電信公司希望每月從每個選擇語音手機的消費者那里多賺取 5 到 15 美元。很多新創企業搶著提供這一技術,其中包括 Promptu 公司。這是一家由幾位語音技術資深人士在 2000 年創辦的公司,位于加利福尼亞州門羅帕克市。它開發了一套語音工具,將在今年晚些時候通過幾家運營商提供給消費者。Promptu 高級副總載布拉迪?布魯斯(Brady Bruce)說: “電信公司正在給我們打電話呢。我很高興。” ????其他新創企業在為 MP3 播放器、手持 GPS、筆記本電腦等各種設備開發語音功能。前微軟和 Amazon 的工程師阿列克斯?卡斯特羅(Alex Castro)在去年 2 月創辦了 Pluggd 公司,開發出一種搜索引擎,結合了語音識別和語義分析,可以準確找到所需信息的位置。比如,在烹飪播客中找出討論蛋奶穌烘烤技巧的地方。Vocera Communications 的創辦者是看著電視連續劇《星際迷航》(Star Trek)長大的,他們以劇中科克船長和其他角色來命名他們在硅谷總部的會議室。兩年前,公司發布了一種結合了語音識別和無線技術的胸徽,這款產品的設計也受到了電視劇的啟發。當時,它引起了一些人的嘲笑,但隨后追捧的人越來越多。公司的一個客戶群是醫務工作者。有了它,就可以用語音搜索醫院,找到能解決患者問題的人,或者查詢醫療記錄。Vocera 希望明年初實現盈利。VoxTec International 公司的 Phraselator 是一種手持設備,有支票簿大小,用于聽取請求翻譯的短句,并將其翻譯成 41 種語言當中的任意一種。美國駐伊拉克和阿富汗的部隊目前正在使用這種設備,用于對阿拉伯語、普什圖語和其他當地語言的即時翻譯。這家公司來自馬里蘭州安納波利斯市,最早是在 1997 年為國防部開發了這項技術。它不愿披露具體數目,但表示銷售額在上漲。 ????很多專家預計,隨著語音識別將取代錄入、敲鍵盤、寫字和觸摸,成為人機互動最主要的界面,語音技術遲早有一天會遍布各個角落。微軟語音識別項目主管羅伯?錢伯斯(Rob Chambers)甚至預計,總有一天,這項技術會強大到可以糾正用詞和語法的錯誤,實現語音拼寫檢查。 ????做到這一步,可能還需要幾十年。但正如去年秋天奧蘭多所顯示的,技術進步十分迅猛。Nuance 公司打敗短信冠軍的那款軟件的精確度,比公司前一年最好的軟件高出了 25%。公司的研究人員稱,下一代產品一年內即可上市,比目前最好的系統的出錯率還要低 20%。Nuance 全球營銷副總裁彼得?馬霍尼(Peter Mahoney)說: “本?庫克的手機錄入快得讓人難以置信,但這項技術會越來越比他的速度快。” ????譯者: 天逸 相關稿件
|
500強情報中心
|
深入財富中文網
|