今年1月,我為《財富》雜志撰寫了一篇特別報道,縱論方興未艾的自然語言處理(NLP)革命。這些人工智能系統不僅可以操縱語言,而且在一定程度上還能夠“理解”語言。
語言處理正在進入一個黃金時代,曾經不可能完成的任務越來越觸手可及。這些新系統已經開始改變企業(yè)的運作方式,并且有望在未來幾年以一種更為戲劇化的方式實現這一轉變。
今年夏天出現了一些令人震驚的例證,充分彰顯了這些方法所能取得的成就。人們討論最多的是研究機構OpenAI開發(fā)的GPT-3系統。它可以從人類書寫的一兩行文字提示中生成條理清楚的長篇大論。在許多情況下,系統生成的內容與人類書寫的文本沒有什么區(qū)別。
目前,GPT-3仍然只是一種派對把戲。例如,它很難控制系統生成的內容是否符合事實,是否過濾掉它可能從龐大的訓練集(其中不僅包括莎士比亞的所有作品,還包括像Reddit這樣的人類美德庫)中獲取的種族主義或歧視女性想法。但一些公司已經開始圍繞它開發(fā)真正的產品。比如,一家公司正在創(chuàng)建的系統能夠從幾個要點中生成完整的電子郵件;一家法律技術公司正在試驗GPT-3,看它能否在訴訟發(fā)現和合規(guī)方面有所幫助。
舊金山另一家人工智能公司Primer開發(fā)了一款文檔分析軟件。多家美國情報機構都是它的客戶。8月18日,該公司發(fā)布了一個名為Primer Labs的網站,意在展示它在過去一年中創(chuàng)建的三個NLP系統,并允許任何人上傳任何文本來使用這項技術。
早在去年12月,我就為撰寫那篇談論NLP的特別報道采訪過Primer科學總監(jiān)約翰·博漢農。上周,我又通過Zoom對他進行了采訪。博漢農告訴我,自從我們第一次談話以來,這項技術一直在加速發(fā)展。
他將NLP領域正在發(fā)生的事情描述為“一場工業(yè)革命”。現在,將多個NLP工具組合在一起成為可能——就像機械工程師將鍋爐、飛輪、傳送帶和壓力機結合起來一樣——從而創(chuàng)造出一些能夠在實際業(yè)務中從事實際工作的系統。建立這些系統變得越來越容易。“過去需要幾個月,現在只需要一周時間。”他說。
博漢農給了我提前進入Primer Labs的訪問權,讓我用自己選擇的文本進行試驗。
第一個工具:問答
上傳任何文檔,然后你就可以用自然語言提問,提示系統在文本中找到答案。系統還會提示一些你可能想問的問題。
·對于一篇關于民主黨總統候選人喬·拜登選擇賀錦麗作為副總統人選的新聞簡報,這款軟件在回答一系列問題時表現得非常出色。
·然而,當我上傳制藥巨頭默沙東公司在2012年提交給美國證券交易委員會的一份長達159頁,約10萬字的文件時,這款軟件的表現卻差強人意,缺乏連貫性。我問它默沙東公司2011年的銷售額是多少,它給出了正確的答案:480億美元。但當我問它該公司的營業(yè)利潤是多少時,我收到的信息是,軟件“在回答這個特定問題時遇到了困難。” 對于該公司奉行什么樣的收入確認政策這一問題,我收到了一個不準確但很搞笑的回答:“非公認會計原則每股收益是公司的收入確認政策。”
下一個Primer工具:“實體識別”
它的任務是識別文檔中所有專有名稱,并弄清楚文本中哪些代詞指的是哪些人或哪些組織。對人類來說,這項任務相對簡單,盡管有時候非常耗時。但它向來都讓計算機望而卻步。這個例子表明,NLP革命現在幫助軟件掌握了新技能。在Primer 發(fā)布的基準測試中,其系統的表現優(yōu)于谷歌和Facebook開發(fā)的類似軟件。
·為了給Primer軟件出難題,我特意上傳了一篇談論19世紀法國作家喬治·桑和維克多·雨果的文章。需要指出的是,喬治·桑其實是一位女作家的筆名,盡管它聽起來很像男性的名字(她的原名是阿曼蒂娜-露西-奧蘿爾·杜班)。我的如意算盤是,系統可能會發(fā)蒙,無法判斷代詞“他”究竟指的是桑,還是雨果。但令我驚訝的是,其表現完美無缺,它明白這段話中的每一個“他 ”都是指雨果,而“她 ”指的是桑。
Primer Labs工具執(zhí)行的最后一項,或許也是最困難的任務:總結
對人類來說,準確地總結長文也是很困難的。而衡量一段摘要的有用程度往往是一件非常主觀的事情。但Primer想出了一個聰明的辦法——根據BERT自動判斷摘要的質量。BERT是谷歌創(chuàng)建并免費提供的一個非常龐大的語言模型,以“屏蔽語言模型”著稱,因為它的訓練包括學習如何正確猜出文本中隱藏的單詞。Primer開發(fā)的BLANC系統通過評估BERT在摘要填空游戲中的表現有多好來評判摘要。BERT做得越好,摘要的質量就越高。借助于BLANC系統,Primer能夠訓練出一個可以生成非常流暢的摘要的總結工具。
·我給Primer的總結工具上傳了一篇我為《財富》雜志8 / 9月刊撰寫的專題報道,內容是阿斯利康制藥如何在追尋新冠病毒疫苗的過程中,成功地走在了制藥巨頭的前列。這款軟件在總結這篇長文方面的出色表現給我留下了深刻印象。它抓住了阿斯利康制藥成功轉型的關鍵點,以及新冠疫苗的極端重要性。
·但這個系統還遠遠不夠完美。該工具的另一個部分試圖將文本精簡為幾個要點,而不是整個段落。在這里,它輸出的結果非常奇怪地偏離了文本要旨:這款軟件專注于文章開頭提及的一則軼事所包含的事實信息(盡管這些信息無關主旨,并不重要),但忽略了文章正文中包含的關鍵點。
·出于搞笑的目的,我給系統輸入了T.S. ·艾略特的經典作品《J. ·阿爾弗瑞德·普魯弗洛克的情歌》。博漢農事先警告我說,這款軟件很難總結創(chuàng)意文字,尤其是詩歌,而結果也確實不夠理想。除了對“房間里的女人們來往穿梭,談論著米開朗基羅”這行詩歌理解到位之外,系統并不確定到底發(fā)生了什么。很多高中生大概都能感同身受。但沒有一個英語老師會給Primer的成績打高分。(有趣的是,GPT-3在寫詩方面表現得還不錯。但這并不意味著它能真正理解自己在寫什么。)
話又說回來,詩歌可能不是最迫切需要Primer產品施以援手的商業(yè)領域。總結是一個巨大的潛在市場。1995年,對一位負責追蹤某個國家動態(tài)的美國情報分析師每天的閱讀量要求只有2萬字(大約相當于《紐約客》雜志的兩篇長文)。到2016年,同一位分析師的每日閱讀量估計要達到20萬字——超過了看書最快的讀者在24小時內的閱讀極限。這種現象也在影響著金融和法律領域的分析師。而對于那些試圖跟上爆炸式增長的學術論文的科學界人士來說,這同樣是一個大問題。(事實上,為了幫助廣大公眾應對疫情,Primer專門創(chuàng)建了一個網站來總結每天發(fā)布的關于新冠病毒的新論文。)
因此,NLP革命來得正是時候。能夠簡縮、總結,以及從文本中提取信息的自動化工具正變得越來越重要。如今的NLP技術還不夠完美,但它已經足夠好,完全有能力在廣泛的領域一展身手。(財富中文網)
譯者:任文科
今年1月,我為《財富》雜志撰寫了一篇特別報道,縱論方興未艾的自然語言處理(NLP)革命。這些人工智能系統不僅可以操縱語言,而且在一定程度上還能夠“理解”語言。
語言處理正在進入一個黃金時代,曾經不可能完成的任務越來越觸手可及。這些新系統已經開始改變企業(yè)的運作方式,并且有望在未來幾年以一種更為戲劇化的方式實現這一轉變。
今年夏天出現了一些令人震驚的例證,充分彰顯了這些方法所能取得的成就。人們討論最多的是研究機構OpenAI開發(fā)的GPT-3系統。它可以從人類書寫的一兩行文字提示中生成條理清楚的長篇大論。在許多情況下,系統生成的內容與人類書寫的文本沒有什么區(qū)別。
目前,GPT-3仍然只是一種派對把戲。例如,它很難控制系統生成的內容是否符合事實,是否過濾掉它可能從龐大的訓練集(其中不僅包括莎士比亞的所有作品,還包括像Reddit這樣的人類美德庫)中獲取的種族主義或歧視女性想法。但一些公司已經開始圍繞它開發(fā)真正的產品。比如,一家公司正在創(chuàng)建的系統能夠從幾個要點中生成完整的電子郵件;一家法律技術公司正在試驗GPT-3,看它能否在訴訟發(fā)現和合規(guī)方面有所幫助。
舊金山另一家人工智能公司Primer開發(fā)了一款文檔分析軟件。多家美國情報機構都是它的客戶。8月18日,該公司發(fā)布了一個名為Primer Labs的網站,意在展示它在過去一年中創(chuàng)建的三個NLP系統,并允許任何人上傳任何文本來使用這項技術。
早在去年12月,我就為撰寫那篇談論NLP的特別報道采訪過Primer科學總監(jiān)約翰·博漢農。上周,我又通過Zoom對他進行了采訪。博漢農告訴我,自從我們第一次談話以來,這項技術一直在加速發(fā)展。
他將NLP領域正在發(fā)生的事情描述為“一場工業(yè)革命”。現在,將多個NLP工具組合在一起成為可能——就像機械工程師將鍋爐、飛輪、傳送帶和壓力機結合起來一樣——從而創(chuàng)造出一些能夠在實際業(yè)務中從事實際工作的系統。建立這些系統變得越來越容易。“過去需要幾個月,現在只需要一周時間。”他說。
博漢農給了我提前進入Primer Labs的訪問權,讓我用自己選擇的文本進行試驗。
第一個工具:問答
上傳任何文檔,然后你就可以用自然語言提問,提示系統在文本中找到答案。系統還會提示一些你可能想問的問題。
·對于一篇關于民主黨總統候選人喬·拜登選擇賀錦麗作為副總統人選的新聞簡報,這款軟件在回答一系列問題時表現得非常出色。
·然而,當我上傳制藥巨頭默沙東公司在2012年提交給美國證券交易委員會的一份長達159頁,約10萬字的文件時,這款軟件的表現卻差強人意,缺乏連貫性。我問它默沙東公司2011年的銷售額是多少,它給出了正確的答案:480億美元。但當我問它該公司的營業(yè)利潤是多少時,我收到的信息是,軟件“在回答這個特定問題時遇到了困難。” 對于該公司奉行什么樣的收入確認政策這一問題,我收到了一個不準確但很搞笑的回答:“非公認會計原則每股收益是公司的收入確認政策。”
下一個Primer工具:“實體識別”
它的任務是識別文檔中所有專有名稱,并弄清楚文本中哪些代詞指的是哪些人或哪些組織。對人類來說,這項任務相對簡單,盡管有時候非常耗時。但它向來都讓計算機望而卻步。這個例子表明,NLP革命現在幫助軟件掌握了新技能。在Primer 發(fā)布的基準測試中,其系統的表現優(yōu)于谷歌和Facebook開發(fā)的類似軟件。
·為了給Primer軟件出難題,我特意上傳了一篇談論19世紀法國作家喬治·桑和維克多·雨果的文章。需要指出的是,喬治·桑其實是一位女作家的筆名,盡管它聽起來很像男性的名字(她的原名是阿曼蒂娜-露西-奧蘿爾·杜班)。我的如意算盤是,系統可能會發(fā)蒙,無法判斷代詞“他”究竟指的是桑,還是雨果。但令我驚訝的是,其表現完美無缺,它明白這段話中的每一個“他 ”都是指雨果,而“她 ”指的是桑。
Primer Labs工具執(zhí)行的最后一項,或許也是最困難的任務:總結
對人類來說,準確地總結長文也是很困難的。而衡量一段摘要的有用程度往往是一件非常主觀的事情。但Primer想出了一個聰明的辦法——根據BERT自動判斷摘要的質量。BERT是谷歌創(chuàng)建并免費提供的一個非常龐大的語言模型,以“屏蔽語言模型”著稱,因為它的訓練包括學習如何正確猜出文本中隱藏的單詞。Primer開發(fā)的BLANC系統通過評估BERT在摘要填空游戲中的表現有多好來評判摘要。BERT做得越好,摘要的質量就越高。借助于BLANC系統,Primer能夠訓練出一個可以生成非常流暢的摘要的總結工具。
·我給Primer的總結工具上傳了一篇我為《財富》雜志8 / 9月刊撰寫的專題報道,內容是阿斯利康制藥如何在追尋新冠病毒疫苗的過程中,成功地走在了制藥巨頭的前列。這款軟件在總結這篇長文方面的出色表現給我留下了深刻印象。它抓住了阿斯利康制藥成功轉型的關鍵點,以及新冠疫苗的極端重要性。
·但這個系統還遠遠不夠完美。該工具的另一個部分試圖將文本精簡為幾個要點,而不是整個段落。在這里,它輸出的結果非常奇怪地偏離了文本要旨:這款軟件專注于文章開頭提及的一則軼事所包含的事實信息(盡管這些信息無關主旨,并不重要),但忽略了文章正文中包含的關鍵點。
·出于搞笑的目的,我給系統輸入了T.S. ·艾略特的經典作品《J. ·阿爾弗瑞德·普魯弗洛克的情歌》。博漢農事先警告我說,這款軟件很難總結創(chuàng)意文字,尤其是詩歌,而結果也確實不夠理想。除了對“房間里的女人們來往穿梭,談論著米開朗基羅”這行詩歌理解到位之外,系統并不確定到底發(fā)生了什么。很多高中生大概都能感同身受。但沒有一個英語老師會給Primer的成績打高分。(有趣的是,GPT-3在寫詩方面表現得還不錯。但這并不意味著它能真正理解自己在寫什么。)
話又說回來,詩歌可能不是最迫切需要Primer產品施以援手的商業(yè)領域。總結是一個巨大的潛在市場。1995年,對一位負責追蹤某個國家動態(tài)的美國情報分析師每天的閱讀量要求只有2萬字(大約相當于《紐約客》雜志的兩篇長文)。到2016年,同一位分析師的每日閱讀量估計要達到20萬字——超過了看書最快的讀者在24小時內的閱讀極限。這種現象也在影響著金融和法律領域的分析師。而對于那些試圖跟上爆炸式增長的學術論文的科學界人士來說,這同樣是一個大問題。(事實上,為了幫助廣大公眾應對疫情,Primer專門創(chuàng)建了一個網站來總結每天發(fā)布的關于新冠病毒的新論文。)
因此,NLP革命來得正是時候。能夠簡縮、總結,以及從文本中提取信息的自動化工具正變得越來越重要。如今的NLP技術還不夠完美,但它已經足夠好,完全有能力在廣泛的領域一展身手。(財富中文網)
譯者:任文科
Back in January, I wrote a big story for Fortune about the ongoing revolution in natural language processing. These are A.I. systems that can manipulate and, to some degree, “understand” language.
Language processing is now entering a kind of golden age, in which once impossible tasks are increasingly within reach. These new systems are already starting to transform how businesses operate—and they stand poised to do so in a much bigger way in the coming years.
This summer has seen some startling examples of what these methods can accomplish. The most discussed breakthrough has been OpenAI's GPT-3, which can generate long passages of coherent prose from a human-written prompt of just a line or two. In many cases, what the system generates is indistinguishable from human-written text.
GPT-3 is, for the moment, still something of a party trick—it is difficult to control, for instance, whether what the system generates is factually accurate, or to filter out racist or misogynistic ideas that it might have picked up from its large training set (which included not only the complete works of Shakespeare, but such repositories of human virtue as Reddit). But some companies are starting to build real products around it: One is creating a system that will generate complete emails from just a few bullet points. And a legal technology firm is experimenting with GPT-3 to see if it can aid in litigation discovery and compliance.
Another San Francisco A.I. company, Primer, creates software that helps analyze documents. It counts a number of U.S. intelligence agencies among its customers. It unveils a website on August 18, Primer Labs, that showcases three NLP systems it built in the past year and allows anyone to upload any text to play around with the tech.
I had interviewed John Bohannon, Primer’s Director of Science, back in December for that feature about NLP. Last week, I caught up with him again by Zoom. Bohannon told me things have only accelerated since we first talked.
He describes what is happening in NLP as “an industrial revolution,” where it is now becoming possible to string together multiple NLP tools—much the same way a mechanical engineer might combine boilers, flywheels, conveyor belts and presses—to create systems that can do real work in real businesses. And building these systems is getting easier and easier. “What used to take months,” he says, “now takes a week.”
Bohannon gave me early access to Primer Labs to let me experiment on texts of my own choosing.
The first tool: question-answering.
Upload any document and you can then ask questions in natural language to prompt the system to find an answer in the text. The system also suggests questions that you might want to ask.
·The software was fantastic at answering a series of questions about a simple news story on Joe Biden’s selection of Kamala Harris as his veep pick.
·However, when I uploaded a 2012 Securities and Exchange Commission filing from the pharmaceutical giant Merck that runs to 159 pages and about 100,000 words, its performance was hit-and-miss. When I asked it what Merck's sales were in 2011, it returned the correct answer: $48 billion. But when I asked it what the company’s operating profit was, I received a message that the software “was having trouble answering that particular question.” And when I asked it what the company’s revenue recognition policies were, I received the inaccurate but hilarious reply that “non-GAAP EPS is the company's revenue recognition policies.”
The next Primer tool: “named entity recognition.”
This is the task of identifying all the proper names in a document and figuring out which pronouns in the text refer to which people or which organizations. This task is relatively easy—if time-consuming—for humans, but it's historically stumped computers. It is a good example of a skill that is now within software’s grasp thanks to the NLP revolution. In benchmark tests Primer has published, its system has outperformed similar software created by Google and Facebook.
·I tried to stump Primer’s software by giving it a passage about the 19th-century French authors George Sand and Victor Hugo. I was hoping that the fact Sand is the male nom de plume of a female writer (her real name was Amantine Lucile Aurore Dupin) would confuse the system when it had to decide whether the pronoun “he” belonged to Sand or Hugo. But, to my surprise, the system performed flawlessly, understanding that every “he” in the passage referred to Hugo while “she” referred to Sands.
The final and perhaps most difficult task Primer Labs’ tools perform: summarization.
Accurately summarizing long documents is difficult for humans too. And gauging how useful a summary is can be highly subjective. But Primer came up with a clever way to automatically judge summary quality based on BERT, a very large language model that Google created and has made freely available. BERT is what is known as a “masked language model,” because its training consists of learning how to correctly guess what a hidden word in a text is. Primer's BLANC judges summaries by assessing how much better BERT performs in this fill-in-the-blank game after having accessed the summary. The better BERT does, the better the summary. Thanks to BLANC, Primer was able to train a summarization tool that can generate pretty fluent summaries.
·I fed Primer’s summarization tool a feature story I wrote for Fortune’s August/September double-issue about how AstraZeneca has managed to leap ahead of its Big Pharma rivals in the quest for a COVID-19 vaccine. I was impressed at how well the software did in abstracting the lengthy article. It captured key points about AstraZeneca’s corporate turnaround as well as the importance of a COVID-19 vaccine.
·But the system is still far from perfect. Another part of the tool tries to reduce the text to just a handful of key bullet points instead of whole paragraphs. Here the results were strangely off-base: The software fixated on factual information from an anecdote at the beginning of the article that was not essential, and yet missed crucial points contained further down in the body of the piece.
·For a laugh, I fed the system T.S. Eliot’s “The Love Song of J. Alfred Prufrock.” Bohannon had warned me that the software would struggle to summarize more creative writing, particularly poetry, and the results were not pretty. Other than the fact that “the women come and go, speaking of Michelangelo,” the system wasn’t really sure what was happening. A lot of high school students could probably sympathize. But no English teacher would give Primer’s results high marks. (Interestingly, GPT-3 isn't half bad at writing?poetry. But that doesn't mean it has any real understanding of what it's writing.)
Then again, poetry is probably not the most pressing business case for Primer’s products. Summarization is a huge potential market. In 1995, the average daily reading requirement of a U.S. intelligence analyst assigned to follow the events in one country was just 20,000 words (or about the equivalent of two New Yorker longreads). By 2016, the same analyst’s daily reading load was estimated at 200,000 words—more than the most capable speed reader could possibly skim in 24 hours. This phenomenon is affecting analysts in finance and law too, and is a huge issue for people in the sciences trying to keep up with the explosion in published research. (In fact, to help out during the pandemic, Primer has created a site that summarizes each day’s new research papers on COVID-19.)
So the NLP revolution has arrived not a moment too soon. Automated tools that help condense and summarize and extract information from written text are becoming more and more essential. Today’s NLP isn’t perfect—but it is getting good enough to make a difference.