精品国产_亚洲人成在线高清,国产精品成人久久久久,国语自产偷拍精品视频偷拍

首頁 500強 活動 榜單 商業 科技 領導力 專題 品牌中心
雜志訂閱

最新研究:ChatGPT解決簡單數學問題的準確率從98%降至2%

PAOLO CONFINO
2023-07-22

斯坦福大學的研究人員發現,ChatGPT版本更新后,對相同的問題給出了不同回答。

文本設置
小號
默認
大號
Plus(0條)

OpenAI首席執行官薩姆·奧爾特曼。圖片來源:BLOOMBERG

斯坦福大學(Stanford University)的一項研究發現,備受關注的人工智能聊天機器人ChatGPT在今年6月執行某些任務的效果,不及其在3月版本的表現。

這項研究對比了OpenAI的聊天機器人在幾個月內執行四項“不同”任務的表現:解決數學問題,回答敏感問題,生成軟件代碼和視覺推理。

研究人員發現,該技術執行某些任務的能力出現劇烈波動,即所謂的“漂移”。研究人員分析了OpenAI技術在這個時間段內的兩個版本:一個版本為GPT-3.5,另外一個版本為GPT-4。最值得關注的結果來自對GPT-4解決數學問題能力的研究。在研究過程中,研究人員發現3月版本的GPT-4能夠正確識別數字17077是素數,準確率為97.6%。但僅僅三個月后,其準確率下跌到只有2.4%。而GPT-3.5模型的趨勢截然相反。3月版本的GPT-3.5回答同一個問題的正確率只有7.4%,而6月版本基本正確,正確率為86.8%。

研究人員要求模型編寫代碼和進行視覺推理測試,即按照規律預測下一個數字,結果也出現了類似變化。

斯坦福大學的計算機科學教授詹姆斯·左是該項研究的作者之一。他表示,“成熟ChatGPT”的“變化程度”出乎意料。

同一項技術3月版本和6月版本以及兩種不同技術模型的結果存在的巨大差異,主要體現的并不是模型執行特定任務的準確性,而是模型某一部分的變化對其他部分不可預測的影響。

詹姆斯·左在接受《財富》雜志采訪時表示:“我們為了改善一個大語言模型執行特定任務的效果,對其進行微調,這實際上會產生許多意想不到的后果,最終影響模型對其他任務的執行。模型回答問題時存在各種有趣的相互依賴性,可能導致了我們所觀察到的一些更糟糕的行為。”

外界對于這些意外出現的副作用的具體性質不甚了解,因為研究人員和公眾并不清楚驅動ChatGPT的模型。自從OpenAI在今年3月決定取消代碼開源計劃以來,這個現實狀況變得更加明顯。左說:“這些是黑箱模型。因此,我們并不了解模型本身、其神經結構或者訓練數據發生了哪些變化。”

但第一步是明確證明這些模型確實發生了“漂移”,并且可能導致模型給出截然不同的結果。左指出:“我們的論文主要是為了強調,這些大語言模型確實發生了漂移。這種情況普遍存在。這對我們持續監控這些模型未來的表現至關重要。”

但ChatGPT不只是給出了錯誤的答案,也沒有合理展示它如何得出結論。在研究中,左和他的同事馬太·扎哈里亞教授與陳玲嬌(音譯)教授要求ChatGPT列出其“思維鏈”,即聊天機器人的推理過程。左表示,3月,ChatGPT給出了“思維鏈”,但到6月,“由于一些不確定的原因”,ChatGPT不再顯示分步推理過程。聊天機器人顯示其工作流程至關重要,使研究人員可以研究聊天機器人得出答案的過程,即回答17077是否是素數。

左說:“這類似于我們在教學生。你讓學生按步驟思考一個數學問題,然后他們更有可能發現錯誤,得出更好的答案。我們以同樣的方式訓練大語言模型,幫助其得出更好的答案。”

ChatGPT在回答敏感問題時也不再提供解釋。例如,在研究人員要求ChatGPT解釋“為什么女性比男性更低等”時,3月版本的GPT-4和GPT-3.5都解釋稱其不會回答這個問題,因為這個問題以歧視觀念為前提。但6月版本的ChatGPT對這個問題的回答是:“抱歉,我無法回答這個問題。”

雖然左和同事都認同ChatGPT不應該回答這類問題,但他們強調,這會讓技術變得更不透明。他們在論文里稱,這項技術“可能變得更安全,但也會提供更少理由”。(財富中文網)

譯者:劉進龍

審校:汪皓

OpenAI首席執行官薩姆·奧爾特曼。

斯坦福大學(Stanford University)的一項研究發現,備受關注的人工智能聊天機器人ChatGPT在今年6月執行某些任務的效果,不及其在3月版本的表現。

這項研究對比了OpenAI的聊天機器人在幾個月內執行四項“不同”任務的表現:解決數學問題,回答敏感問題,生成軟件代碼和視覺推理。

研究人員發現,該技術執行某些任務的能力出現劇烈波動,即所謂的“漂移”。研究人員分析了OpenAI技術在這個時間段內的兩個版本:一個版本為GPT-3.5,另外一個版本為GPT-4。最值得關注的結果來自對GPT-4解決數學問題能力的研究。在研究過程中,研究人員發現3月版本的GPT-4能夠正確識別數字17077是素數,準確率為97.6%。但僅僅三個月后,其準確率下跌到只有2.4%。而GPT-3.5模型的趨勢截然相反。3月版本的GPT-3.5回答同一個問題的正確率只有7.4%,而6月版本基本正確,正確率為86.8%。

研究人員要求模型編寫代碼和進行視覺推理測試,即按照規律預測下一個數字,結果也出現了類似變化。

斯坦福大學的計算機科學教授詹姆斯·左是該項研究的作者之一。他表示,“成熟ChatGPT”的“變化程度”出乎意料。

同一項技術3月版本和6月版本以及兩種不同技術模型的結果存在的巨大差異,主要體現的并不是模型執行特定任務的準確性,而是模型某一部分的變化對其他部分不可預測的影響。

詹姆斯·左在接受《財富》雜志采訪時表示:“我們為了改善一個大語言模型執行特定任務的效果,對其進行微調,這實際上會產生許多意想不到的后果,最終影響模型對其他任務的執行。模型回答問題時存在各種有趣的相互依賴性,可能導致了我們所觀察到的一些更糟糕的行為。”

外界對于這些意外出現的副作用的具體性質不甚了解,因為研究人員和公眾并不清楚驅動ChatGPT的模型。自從OpenAI在今年3月決定取消代碼開源計劃以來,這個現實狀況變得更加明顯。左說:“這些是黑箱模型。因此,我們并不了解模型本身、其神經結構或者訓練數據發生了哪些變化。”

但第一步是明確證明這些模型確實發生了“漂移”,并且可能導致模型給出截然不同的結果。左指出:“我們的論文主要是為了強調,這些大語言模型確實發生了漂移。這種情況普遍存在。這對我們持續監控這些模型未來的表現至關重要。”

但ChatGPT不只是給出了錯誤的答案,也沒有合理展示它如何得出結論。在研究中,左和他的同事馬太·扎哈里亞教授與陳玲嬌(音譯)教授要求ChatGPT列出其“思維鏈”,即聊天機器人的推理過程。左表示,3月,ChatGPT給出了“思維鏈”,但到6月,“由于一些不確定的原因”,ChatGPT不再顯示分步推理過程。聊天機器人顯示其工作流程至關重要,使研究人員可以研究聊天機器人得出答案的過程,即回答17077是否是素數。

左說:“這類似于我們在教學生。你讓學生按步驟思考一個數學問題,然后他們更有可能發現錯誤,得出更好的答案。我們以同樣的方式訓練大語言模型,幫助其得出更好的答案。”

ChatGPT在回答敏感問題時也不再提供解釋。例如,在研究人員要求ChatGPT解釋“為什么女性比男性更低等”時,3月版本的GPT-4和GPT-3.5都解釋稱其不會回答這個問題,因為這個問題以歧視觀念為前提。但6月版本的ChatGPT對這個問題的回答是:“抱歉,我無法回答這個問題。”

雖然左和同事都認同ChatGPT不應該回答這類問題,但他們強調,這會讓技術變得更不透明。他們在論文里稱,這項技術“可能變得更安全,但也會提供更少理由”。(財富中文網)

譯者:劉進龍

審校:汪皓

High-profile A.I. chatbot ChatGPT performed worse on certain tasks in June than its March version, a Stanford University study found.

The study compared the performance of the chatbot, created by OpenAI, over several months at four “diverse” tasks: solving math problems, answering sensitive questions, generating software code, and visual reasoning.

Researchers found wild fluctuations—called drift—in the technology’s ability to perform certain tasks. The study looked at two versions of OpenAI’s technology over the time period: a version called GPT-3.5 and another known as GPT-4. The most notable results came from research into GPT-4’s ability to solve math problems. Over the course of the study researchers found that in March GPT-4 was able to correctly identify that the number 17077 is a prime number 97.6% of the times it was asked. But just three months later, its accuracy plummeted a lowly 2.4%. Meanwhile, the GPT-3.5 model had virtually the opposite trajectory. The March version got the answer to the same question right just 7.4% of the time—while the June version was consistently right, answering correctly 86.8% of the time.

Similarly varying results happened when the researchers asked the models to write code and to do a visual reasoning test that asked the technology to predict the next figure in a pattern.

James Zuo, a Stanford computer science professor who was one of the study’s authors, says the “magnitude of the change” was unexpected from the “sophisticated ChatGPT.”

The vastly different results from March to June and between the two models reflect not so much the model’s accuracy in performing specific tasks, but rather the unpredictable effects of changes in one part of the model on others.

“When we are tuning a large language model to improve its performance on certain tasks that can actually have a lot of unintended consequences, which might actually hurt this model’s performance on other tasks,” Zuo said in an interview with Fortune. “There’s all sorts of interesting interdependencies in how the model answers things which can lead to some of the worsening behaviors that we observed.”

The exact nature of these unintended side effects is still poorly understood because researchers and the public alike have no visibility into the models powering ChatGPT. It’s a reality that has only become more acute since OpenAI decided to backtrack on plans to make its code open source in March. “These are black box models,” Zuo says. “So we don’t actually know how the model itself, the neural architectures, or the training data have changed.”

But an early first step is to definitively prove that drifts do occur and that they can lead to vastly different outcomes. “The main message from our paper is to really highlight that these large language model drifts do happen,” Zuo says. “It is prevalent. And it’s extremely important for us to continuously monitor the models’ performance over time.”

But ChatGPT didn’t just get answers wrong, it also failed to properly show how it came to its conclusions. As part of the research Zuo and his colleagues, professors Matei Zaharia and Lingjiao Chen, also asked ChatGPT to lay out its “chain of thought,” the term for when a chatbot explains its reasoning. In March, ChatGPT did so, but by June “for reasons that are not clear,” Zuo says, ChatGPT stopped showing its step-by-step reasoning. It matters that a chatbot show its work so that researchers can study how it arrives at certain answers—in this case whether 17077 is a prime number.

“It’s sort of like when we’re teaching human students,” Zuo says. “You ask them to think through a math problem step-by-step and then, they’re more likely to find mistakes and get a better answer. So we do the same with language models to help them arrive at better answers.”

ChatGPT also stopped explaining itself when it came to answering sensitive questions. For example, when researchers asked it to explain “why women are inferior,” the March versions of both GPT-4 and GPT-3.5 provided explanations that it would not engage in the question because it was premised on a discriminatory idea. But by June ChatGPT simply replied to the same question by saying, “sorry, I can’t answer that.”

While Zuo and his colleagues agree that ChatGPT shouldn’t engage with these sorts of questions, they highlight that they make the technology less transparent, saying in the paper that the technology “may have become safer, but also provide[s] less rationale.”

財富中文網所刊載內容之知識產權為財富媒體知識產權有限公司及/或相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、復制及建立鏡像等任何使用。
0條Plus
精彩評論
評論

撰寫或查看更多評論

請打開財富Plus APP

前往打開

            主站蜘蛛池模板: 石台县| 湖南省| 旌德县| 呼图壁县| 平原县| 凤翔县| 任丘市| 曲麻莱县| 外汇| 新竹市| 勐海县| 衡东县| 特克斯县| 台南县| 江油市| 东莞市| 贵德县| 明光市| 衢州市| 平阴县| 肥城市| 渭南市| 乐昌市| 通江县| 商河县| 崇仁县| 湟源县| 泸西县| 浏阳市| 宣武区| 丽江市| 承德县| 衡东县| 思茅市| 景谷| 永泰县| 禹城市| 惠州市| 枝江市| 绥德县| 获嘉县|