當新冠疫情來襲時,塞巴斯蒂安·馬丁正在Lyft公司擔任博士后研究員。突然之間,使用Lyft應用程序的乘客與司機的數量發生了重大的變化,公司也試圖迅速因應。
Lyft過去一直使用一種算法來匹配司機與乘客,因此公司以為或許將這個算法稍做調整便可以變成有效的新冠疫情方案。然而事與愿違,這項工作比預料的困難許多。“它證明了這套系統的局限性。”如今是凱洛格學院運營學助理教授的馬丁說道。
馬丁解釋,主要問題在于簡單的算法,例如將距離最近的司機指派給乘客,事實上效果不是那么好。
于是馬丁開始思考如何能夠改善這種匹配算法,甚至在共乘服務從新冠疫情中復蘇之后。如果算法可以教自己更好地調度司機然后做出實時調整會怎樣呢?
馬丁和一個Lyft團隊實現了這樣的假設。他們用了一年多的時間創造出了一個能夠進行“強化學習”的算法,這在科技公司簡直就是永生,馬丁表示。而設計這個算法雖然困難,但要說服公司上下去試用一樣很難。
畢竟,強化學習會要你“讓出一大部分的掌控權。”馬丁說。“一臺可以做決定而不告訴你的機器?試想如果它做的決定關乎你賴以維生的工作呢?”
然而結果是值得的:Lyft公司開始賺更多的錢,司機有了更多的工作,乘客給出了更多的五星評價。此外,他們的項目被提名為2023年弗蘭茲·厄德曼獎(Franz Edelman Award)的六名決賽者之一,這是分析與運營研究領域里最負盛名的獎項。如果你在過去一兩年內用過Lyft,那么這個算法就幫助過你匹配給某個司機,而你的出行數據反過來又幫助改進算法。
在對自學習算法越來越憂懼的氛圍下(想想ChatGPT),Lyft的故事顯示在這些工具中,有些確實能夠改善每一個人的生活,馬丁表示。
“它不總是零和游戲”,輸與贏不是處于此消彼長的狀態。他說道。“乘客更滿意,司機更忙碌,平臺賺錢更多。基本上是百利而無一害。”
為什么最近的并不總是最好的
對大多數人而言,尤其是下雨天站在街頭等候共乘的我們來說,派出距離最近的司機似乎是最符合邏輯的做法。但實際上卻不總是如此。
當生意繁忙而司機人手不足時,問題就出現了,馬丁解釋道。在這種情況下,離乘客最近的司機或許還相當遠。要是派遣這名司機,他就要花很多時間“開空車”,讓乘客苦苦等候,說不定司機還在途中,乘客就已經取消叫車。還有很關鍵的一點是這意味著試圖叫車的新乘客會需要等候更長的時間,因為有空的司機正在花很多時間試圖開車到下一個乘客那里,因此有空載客的司機越來越少。
“它像是平臺的死亡螺旋。”馬丁說道。
因此,理想的解決方案會是一個可以預測接下來幾分鐘情況如何演變的匹配算法。會有一個新的、更近的乘客出現嗎?某條堵車的道路會變的通暢而縮短開車時間嗎?如果司機去接載某個乘客,下車地點的附近是否會有另一個乘客,使得轉換到下一個乘客的效率更高嗎?
總之,這個算法要能夠預測接下來會發生什么事情。馬丁和Lyft的團隊成功地教算法去做這樣的工作。
他們著重于在任何時間有空的司機的“價值”,這個價值是司機工作當天收入的估計值。然后,他們訓練算法不間斷地分析實時情況,以便算法訓練自己預期接下來最可能發生什么事情。
這類似于會下棋的強化學習算法,馬丁說道。下棋算法接受數百萬個實際棋局的訓練,然后便可以用那些知識來預測對手的下一步走法。
該團隊通過建立實驗時段和對照時段來測試他們的算法。在實驗時段,Lyft用強化學習算法來匹配司機與乘客,在對照時段,則用Lyft的一般算法進行匹配。
在經過一年多的調整改進后,他們找到了一個在所有重要功能上都勝過舊算法的新算法。它一年為公司多增加相當于超過3,000萬美元的收益,司機的收入也相應提高。乘客取消叫車的可能性減少了3%,叫車后沒有司機能夠接單的情況減少了13%。同時,乘客的五星評價數量也變多。
馬丁說:“使用Lyft的人沒有增加。這些改善是由于司機獲得了更好的運用。”
超越數學
他們的成功是共乘公司使用強化學習的第一個記載案例。不過,設計算法不是唯一的困難點。
“比數學更重要的,是如何在公司內做這件事情。”馬丁表示。
強化學習意味著涉及其中的人未必對事情的現況一清二楚。對一家公司而言,這變得有些棘手,馬丁說道。比如,假設負責定價的團隊想要進行自己的實驗,那么他們就希望將所有其他因素保持不變以便了解實驗數據。但如果與此同時,一個匹配算法自行改變,要知道如何解讀定價實驗的數據就變得很困難。
“它讓其他許多情況變得錯綜復雜。”馬丁說道。
此外,它使研發該算法的團隊難以了解如何繼續創新。“如果人們對正在發生的事情一無所知,他們如何能夠繼續創新?”馬丁問道。馬丁目前和一名博士生黃玉笛(音譯)合作,后者正在與Lyft合力研究這個問題。
此外,在Lyft,這個算法的研發花費了一年多的時間。“一年對科技公司是很長的時間,兩個月就已經很長了!在一件效期不長的事情上花一年時間是非常少見的。”他說道。
最終,該團隊保持士氣,終于說服公司的其余部門讓他們繼續實驗。他說,這不涉及高科技策略。“用的是任何地方都適用的相同方式,也就是去找合適的人商量,取得人家的信任。組織一個興致高昂的團隊,然后證明東西有效。在研究領域里,通常認為構想本身就已足夠,但對公司而言,真正可以帶來成果的是過程。”
事實是,至少在這個案例上,過程帶來“三贏”的情況,馬丁對此特別興奮。
每一次團隊測試修改后的算法時,他們會看著儀表板上各項重要指標的顏色變化,紅色代表實驗結果比現況糟,綠色代表比現況好。
“團隊找到致勝算法的那一天,儀表板上出現了一整片綠色。”他說,“這就是運營優化真正要做到的事情:找出全綠的東西。”(財富中文網)