首頁(yè)>資訊 >
Netflix是如何做決策的?(五):樹(shù)立對(duì)決策的信心 2021-12-11 09:03:45  來(lái)源:36氪

神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按:決策是行動(dòng)的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無(wú)數(shù)的決策。決策的好壞會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對(duì)不同方案進(jìn)行測(cè)試,根據(jù)對(duì)比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測(cè)試做出決策的系列文章。本文來(lái)自編譯,是系列文章的第五篇。后續(xù)文章還將介紹實(shí)驗(yàn)在 Netflix 中的作用、Netflix對(duì)基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展的,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。

圖片來(lái)源:Adobe

劃重點(diǎn):

合適的推理需要完整的報(bào)告與透明。

p 值或統(tǒng)計(jì)顯著性并不能衡量效果的大小或結(jié)果的重要性。

科學(xué)結(jié)論與商業(yè)或政策決策不應(yīng)該光看 p 值是不是超過(guò)特定閾值。

Netflix 是如何做決策的?(一):介紹

Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?

Netflix是如何做決策的?(三):誤報(bào)與統(tǒng)計(jì)顯著性

Netflix是如何做決策的?(四):漏報(bào)與功效

在第 3 部分(誤報(bào)與統(tǒng)計(jì)顯著性)與第 4 部分(漏報(bào)與功效)里,我們討論了支撐 A/B 測(cè)試的核心統(tǒng)計(jì)概念:誤報(bào)、統(tǒng)計(jì)顯著性與 p 值,以及漏報(bào)和功效。在本文中,我們將討論困難的部分:在復(fù)雜的業(yè)務(wù)環(huán)境下,怎么運(yùn)用測(cè)試結(jié)果來(lái)支撐決策?

關(guān)于 A/B 測(cè)試,我們需要面對(duì)一個(gè)令人不快的現(xiàn)實(shí),那就是任何測(cè)試結(jié)果都未必潛在真相的反映。就像我們?cè)谥暗奈恼吕锩嬗懻摰哪菢?,好的做法包括先要設(shè)置并理解誤報(bào)率,然后再設(shè)計(jì)出好的實(shí)驗(yàn),從而有可能檢測(cè)出合理且有意義的真實(shí)影響。這些統(tǒng)計(jì)學(xué)上的概念可以幫助減少并理解錯(cuò)誤率,并在面對(duì)不確定性的時(shí)候做出正確決定。但特定實(shí)驗(yàn)的結(jié)果是誤報(bào)還是漏報(bào)我們?nèi)詿o(wú)法知道。

圖 1:心存懷疑雖是一種不愉快的體驗(yàn),但至少不像深信不疑那般荒唐——伏爾泰。

在用 A/B 測(cè)試來(lái)改進(jìn) Netflix 會(huì)員的體驗(yàn)時(shí),我們發(fā)現(xiàn)有一點(diǎn)至關(guān)重要,那就是不要只關(guān)注數(shù)字(包括 p 值在內(nèi)),還要用有力和合理的判斷來(lái)解釋結(jié)果,二者結(jié)合來(lái)確定是否存在令人信服的證據(jù),能夠說(shuō)明新體驗(yàn)對(duì)于會(huì)員來(lái)說(shuō)是好的。這些考慮因素跟美國(guó)統(tǒng)計(jì)協(xié)會(huì)在 2016 年的時(shí)候發(fā)表的關(guān)于統(tǒng)計(jì)顯著性與 P 值的聲明一致,以下三條直接引用(粗體)對(duì)我們的實(shí)驗(yàn)很有幫助。

合適的推理需要完整的報(bào)告與透明。” 就像我們?cè)诘?3 篇(誤報(bào)與統(tǒng)計(jì)顯著性)所說(shuō)那樣:,按照慣例,我們的實(shí)驗(yàn)將誤報(bào)率設(shè)為 5%。在實(shí)踐上,如果我們進(jìn)行 20 次實(shí)驗(yàn)(比如評(píng)估 20 種顏色的果凍豆是不是都跟粉刺有關(guān))的話,預(yù)計(jì)至少會(huì)得到一個(gè)顯著結(jié)果——即便事實(shí)上每個(gè)實(shí)驗(yàn)的零假設(shè)均為真,并沒(méi)有產(chǎn)生實(shí)際效果。這就是多重比較問(wèn)題了,有很多方法可以控制整體的誤報(bào)率,但我們不會(huì)在這里介紹。不過(guò),最重要的是不僅要報(bào)告和跟蹤產(chǎn)生了顯著結(jié)果的測(cè)試結(jié)果,還要報(bào)告和跟蹤那些沒(méi)有產(chǎn)生顯著結(jié)果的測(cè)試結(jié)果。

圖 2:關(guān)于誤報(bào),你需要了解的一切都在這兒了。

p 值或統(tǒng)計(jì)顯著性并不能衡量效果的大小或結(jié)果的重要性。” 在第 4 篇(漏報(bào)與功效)中,我們討論了實(shí)驗(yàn)設(shè)計(jì)階段做好設(shè)計(jì)的重要性,這樣才能讓A/B 測(cè)試有很高概率能檢測(cè)出合理的、有意義的指標(biāo)變化。在解釋結(jié)果的時(shí)候也要有相關(guān)考慮。即便結(jié)果具有統(tǒng)計(jì)顯著性(p 值 < 0.05),估計(jì)的指標(biāo)變動(dòng)也可能很小,以至于對(duì) Netflix 會(huì)員的體驗(yàn)無(wú)關(guān)緊要,我們最好把精力放在其他領(lǐng)域的創(chuàng)新上?;蛘?,擴(kuò)展新功能的成本相對(duì)于收益而言也許過(guò)高,反不如不推出這項(xiàng)功能,而是把資金投資到改善其他領(lǐng)域的產(chǎn)品體驗(yàn)上,從而更好地為會(huì)員服務(wù)。

科學(xué)結(jié)論與商業(yè)或政策決策不應(yīng)該光看 p 值是不是超過(guò)特定閾值。” 本文的其余部分將深入介紹我們的決策實(shí)踐,重點(diǎn)會(huì)介紹我們是怎么通過(guò) A/B 測(cè)試全面評(píng)估證據(jù)的。

用數(shù)據(jù)為效果說(shuō)話

在為了支撐決策而評(píng)估證據(jù)時(shí),有一種比較實(shí)用方法,那就是想象自己是新產(chǎn)品體驗(yàn)的辯護(hù)律師,為它收集理由:看有沒(méi)有有足夠的證據(jù)得出結(jié)論說(shuō),除了那 5% 的合理懷疑之外,新產(chǎn)品體驗(yàn)產(chǎn)生了對(duì)會(huì)員有益的真正效果。為了幫助大號(hào)這樁案子,在解釋測(cè)試結(jié)果時(shí)我們會(huì)向自己提出這樣一些的問(wèn)題:

結(jié)果跟假設(shè)是否一致?如果假設(shè)跟優(yōu)化后端基礎(chǔ)設(shè)施的計(jì)算資源有關(guān),結(jié)果顯示用戶滿意度在統(tǒng)計(jì)上有了顯著提高的話,我們會(huì)持懷疑態(tài)度。結(jié)果有可能是誤報(bào)——或者更有可能是實(shí)驗(yàn)執(zhí)行中出現(xiàn)錯(cuò)誤或bug的結(jié)果(Twyman 定律,任何看起來(lái)有趣或與眾不同的數(shù)據(jù)通常都是錯(cuò)誤的)。有時(shí)候結(jié)果雖然令人驚訝但卻是對(duì)的,不過(guò)更有可能要么是實(shí)驗(yàn)執(zhí)行錯(cuò)誤的結(jié)果,要么是誤報(bào),這會(huì)促使我們深入去挖掘數(shù)據(jù),找出根本原因。

指標(biāo)的故事是不是連貫一致?在第 2 篇(什么是 A/B 測(cè)試?)中,我們介紹了因果機(jī)制,說(shuō)到了通過(guò)這種機(jī)制,對(duì)產(chǎn)品所做的更改會(huì)影響到此次測(cè)試指定的次要指標(biāo)與主要決策指標(biāo),并且介紹了這種機(jī)制的重要性。在評(píng)估測(cè)試結(jié)果時(shí),重要的是要看這些次要指標(biāo)的變化情況。一般來(lái)說(shuō),這些次要指標(biāo)往往跟特定實(shí)驗(yàn)相關(guān),從而可以評(píng)估主要指標(biāo)的變化是否遵循了假設(shè)的因果鏈。比方說(shuō),通過(guò)十大榜的實(shí)驗(yàn),我們想看看把十大榜放進(jìn)來(lái)能不能提高作品級(jí)別的參與度,以及會(huì)員是不是會(huì)在主頁(yè)找到的觀看內(nèi)容會(huì)比在其他地方找到的多。用戶對(duì)十大榜的參與度增加,來(lái)自主頁(yè)的播放增加,這些會(huì)幫助我們?cè)鰪?qiáng)信心,即十大榜實(shí)際上是提高了會(huì)員的整體滿意度的。相比之下,如果十大榜治療組主要會(huì)員的滿意度指標(biāo)上升,但對(duì)這些次要指標(biāo)的分析顯示,十大榜所包含的作品的參與度沒(méi)有增加的話,我們就會(huì)持懷疑態(tài)度。也許十大榜對(duì)于會(huì)員來(lái)說(shuō)并不是個(gè)很好的體驗(yàn),它的存在導(dǎo)致更多會(huì)員離開(kāi)主頁(yè),增加了對(duì)Netflix 搜索的使用——結(jié)果神奇的是,整體滿意度還是提高了(也許是因?yàn)樗阉黧w驗(yàn)較好)?;蛘哌@也可能是一次誤報(bào)。不管是哪種情況,次要指標(biāo)的變化都會(huì)引發(fā)質(zhì)疑,以至于盡管主要決策指標(biāo)發(fā)生了變化,但我們沒(méi)法很自信地得出結(jié)論,認(rèn)為所做處理激活了假設(shè)的因果機(jī)制。

那有沒(méi)有有額外的支持或反駁證據(jù),比方說(shuō)某種體驗(yàn)的類似派生存在一致的模式?在一項(xiàng)實(shí)驗(yàn)中測(cè)試一個(gè)想法的多個(gè)變種其實(shí)很常見(jiàn)。比方說(shuō),對(duì)于 Top 10 體驗(yàn),我們可能會(huì)測(cè)試多種設(shè)計(jì)變體以及多種Top 10 榜中主頁(yè)的擺放位置。如果Netflix 會(huì)員覺(jué)得十大榜體驗(yàn)很棒的話,我們預(yù)期在這些不同的變體當(dāng)中,其主要和次要指標(biāo)都能看到類似的收益。有的設(shè)計(jì)可能更好一些,但如果不同變體均產(chǎn)生廣泛一致的結(jié)果的話,就有助于說(shuō)明十大榜體驗(yàn)是有用的。反過(guò)來(lái),如果我們測(cè)試了 20 個(gè)設(shè)計(jì)和擺放變體,其中只有一個(gè)的主要決策指標(biāo)中發(fā)生重大變化的話,我們會(huì)更加懷疑十大榜的有效性。畢竟,在誤報(bào)率為5%的情況下,我們預(yù)計(jì)平均而言智慧得到一個(gè)顯著的隨機(jī)結(jié)果。

結(jié)果是否可重復(fù)?到頭來(lái),要想對(duì)結(jié)果樹(shù)立信心,最可靠的辦法是看看結(jié)果在后續(xù)的測(cè)試?yán)锩媸遣皇强梢灾貜?fù)。如果一開(kāi)始的 A/B 測(cè)試的結(jié)果具有啟發(fā)性但不是決定性的話,我們一般還會(huì)繼續(xù)測(cè)試,根據(jù)第一次測(cè)試學(xué)到的結(jié)果對(duì)假設(shè)進(jìn)行改進(jìn)。比方說(shuō),通過(guò)十大榜測(cè)試,我們可能會(huì)觀察到部分設(shè)計(jì)以及放置選擇往往會(huì)帶來(lái)好的指標(biāo)變化,其中部分具備了統(tǒng)計(jì)的顯著性。然后,我們會(huì)改進(jìn)這些最有希望的設(shè)計(jì)和放置方案變體,然后開(kāi)始新的測(cè)試。如果上一次測(cè)試的體驗(yàn)比較少的話,我們還可以擴(kuò)大規(guī)模,從而提高功效。還有一個(gè)策略,在產(chǎn)品變化很大的時(shí)候比較有用,那就是把勝出的治療體驗(yàn)逐步推廣到全部用戶或會(huì)員,從而確認(rèn)在 A/B 測(cè)試中看到的好處是真的,并確保沒(méi)有產(chǎn)生意外的有害影響。在這種情況下,我們不是一下子向所有用戶推出新體驗(yàn),而是慢慢增加獲得新體驗(yàn)的成員的比例,并觀察與仍然接受舊體驗(yàn)的會(huì)員之間的差異。

與決策理論的關(guān)聯(lián)

在實(shí)踐上,每個(gè)人都有不同的框架,可以用來(lái)解釋測(cè)試結(jié)果,做出決定。除了數(shù)據(jù)之外,每個(gè)人都會(huì)基于之前做過(guò)的類似的A/B測(cè)試,把自己的先驗(yàn)信息帶進(jìn)來(lái),以及他們對(duì)決策的潛在收益和后果的評(píng)估所制定的損失或效用函數(shù)帶來(lái)進(jìn)。使用決策理論(包括貝葉斯決策理論),有多種方法可以將這些人類這些評(píng)估風(fēng)險(xiǎn)和收益的判斷形式化。這些方法涉及到對(duì)做出正確或錯(cuò)誤決策的效用做出正式評(píng)估(比方說(shuō),測(cè)算推出未能改善會(huì)員體驗(yàn)的代碼變更的代價(jià))。如果在實(shí)驗(yàn)結(jié)束時(shí),我們還可以估算出每個(gè)處理組犯每一種類型錯(cuò)誤的概率的話,就可以做出讓會(huì)員的預(yù)期效用最大化的決策。

決策理論是吧統(tǒng)計(jì)結(jié)果與決策結(jié)合起來(lái),所以是基于 p 值的決策方法的一個(gè)很吸引人的替代方法。不過(guò),由于特定效用函數(shù)的細(xì)微差別,決策理論方法可能難以廣泛應(yīng)用到實(shí)驗(yàn)當(dāng)中。雖然不完美,但我們?cè)诒鞠盗形恼滤榻B的頻率論假設(shè)檢驗(yàn)方法(重點(diǎn)是 p 值與統(tǒng)計(jì)顯著性),卻是一個(gè)廣泛易用的框架,可以用來(lái)解釋測(cè)試結(jié)果。

解釋 A/B 測(cè)試結(jié)果還有一個(gè)挑戰(zhàn),那就是對(duì)多個(gè)指標(biāo)(主要決策指標(biāo)和次要指標(biāo))的變動(dòng)做出合理解釋。關(guān)鍵挑戰(zhàn)之一是指標(biāo)本身往往不是獨(dú)立的(也就是指標(biāo)通??赡軙?huì)朝同一方向或相反方向變動(dòng))。統(tǒng)計(jì)推理和決策理論一些更先進(jìn)的概念也適用這里,而Netflix也在致力于研究給這個(gè)多維度指標(biāo)的解釋問(wèn)題帶來(lái)更多的定量方法。我們的做法是用貝葉斯推理把有關(guān)歷史指標(biāo)變動(dòng)的分析信息納入到分析里面,敬請(qǐng)關(guān)注!

最后,值得注意的是,不同類型的實(shí)驗(yàn)在決策過(guò)程中都要不同程度地引入人工判斷。比方說(shuō),Netflix 采用了一種 A/B 測(cè)試形式來(lái)確保將新版軟件安全地部署到生產(chǎn)環(huán)境。在面向所有會(huì)員發(fā)布新版本之前,我們會(huì)先做一個(gè)一個(gè)小型的 A/B 測(cè)試,讓部分會(huì)員接收舊版代碼,部分會(huì)員接收新版,確保錯(cuò)誤或意外后果不會(huì)降低會(huì)員體驗(yàn)或基礎(chǔ)設(shè)施的性能。對(duì)于這個(gè)用例而言,我們的目標(biāo)是自動(dòng)化整個(gè)部署過(guò)程,并運(yùn)用遺憾最小化以及基于測(cè)試的決策等框架。通過(guò)自動(dòng)部署新版,或者標(biāo)記降低的指標(biāo)給開(kāi)發(fā)者,從而節(jié)省了開(kāi)發(fā)人員的時(shí)間。

總結(jié)

本文描述了如何為產(chǎn)品創(chuàng)新尋找支撐理由的辦法,那就是仔細(xì)分析實(shí)驗(yàn)數(shù)據(jù),同時(shí)也指出了不同類型的測(cè)試需要引入不同級(jí)別的人工輸入到?jīng)Q策過(guò)程之中。

在不確定的情況下做出決策(包括根據(jù) A/B 測(cè)試的結(jié)果采取行動(dòng))是很困難的,而且我們?cè)诒鞠盗形恼吕锩嫠枋龅墓ぞ吆茈y得到正確應(yīng)用。但是這些工具(包括 p 值)已經(jīng)受住了時(shí)間的考驗(yàn),就像美國(guó)統(tǒng)計(jì)協(xié)會(huì)主席在 2021 年關(guān)于統(tǒng)計(jì)顯著性與可重復(fù)性的工作組聲明中所強(qiáng)調(diào)的那樣:“p 值與顯著性檢驗(yàn)的運(yùn)用,若是得到正確應(yīng)用和解釋的話,是不應(yīng)該放棄的重要工具。. . . [它們] 增加了從數(shù)據(jù)得出結(jié)論的嚴(yán)謹(jǐn)性?!?/p>

公開(kāi)分享關(guān)鍵產(chǎn)品的測(cè)試結(jié)果,并對(duì)此進(jìn)行辯論,這種概念在 Netflix 的實(shí)驗(yàn)文化里面已經(jīng)根深蒂固,我們會(huì)在本系列文章的最后一篇中加以討論。不過(guò)在下一篇文章中,我們將討論 Netflix 不同的實(shí)驗(yàn)領(lǐng)域,以及聚焦實(shí)驗(yàn)的不同角色。

譯者:boxi。

關(guān)鍵詞: 如何做 信心 Netflix

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片