這本《數據、謊言與真相》,算是我首次接觸所謂的「數據學」的專書。由於近年媒體瘋狂炒作「大數據」這個主題,藉由這位在 Google 作資料分析的「數據科學家」所寫的介紹性的專書,讓我對這門科別有了初步的認識。
本書帶給我的知識,是「人一定會說謊」。當然這所謂的「說謊」不見得是什麼罪惡滔天的可怕犯行,而是任何人在與別人溝通交流時,都在有意(避免冒犯與造成困擾)與無意(錯誤地自我感覺良好)之間,不願給予真實的個人資訊。但在現代的網路成熟、以及智慧型手機普及之後,我們便可以藉由網路搜尋引擎(Google Search)這種私密性的介面,藉由廣大的數據,統計出過去未曾注意到的現象。
作者一開頭便提到美國近兩屆總統的選舉現象。當非裔美國人歐巴馬當選後,一般的社會學家總是樂觀地認定這個國家已經走出了「黑人歧視」的不名譽泥淖,走向種族和諧的康莊大道。但作者從網路搜尋卻發現,種族主義的陰影從來未曾因為「第一位民選黑人總統」的產生而消失。在關鍵字搜尋程度上,對黑人歧視的詞彙方面的比例,並不如傳統與一般民調所顯示的南北兩方、或海洋內陸之別(共和民主兩黨),而是呈現出某種特別的分佈型態——換句話說,宣稱支持民主黨的,擁有種族主義態度的人也與 GOP 差不了多少。而這種分佈型態,與後來川普在共和黨初選的比例有高度的相似性。這是本書作者最引以自豪的結果,所以他放在開篇的第一章加以闡述。
關於「大數據」,現代人大多都已有所接觸。除了搜尋引擎之外,SNS(臉書、推特)也是這種代表。但在社群上,跟在現實世界一樣,人們都不可能將自己真實的一面給呈放上來,因此便成了本書所說的「Everybody Lies」。但我並不認為這有什麼奇怪。畢竟,當大夥兒全都沈浸在重大慶典的狂樂之中,你竟然真實地表示自己失去愛犬的傷痛之情(或許還放張相片),這不就太不像話了嗎?因此關於 SNS 的數據研究,作者大部分將重心放在廠商該如何瞭解使用者「感興趣」的部分,並設計各種方式或技巧強化使用者的興趣。
此外,作者對於「性」的主題也多有著墨。除了在 Google Search 來證明人們總愛在「性愛次數」上頭的吹牛之外,作者還研究了色情網站(PornHub)上的關鍵字搜尋,來分析男同性戀的比例、性癖好的偏向等等。
---
不過,本書作者的書寫方式,我並不太喜歡︰不夠簡捷。可以譽之為旁徵博引;但也可以貶之為拖泥帶水、沒有重點。我個人認為,這樣的表述方式比較適合用在現場演講,吸引聽眾興趣;但若放在這種科普型的專書上——畢竟這本書不可能會讓人在一個小時內閱畢的——便會出現許多重點遺落的問題,因為許多作者的精華被他自己的插科打諢、主題跳躍給掩藏住了。
雖然作者自己很自豪於他的分析,並認為將來的社會科學家必定是「數據學家」。然而他自己也在後面幾章裡承認「關聯性」與「因果性」的區別問題。雖然他有提出所謂的「A/B 測試」,也就是藉由隨機分組設計的使用者行為測試,但這仍然比自然科學界的「可證偽(Falsification)」在嚴謹上差距太大了。
作者最後應該也曉得「大數據」的限制。因此當他描述到自己與前財政部長見面時,便承認他的大數據研究,無法打敗市場,預測股市走向。書中提及這是「維度的詛咒」。因為他們的數據太多,所以在完全隨機的情況之下,總會有某個變數「恰好」與曾經發生的事情完全「相關」。但這種「相關」,正如前一段所言,不一定是「因果」(或者說,「幾乎不可能」是因果關係)。冒然地將這種相關當因果,並以此來對未來作出推估預測,結果將非常危險。因此作者最後的收筆,只能謙卑地再回歸傳統,承認長久傳統以來所發展的各種分析方式,依然不可或缺,也就是新的「大數據」必須與各行各業菁精研發出來的傳統秘方(小數據)結合才行。
本書最後一章提到,大數據被濫用的道德問題——更明確地例子,也就是當一個人搜尋關鍵字「殺死穆斯林的方法」之後,警察是否可以衝到你家逮捕以預防犯罪。雖然這有點像是電影《關鍵報告》的科幻劇情,作者也提出許多看法。不過,這個世界的發展太快了。前不久(2018 年五月)歐盟已提出所謂的「GDPR」,也就是使用者的搜尋歷史資料,其他人不得再任意使用。換句話說,像作者這種由 Google Search 撈取特定關鍵字的交叉分析,未來幾年之後,可能愈來愈沒普遍代表意義了……
2018.6.16
沒有留言:
張貼留言