2022年10月10日 星期一

【閱讀小筆記】統計相關性

最近閱讀《暴力犯罪的大腦檔案》一書,作者論述到「海鮮消耗量與謀殺率」關係時,以世界多國的統計數字來加以評證。



大體上,我傾向於相信該命題有其有效性。但看到書上所畫的圖表……總覺得怪怪的︰作者所用的「Fitting Curve」究竟是哪一種?

好奇心作祟。於是我把書上的數據,花點時間,自己用 excel 重新畫一遍。沒錯,書上的 Fitting Curve,完全無法用傳統的模型重現出來。

再仔細調整一下。發現利用傳統的幾種迴歸分析的 fitting,R-square 數值都很糟糕,大多只有 0.3 ~ 0.4,最高是「對數」模型的 0.5。代表原始數據的相關性很低。

假如,我再把統計上常常使用的作法,將最極端的離群數(也就是最少與最大海鮮消耗的保加利亞、日本兩國)刪掉之後,無論怎麼套,根本找不出任何的相關性。


---
即使我願意相信「海鮮吃愈多的社會愈和平」,但統計學,並不支持我的信仰呀!

沒有留言:

張貼留言