情境
我有一大堆人工輸入的地址清單,可是「XX區」大家經常懶得寫,那我要如何找出「XX區」到底是哪一區呢?
現況
假設要被推論的地址是"台北市羅斯福路5566號",已知訊息如下:
- 該地址新開了一間85度C咖啡店
- 羅斯福路只出現在大安區、文山區
與中正區 - 大安區地址數量:文山區地址數量=5:1
- 由[原本地址清單 & 85度C官方網站店鋪清單(註*)]兩份表關聯對比得知,地址為大安區時有85度C的機率為 0.000003,地址為文山區時有85度C的機率為 0.000019
註:為什麼不直接從85度C官方網站店鋪清單查詢遺失的「XX區」?有可能這家店是新開的(如假設 0.),官網資料還沒 update。
解法
根據貝式定理(Bayes’ theorem)
P(該地址在大安區)/P(該地址在文山區)
= (P(大安區地址)/P(文山區地址))×(P(85度C|大安區地址)/P(85度C|文山區地址))
= 5×(0.000003/0.000019)
= 0.7895 倍
結果 < 1,故推論該地址在文山區。
使用貝式定理的差別在哪裡?
在此案例中,如果只看地址清單,會推論地址在大安區,因為大安區出現在地址清單中的頻率較高。但由於新增了外部證據,因此推論結果發生改變。
疑問
Q: 如果那個有問題的地址,剛好不是85度C呢?
A: 那就看看有沒有小七、全家、OK等等之類的(先別急著罵我講幹話)。貝式推論本來就是一個「找證據來說話」的過程,因此手上有不同證據,就會得到不同結論,故也有人說「貝式推論本身就帶有偏見」。
此文章為應用數學假設性探討,以上數據皆為亂掰。如有雷同,純屬巧合。