今之能者,謂能轉貼,至於魯蛇,皆能轉貼。不原創,何以別乎?

用 Bayesian 推論出地址遺失值

情境

我有一大堆人工輸入的地址清單,可是「XX區」大家經常懶得寫,那我要如何找出「XX區」到底是哪一區呢?

現況

假設要被推論的地址是"台北市羅斯福路5566號",已知訊息如下:

  1. 該地址新開了一間85度C咖啡店
  2. 羅斯福路只出現在大安區、文山區與中正區
  3. 大安區地址數量:文山區地址數量=5:1
  4. 由[原本地址清單 & 85度C官方網站店鋪清單(註*)]兩份表關聯對比得知,地址為大安區時有85度C的機率為 0.000003,地址為文山區時有85度C的機率為 0.000019
    註:為什麼不直接從85度C官方網站店鋪清單查詢遺失的「XX區」?有可能這家店是新開的(如假設 0.),官網資料還沒 update。

解法

根據貝式定理(Bayes’ theorem)

P(該地址在大安區)/P(該地址在文山區)
= (P(大安區地址)/P(文山區地址))×(P(85度C|大安區地址)/P(85度C|文山區地址))
= 5×(0.000003/0.000019)
= 0.7895 倍

結果 < 1,故推論該地址在文山區。

使用貝式定理的差別在哪裡?

在此案例中,如果只看地址清單,會推論地址在大安區,因為大安區出現在地址清單中的頻率較高。但由於新增了外部證據,因此推論結果發生改變。

疑問

Q: 如果那個有問題的地址,剛好不是85度C呢?
A: 那就看看有沒有小七、全家、OK等等之類的(先別急著罵我講幹話)。貝式推論本來就是一個「找證據來說話」的過程,因此手上有不同證據,就會得到不同結論,故也有人說「貝式推論本身就帶有偏見」。


此文章為應用數學假設性探討,以上數據皆為亂掰。如有雷同,純屬巧合。

同事怎麼還不commit🤬別生氣!你們可能踩到 SVN 的大小寫地雷

  1. 1. 情境
  2. 2. 現況
  3. 3. 解法
  4. 4. 使用貝式定理的差別在哪裡?
  5. 5. 疑問