類別不平衡

今天想要跟大家分享的主題是”類別不平衡”問題，這個是實務上在導入人工智慧時，非常常見的問題，那麼什麼是”類別不平衡”呢？

假設我們想要根據過去的天氣資料，來預測台北明天溫度是否會超過38度，也就是說，我們將明天的溫度分成大於38度以及小於38度兩類。

然而，根據歷年來所有統計的資料來看，台北超過38度的日子其實是非常少也相當罕見的，此時，兩個類別的資料數量差距會非常大，這就是我們所謂的”類別不平衡”，或者換句話說，當某類的類別是相對於其他類別來得罕見許多。

如果我們貿然的直接將類別不平衡的資料集拿去給人工智慧做學習，那麼很有可能會讓AI學到”只會預測明天天氣低於38度”這樣的結果，表面上他好像每天的溫度預測非常的準確，但實際上他喪失了預測異常溫度的情況！這並不是我們想要的結果。

一般來說，我們會期望不同類別之間的資料量差不多，但如果真的遇到了類別不平衡，除了花更多時間以及資源去蒐集更多罕見類別資料外，也有人會利用一些方法自己去大量製造少數類別的資料，來讓類別與類別之間更加的平衡！

當然，我個人認為如果”成本”以及”時間”允許的話，持續蒐集少量類別的資料才是最好的方法，畢竟如果是自己製造出的少數類別資料，很有可能會無法充份反應真實資料的情況。