統計教室 - 澳門特別行政區政府統計暨普查局

過濾電郵主要有兩種途徑，一種是經電腦技術的途徑檢測，另一種方法則是建立一個過濾電郵的統計模型*。前者在這就裡不多說了，後者是先搜集大量的普通電郵和濫發電郵，通過「文本挖掘」的方法，找出兩者的特點，例如總結出某些字彙及符號的出現頻率、符號與字彙的比例、句子的長短、大小楷（如英文）等，之後按照這些特點建立出一個模型，例如「錢」這個字出現頻率到某個水平便提高其電郵屬濫發的可能性(機率)。判斷一封電郵是否濫發電郵就是通過這個模型的計分，看其可能性(機率)是否高於設定的標準。
*數學模型是用以描述實際的現象，例如物理上有牛頓定律描述作用力、質量與加速度的關係。但是，有些過程無法用理論分析方法導出其模型，但可通過收集數據，並經過統計分析求得各變量之間的關係，最有效化地模擬現實的一些情況，稱為統計模型。

立即登入 / 成為會員

濫發郵件篇