立即登入 / 成為會員

開始我的學習計劃!
20

濫發郵件篇

自有互聯網的那一天起,便有濫發電郵的出現。濫發電郵的成本極低,因此它的增長速度極快,2011年有統計指出全球濫發電郵數字達7,000,000,000,000封,佔全部電郵的85%。跟據Nucleus Research Inc. 2007年的統計數字,美國因為處理濫發電郵而損失的生產力就相等於七十一億美元。有賴發展出可靠的過濾系統,我們才不至於會被濫發電郵淹沒。

過濾電郵主要有兩種途徑,一種是經電腦技術的途徑檢測,另一種方法則是建立一個過濾電郵的統計模型*。前者在這就裡不多說了,後者是先搜集大量的普通電郵和濫發電郵,通過「文本挖掘」的方法,找出兩者的特點,例如總結出某些字彙及符號的出現頻率、符號與字彙的比例、句子的長短、大小楷(如英文)等,之後按照這些特點建立出一個模型,例如「錢」這個字出現頻率到某個水平便提高其電郵屬濫發的可能性(機率)。判斷一封電郵是否濫發電郵就是通過這個模型的計分,看其可能性(機率)是否高於設定的標準。
*數學模型是用以描述實際的現象,例如物理上有牛頓定律描述作用力、質量與加速度的關係。但是,有些過程無法用理論分析方法導出其模型,但可通過收集數據,並經過統計分析求得各變量之間的關係,最有效化地模擬現實的一些情況,稱為統計模型。
我明白了! 開始了解公式