立即登入 / 成为会员

开始我的学习计划!
20

滥发邮件篇

自有互联网的那一天起,便有滥发电邮的出现。滥发电邮的成本极低,因此它的增长速度极快,2011年有统计指出全球滥发电邮数字达7,000,000,000,000封,占全部电邮的85%。跟据Nucleus Research Inc. 2007年的统计数字,美国因为处理滥发电邮而损失的生产力就相等于七十一亿美元。有赖发展出可靠的过滤系统,我们才不至于会被滥发电邮淹没。

过滤电邮主要有两种途径,一种是经电脑技术的途径检测,另一种方法则是建立一个过滤电邮的统计模型*。前者在这就里不多说了,后者是先搜集大量的普通电邮和滥发电邮,通过「文本挖掘」的方法,找出两者的特点,例如总结出某些字汇及符号的出现频率、符号与字汇的比例、句子的长短、大小楷(如英文)等,之后按照这些特点建立出一个模型,例如「钱」这个字出现频率到某个水平便提高其电邮属滥发的可能性(机率)。判断一封电邮是否滥发电邮就是通过这个模型的计分,看其可能性(机率)是否高于设定的标准。
*数学模型是用以描述实际的现象,例如物理上有牛顿定律描述作用力、质量与加速度的关系。但是,有些过程无法用理论分析方法导出其模型,但可通过收集数据,并经过统计分析求得各变量之间的关系,最有效化地模拟现实的一些情况,称为统计模型。
我明白了! 开始了解公式