Entre imediatamente / Inscreva-se como membro

Início do meu plano de aprendizagem!
20

Spam

Desde o dia em que surgiu a internet, que apareceram comunicações electrónicas não solicitadas. O custo destas comunicações é muito reduzido, por isso crescem a uma velocidade vertiginosa. Em 2011 havia 7.000.000.000.000 comunicações electrónicas não solicitadas, que representaram 85% do tráfego de correio electrónico a nível mundial. A Nucleus Research Inc. divulgou que, de acordo com as estatísticas referentes a 2007, os Estados Unidos da América perderam uma produtividade equivalente a 7,1 mil milhões de dólares, devido ao tratamento das comunicações electrónicas não solicitadas. Não ficamos submersos por este tipo de correspondência, graças ao desenvolvimento de sistemas de filtragem confiáveis.

Os dois principais meios de filtrar correios electrónicos são: um deles é através da tecnologia informática e o outro é através do modelo estatístico* de filtragem de correspondências electrónicas. Não vamos desenvolver o primeiro meio mas sim o segundo. Neste recolhe-se em primeiro lugar um grande número de correios electrónicos normais e de comunicações não solicitadas, para se pesquisar as suas características através da “mineração de texto”. Por exemplo, a frequência de determinadas palavras e símbolos, a proporção entre os símbolos e as palavras, o comprimento de frases, as letras maiúsculas e minúsculas, etc. Em seguida, estabelece-se um modelo segundo essas características. Por exemplo se a frequência da palavra “dinheiro” atingir um determinado nível, aumenta a probabilidade da comunicação electrónica não ser solicitada. Para averiguar se a correspondência electrónica é publicidade não desejada, basta fazer a contagem das características deste modelo e comparar a probabilidade desta correspondência em relação ao padrão estabelecido.

*Os modelos matemáticos usam-se para descrever fenómenos reais, por exemplo, na física a lei de Newton descreve o relacionamento entre a força, a massa e a aceleração. No entanto, há alguns processos em que não se pode utilizar o método de análise teórica para obter os modelos dos processos, mas pode-se utilizar o modelo estatístico, isto é, recolhem-se dados, analisam-se estatisticamente e determina-se o relacionamento entre as variáveis, para se simular com eficácia algumas situações do mundo real.
Eu compreendo! Começo a compreender as fórmulas