Techniques rédactionnelles et filtrage anti-spam

Le fléau du spam et les contre-offensives de la lutte anti-spam ont provoqué depuis la fin 2002 un nouveau phénomène très sensible aux Etats-Unis et qui devrait le devenir rapidement en France. Il s’agit du phénomène des faux positifs. Un faux positif est un message légitime qui est considéré comme un message de spam et bloqué à tort par une solution de filtrage anti-spam. L’apparition d’un faux positif sur le domaine d’un grand fournisseur d’accès ou service de webmail peut provoquer l’absence de diffusion auprès d’une part non négligeable des abonnés d’une newsletter. En outre, le faux positif peut parfois faire passer l’expéditeur pour un spammeur, faire rentrer l’adresse de son serveur d’expédition sur des black listes et menacer ensuite la délivérabilité de ses prochains envois.

Les techniques de filtrage basées sur le contenu du message
La lutte anti-spam utilise simultanément de nombreuses techniques. Dans le domaine de la rédaction d’un e-mail, ce sont les techniques basées sur l’analyse du contenu de l’e-mail qu’il faut prendre en compte. En simplifiant, on peut distinguer principalement deux techniques de filtrage basées sur les contenus des messages.

La première technique est celle du "honey pot" ou "pot de miel" qui est notamment utilisée par la solution anti-spam Brightmail qui équipe de nombreux fournisseurs d’accès. Elle consiste a créer un très grand nombre d’adresses e-mail placées sur le réseau et qui servent de pièges à spam. Tous les messages reçus sur ces boîtes sont censés être du spam et enregistrés en tant que tels. Les serveurs de messagerie utilisateurs de la solution vont ensuite comparer les messages reçus à la signature des messages identifiés comme spams.

La deuxième technique est basée sur une analyse du texte du message. Elle consiste à attribuer à un message un score traduisant sa probabilité d’être du spam. Ce score ne prend pas en compte que le texte du message, mais également les informations techniques qui figurent dans l’en-tête (header). Ce score est établi à partir d’une analyse des caractéristiques habituelles des messages de spam. C’est le type de solution utilisé par le logiciel Spam Assassin dont l’utilisation est très répandue. Dans ce cadre, le gestionnaire de serveur ou l’utilisateur peut affiner le réglage stipulant à partir de quel score un message doit être considéré comme du spam et donc filtré.

L’adaptation des techniques rédactionnelles
L’adaptation des techniques rédactionnelles pour éviter les faux positifs consiste à éviter d’utiliser abondamment les termes ou tournures qui sont habituellement rencontrés dans les messages de spam. L’utilisation de ces mots est à surveiller aussi bien pour le corps du message que pour son objet.

On peut ainsi éviter d’utiliser des mots ou caractères fréquemment utilisés par les spammeurs, comme par exemple le mot gratuit, des symboles monétaires ou des points d’exclamation. La présence de ce type de mots ou caractères augmente encore le "spam score" si ils sont répétés et en majuscules. Des mentions de type "cliquez ici" peuvent également impacter le score lorsqu’elles sont trop répétées ou en majuscules, alors qu’évidemment, elles permettent par ailleurs d’augmenter le taux de clic. Bien sur, les mots de produits qui font souvent l’objet de spam sont également des mots augmentant le spam-score. Un mot comme "Viagra" est probablement un des mots augmentant le plus un "spam score".

Pour l’instant, l’adaptation des techniques rédactionnelles concerne surtout les messages en anglais, car c’est dans cette langue que sont réalisés la plupart des spams identifiés. On peut cependant penser que les messages en français seront à l’avenir de plus en plus concernés. En dehors de certains mots "évidents", il est difficile d’avoir à l’esprit les mots ou formules à risque dans un contexte ou les modes d’établissement du score de probabilité évoluent en permanence face à des spammeurs qui savent généralement très vite s’adapter.

Pour tenir compte de ce phénomène, certaines solutions de diffusion américaines ont intégré des modules qui permettent de s’assurer qu’un message ne court pas trop le risque par son contenu d’être considéré comme un message de spam. Le message est analysé pour mesurer sa "proximité" avec un message de spam ou "spam score". Ce contrôle peut se faire à l’aide d’un outil propre à la solution de diffusion ou de façon plus pertinente en utilisant l’algorithme d’analyse d’un service anti-spam. Plus le score est élevé lors du contrôle, plus il y a de chances que le message soit pris pour un spam au niveau de certains serveurs de messagerie.

Une interface d'établissement d'un "spam score" de contrôle

Même si cela ne concerne normalement pas les émetteurs qui respectent le principe de l’opt-in, il est intéressant de signaler que certains spammeurs créent des messages qui comprennent à la fin une suite de lettres ou numéros incompréhensible qui change pour chaque message. Cela leur sert à faire varier aléatoirement l’empreinte ou signature de leur message pour lui éviter d"être reconnu comme un message déjà identifié comme spam dans les bases de connaissances des éditeurs de filtres.

Les techniques de filtrage anti-spam sont un élément qui doit de plus en plus être pris en compte dans le cadre des campagnes e-mail. L’adaptation des techniques rédactionnelles est un des domaines de prise en compte à coté de facteurs plus techniques évoqués dans la partie dédiée à la gestion des campagnes.

Techniques rédactionnelles et filtrage anti-spam (25 novembre 2003)