Service Liens : trois ans de lutte contre le spam

Avec des statistiques !

Pour ce cinquantième article de notre site, voici une présentation technique de notre service Liens, qui permet de raccourcir des URL.

Lancé en mai 2019, tout d’abord avec le logiciel Lstu écrit par Luc Didry, ce service utilise désormais une brique logicielle faite maison, nommée rs-short. Nous le comptons ainsi comme l’un des premiers services de l’association, avec notre service DoH.

En trois ans, ce service nous a demandé un travail de modération important, largement supérieur à celui des autres services : plus de deux heures de temps bénévole par mois était consacré à la lutte contre un usage illégal de ce service.

Dans cet article, nous vous proposons une analyse rétrospective de cette interminable lutte contre le hameçonnage.

🔗Statistiques d’utilisation

Statistiques publiques de notre service Liens

Consulter les statistiques d’utilisation complètes en date de mars 2022

Nous recevons chaque jour du trafic en provenance de 650 IPs différentes, pour un peu plus d’un Go de trafic mensuel. Nous restons donc à très petite échelle.

Notre service est utilisé pour créer 20 à 40 liens par jour en moyenne.

Sur ces 20 à 40 liens créés chaque jour, nous comptons entre 0 et 3 liens en moyenne qui diffusent du contenu illégal, et que nous nous devons de désactiver promptement. Cela n’inclut bien évidemment que les liens frauduleux que nous sommes parvenus à détecter.

La semaine du 28 mars au 3 avril 2022, nous avons recensé 204 liens créés, dont 3 liens frauduleux. Il arrive cependant que notre service subisse des vagues de trafic frauduleux, et qu’une personne malveillante crée une vingtaine de liens frauduleux en une seule journée.

Au total, à l’heure de la rédaction de cet article, 14 150 liens ont été créés avec notre service Liens, dont 937 liens que nous avons marqués comme frauduleux.

🔗Quel intérêt ?

Pour une personne malintentionnée qui souhaite diffuser du contenu malveillant sur Internet, quel est l’intérêt d’utiliser notre petit raccourcisseur de liens ?

🔗Procédés de filtrage

Certains filtres anti-spam, notamment chez les hébergeurs d’emails, utilisent un filtre bayésien pour estimer la probabilité qu’un email reçu soit illégitime.

D’autres méthodes peuvent être utilisées pour lutter contre le spam. Les réseaux sociaux comme Facebook ou Twitter procèdent à d’autres formes de censures automatisées, mais cette modération est généralement assez opaque : nous ne savons pas sous quels critères un message peut être considéré comme du spam.

Nous pouvons cependant supposer que la plupart de ces filtres analysent la réputation des liens postés, et en particulier des noms de domaine, et peuvent utiliser divers services tiers pour accomplir cet objectif, à commencer par la base de données Google Safe Browsing (GSB) qui est notamment utilisée par Firefox pour bloquer la navigation vers des liens suspects.

Alerte de Firefox signalant un site de hameçonnage

🔗Utiliser la réputation d’autres sites

Voilà en quoi cela impacte notre méchant pirate à capuche : lorsqu’il partage un lien vers une page malveillante, ses liens pourraient être détectés et bloqués rapidement, en particulier si notre pirate utilise un nom de domaine récemment acquis, qui n’aura au départ qu’une faible réputation.

Sa solution consisterait alors à utiliser des noms de domaine qui existent depuis plus longtemps, avec une réputation correcte. Et ça tombe bien, car c’est justement ce que permet un raccourcisseur de liens : le nom de domaine du raccourcisseur sert de porte d’entrée, et c’est sa réputation qui sera mise en jeu lors de la diffusion du lien, qui redirigera vers la page malveillante.

🔗Quelles conséquences ?

Lorsqu’un lien de hameçonnage est créé, il nous est nécessaire d’agir promptement : une fois le lien créé, notre pirate va diffuser son lien dans l’heure qui suit, parfois à des dizaines de milliers d’adresses mail, parfois à travers des comptes de messagerie ou de réseaux sociaux piratés. Il arrive souvent que cela entraîne un pic de trafic vers notre service.

Graphique représentant la création des liens malveillants ces deux dernières années

🔗Réputation du nom de domaine

La première conséquence que cela peut avoir, c’est que l’URL du raccourci s.42l.fr/monlien soit marqué comme frauduleux par des services comme Google Safe Browsing. Cela baisserait la réputation de notre nom de domaine, mais sans impact direct sur les autres internautes.

Il est déjà arrivé que notre nom de domaine dédié à ce service (s.42l.fr) soit marqué comme frauduleux, notamment par des services de filtrage de mails. Dans ces cas-là, il est plus difficile d’en sortir : cela affecte toutes les personnes qui utilisent notre raccourcisseur de liens. Cela pourrait également impacter le taux de réception de nos emails envoyés depuis notre serveur mail, car il partage la même IP.

Ce qui nous inquiète également, et qui nous motive tout particulièrement à modérer très activement ce service, c’est que la réputation du nom de domaine parent, 42l.fr, en soit impactée. Cela n’est a priori jamais encore arrivé, mais certains services d’analyse de réputation pourraient peut-être fonctionner de cette manière et cela impacterait alors tous nos services ; de même si notre adresse IP se retrouve signalée comme suspecte.

🔗Alertes

Nous avons dû faire affaire à Orange Cyberdéfense ou Netcraft à plusieurs reprises. Ces sociétés sont mandatées par de grandes entreprises comme Société Générale, Amazon ou Google et envoient des emails à l’adresse abuse@votrenomdedomaine.com (si vous disposez d’un nom de domaine, assurez-vous de toujours écouter cette adresse).

Lorsqu’une page de hameçonnage qui cible l’un de ses clients est utilisée avec notre raccourcisseur de liens, nous recevons un email nous demandant de supprimer le lien frauduleux le plus vite possible.

🔗Extinction de nos serveurs

Rapidement après le mail de ces entreprises sur notre adresse abuse@, nous pouvons recevoir un mail de notre hébergeur peu après :

Bonjour,

Nous avons reçu une plainte ce jour sur un de vos domaines.

Merci d’agir sous 24h pour retirer le contenu de votre site sans quoi nous serons dans l’obligation de suspendre votre service.

Ces sociétés ont sans doute utilisé l’email de contact prévu à cet effet dans le registre WHOIS. Il vaut mieux réagir rapidement dans ces cas-là.

🔗Quel genre de contenu illégal ?

Graphique en barres présentant les différents types de contenus frauduleux que nous avons rencontrés

Nous avons trié toutes les pages frauduleuses qui ont été saisies dans notre raccourcisseur d’URL en différentes catégories :

Scam messagerie : une page qui demande à la victime de se connecter pour consulter ses MMS, écouter sa boîte vocale, rejoindre un groupe de discussion ou consulter ses emails. Généralement très ciblée sur Orange.
Scam Jeux : propose à la victime de télécharger un crack de jeu ou un outil de triche. Cible souvent Roblox, parfois Fortnite ou Clash of Clans.
Scam GAFAM : demande à la victime de se connecter sur son compte en ligne chez un gros hébergeur. Cible très souvent Microsoft, parfois Google ou Netflix.
Scam colis : informe la victime que son colis a du retard, ou qu’il doit régler des frais de douane, et lui demande ses coordonnées bancaires.
Scam bancaire : demande à la victime de se connecter à son compte bancaire pour activer un mécanisme de sécurité comme « Certicode », ou de vérifier urgemment ses coordonnées bancaires. Cible généralement le Crédit Agricole, la Banque Populaire, la Banque Postale ou PayPal.
Porn : propose à la victime de discuter avec une fille de sa région… pas besoin d’entrer dans les détails. Nous n’avons aucune règle contre le contenu pornographique dans nos conditions d’utilisation, mais les liens qui ont été bloqués nous semblent être utilisés à des fins de spam.
Les contenus à caractère terroriste ou pédopornographique font bien entendu l’objet d’un blocage systématique dès lors que nous sommes informé·es de l’existence d’un tel contenu sur notre service. Heureusement, pour ma santé mentale, ils ne représentent que 0.6 % des liens malveillants enregistrés.

Pour une grande partie des liens de notre base de données, nous n’avons pas pu deviner leur catégorie. Nous avons fondé cette catégorisation sur le lien de destination (pour prendre deux exemples fictifs, webmailorange.weebly.com ou sites.google.com/banquepostale) ou parfois sur le nom donné au raccourci (consulter-mms-sfr…). Nous n’avons pas gardé d’autres traces nous permettant de catégoriser ces liens a posteriori.

🔗Où sont hébergées les pages frauduleuses ?

Graphique en barres présentant les différents types d’hébergement des contenus frauduleux que nous avons rencontrés

Nous avons tenté de deviner l’hébergement utilisé pour chaque page frauduleuse. Dans une bonne partie des cas, il est explicite (par exemple, si l’URL commence par sites.google.com ou contient wixsite.com ou bien yolasite.com, on sait que le site est hébergé chez Google Sites, Wix ou Yola). Dans d’autres cas, la page frauduleuse utilise son propre nom de domaine et nous n’avons pas plus d’informations concernant son hébergement.

Nous avons essayé de trier ces hébergements dans les catégories suivantes :

Adresse IP : l’URL saisie ne comporte pas de nom de domaine, et nous laisse donc pas deviner quel hébergeur est utilisé.
Bucket S3 : la personne malveillante a hébergé une page HTML ou une image PNG sur un service de stockage objet.
CDN : celui-là est intéressant : la personne malveillante a directement créé un lien vers une image officielle d’un site qu’elle souhaite imiter (ex.: PayPal). Elle utilise ensuite le lien raccourci dans son mail, ou sur une autre page HTML dans une balise <img>. Le navigateur de la victime effectuera la requête vers l’URL raccourcie, engageant ainsi la réputation du nom de domaine du raccourcisseur, et ce qui incrémentera le compteur de clics du raccourcisseur de liens et permettra au pirate de savoir si la victime a visité sa page ou non. L’usage de cette méthode semble toutefois limité.
Hébergeur d’images : le/la pirate a créé une image sur laquelle est écrite les informations destinées à piéger sa victime. Cette méthode est probablement utilisée pour éviter que le texte de l’image puisse être analysé par les serveurs email.
Hébergeur texte : la page est hébergée sur une plateforme de type Pastebin, ou d’autres plateformes qui permettent d’écrire du contenu sans pour autant laisser une liberté complète sur l’agencement de la page et le HTML/CSS (ex.: plateformes de blog…).
Hébergeur web : la page est hébergée chez un hébergeur web, généralement gratuit (Google Sites, Yola…) et utilise le nom de domaine de cet hébergeur (sites.google.com, sousdomaine.yolasite.com). Chez certains hébergeurs comme Yola ou Wix, il est possible que la page soit servie sous son propre sous-domaine.
Propre NDD : la personne malveillante semble avoir acheté son propre nom de domaine pour héberger sa page frauduleuse. Nous ne savons pas chez quel hébergeur le site web frauduleux était hébergé. La plupart de ces noms de domaine s’apparentent à du typosquattage.
Raccourcisseur d’URL : l’URL saisie pointe vers un raccourcisseur d’URL. Il est courant de faire face à des chaînes de raccourcisseurs d’URL pour des liens de hameçonnage. Nous n’avons pas d’informations concernant l’hébergement de la page derrière le raccourci.
Site détourné : la page semble être hébergée sur un site web victime d’un piratage.

🔗Quelles conclusions tirer de cette analyse ?

Dans une grande partie des cas (au moins 340 cas sur 702 identifiés, pour un total de 937 liens malveillants), les pages malveillantes se situent sur des serveurs appartenant à des géants du web qui proposent de l’hébergement web gratuit :

Chez Google (Sites, Cloud, Forms, Blogspot et même Firebase) dans 23 % des cas ;
Chez Wix dans 20 % des cas ;
Chez Yola dans 18 % des cas.

Lorsque nous détectons une page malveillante sur leur plateforme, ces grandes entreprises mettent plus de 24 heures à traiter notre demande ; les campagnes de hameçonnage se déroulent très rapidement et sont souvent consultés par plus de 1000 personnes en l’espace de quelques heures. Ces pages restent ainsi en ligne pendant des semaines sans que ces plateformes ne s’en aperçoivent.

Ces géants du web, qui offrent des outils qui facilitent la diffusion de pages malveillantes sans appliquer les mesures de modération adéquates pour empêcher le détournement de leur plateforme, sont les principaux responsables de la diffusion du contenu malveillant sur notre raccourcisseur de liens par leur laxisme face aux activités malhonnêtes, voire criminelles, servies par leurs propres plateformes. C’est à cause de leur négligence que nous devons nous mobiliser plus que nécessaire.

En deuxième position, un grand nombre de noms de domaine trompeurs, qui ressemblent à ceux de sites officiels, sont acquis par les pirates (exemple : micrcscft.com). L’internaute, par manque de vigilance, peut se laisser avoir.

Enfin, de nombreux sites administrés par des personnes peu scrupuleuses sur la sécurité de leur infrastructure se font pirater et sont utilisés pour héberger des pages malveillantes.

Les raccourcisseurs d’URL ne sont pas en reste : nous constatons l’usage régulier de chaînes de raccourcisseurs d’URL pour diffuser des liens malveillants. Nous avons donc fait le choix de bloquer la création de liens pointant vers un raccourcisseur d’URL et tentons de répertorier un maximum d’entre eux.

🔗Comment avons-nous détecté ces liens malveillants ?

Le logiciel que nous utilisons, rs-short, envoie une alerte lorsqu’un lien est consulté un certain nombre de fois dans une certaine plage horaire (exemple : 30 fois en l’espace de 2 heures). Cela entraîne de nombreux faux positifs, mais nous permet également de repérer très rapidement les liens trompeurs lorsqu’ils sont diffusés à grande échelle.

Lorsque nous subissons une vague de hameçonnage, ce qui − heureusement − n’arrive pas tous les jours, nous configurons notre logiciel pour qu’il liste chaque lien créé dans un fichier journal. Ce mode de repérage, que nous activons temporairement, nous permet d’agir avant même que les liens malveillants soient diffusés, au coût important de porter atteinte à la vie privée de nos utilisateurs et utilisatrices.

Sachez toutefois que nous ne consultons que les liens qui nous semblent illégitimes, et que nous effectuons ces opérations dans le strict respect de nos conditions d’utilisation : engagement 2 − « Nous ne consultons pas vos données personnelles dans tout autre cadre que celui de la maintenance technique de nos services […] ». Si cette politique de modération ne vous plaît pas, libre à vous de changer d’instance.

Enfin, nous recherchons également dans la base de données du logiciel en fonction du nom de domaine (par exemple : sites.google.com). En effet, sur 79 liens créés sur Google Sites, seulement 20 d’entre eux sont légitimes. Ce chiffre est pire encore chez Yola : sur 62 liens créés, pas un seul n’est légitime. Chez Wix, seulement 22 liens sont légitimes sur 90. Nos pirates ont leurs hébergeurs favoris.

Ces trois méthodes nous ont permis de repérer plus de 99 % des liens malveillants que nous avons listés. Le 1 % restant relève des signalements que nous avons reçu sur notre adresse abuse@. Nous considérons que si nous recevons un mail sur cette boîte, il est déjà trop tard : le lien aura déjà été largement diffusé et la réputation de notre nom de domaine en aura pâti ; nos hébergeurs sont peut-être déjà au courant.

🔗Comment bloquer les pirates ?

Il n’existe pas de méthode magique pour bloquer les pirates. Un blocage par IP serait peu pertinent car iels utilisent des VPN, des ordinateurs piratés ou des relais Tor que nous ne souhaiterions nullement bloquer, car nous empêcherions des utilisateur·ices légitimes d’utiliser nos services.

Les captchas ont une efficacité limitée. Ils bloquent effectivement des tentatives automatisées de création de liens, mais tous les liens créés après la migration de notre service vers rs-short en avril 2020 ont a priori été saisis par des personnes humaines. Il est probable que nos pirates aient recours à des sociétés de travail du clic, ou que les pirates entrent directement le lien en personne. Les captchas ont également l’inconvénient de ne pas êtres accessibles pour les personnes malvoyantes.

Le signalement des sites malveillants aux grandes plateformes (par l’adresse mail abuse@ ou d’autres canaux appropriés) n’est pas très efficace en pratique, les géants croulent peut-être sous les signalements ou manquent de personnel, et prennent souvent plusieurs jours pour répondre. Le lien malveillant aura largement eu le temps de circuler entre-temps. De plus, cela nous demande du temps de travail supplémentaire auquel nous ne sommes pas préparé·es.

Nous avons écarté la possibilité de bloquer les liens en fonction du nom donné au raccourci : sur les 937 liens malveillants enregistrés, exactement 50 % d’entre eux n’ont pas spécifié de nom de lien particulier, ce qui génère alors un nom de lien aléatoire de 8 caractères. Pour les autres liens, le nom est choisi par la personne malveillante. Il peut effectivement s’agir d’un nom en rapport avec le contenu malveillant, bien qu’il soit parfois très générique. Mais même si le nom du lien était bloqué, le ou la pirate n’a qu’à changer d’IP et réessayer avec un autre nom de lien.

Pour le moment, nous utilisons des listes de blocage. Nous bloquons une bonne partie des hébergeurs web et noms de domaine couramment utilisés pour mener des campagnes de hameçonnage et envisageons d’ajouter également de gros hébergeurs comme Google Sites à cette liste si la modération nous demande trop d’efforts. Nous avons également bloqué la création de liens vers une bonne partie des raccourcisseurs d’URL (impossible de tous les lister).

Retrouvez d’autres pistes pour concevoir des mécanismes de défense sur le forum CHATONS.

🔗Un effort collectif est nécessaire

🔗Auprès des géants du web

Même si nous n’attendons pas grand-chose des gros hébergeurs web comme Yola, Dynadot et Google, un peu de modération sur leur plateforme serait plus que nécessaire. Une autre option, qu’iels ne souhaiteront pas entendre, est celle de réduire leur taille pour permettre à des acteurs plus petits d’effectuer un travail de modération à échelle humaine, qui sera plus efficace car ces petites plateformes ne sont pas surchargées de trafic.

Nous n’avons jamais eu de lien illégal vers Framasite, Ouvaton ou BeeHome.

🔗Auprès des raccourcisseurs d’URL

Depuis le lancement de ce service, nous nous sommes engagé·es dans une politique de tolérance zéro contre les contenus illégaux sur notre raccourcisseur d’URL. Mais si nous agissons seul·es, cela n’aura pour effet que de rediriger les pirates vers les autres raccourcisseurs d’URL existants (et il n’en manque pas), notamment parmi les CHATONS.

Ami·es libristes, hébergeurs et hébergeuses qui offrent un raccourcisseur d’URL en libre accès, ne laissez pas votre service sans modération ! Ne permettez pas à des pirates de profiter de la réputation de votre nom de domaine à des fins malhonnêtes. N’attendez pas de recevoir un mail sur votre boîte abuse@ pour agir.

Si vous pensez que vous n’aurez pas le temps d’effectuer un tel travail de modération, songez alors peut-être à fermer votre service ou à le restreindre à des personnes de confiance, cela pourra vous éviter de graves ennuis avec votre hébergeur ou des sociétés tierces. Il y a tant d’autres services à héberger qui vous nécessiteront moins de modération.

~ Neil