Comment traquer les pirates sur BitTorrent : méthodologie

Posted on 22 octobre 2010

0


On ne sait pas très bien comment fonctionne TMG, la société chargée d’automatiser la recherche des cyber-délinquants. Quel logiciel utilisent-ils pour obtenir les adresses IP des contrevenants ? Piègent-ils les internautes en fournissant du contenu sous copyright aux sites comme Pirate Bay ? Ou alors se connectent-ils sur emule et recherchent-ils des fichiers dont les ayants-droits leur ont communiqué une liste ? Recourent-ils au spoofing comme certains indices le laissent à penser ? Lors d’un reportage récent sur M6 dans les locaux de TMG, on voyait que l’un des hadopistes utilisait un MAC pour se connecter à une application web sur le site tmg.eu.

Une  recherche sur Google avec les bons mots clés permet d’arriver à la page de l’Extranet de TMG; surprise, les résultats de la requête incluent dans le lien un test XSS !!! :

Un papier intitulé « Espionner le monde depuis son laptop : identification et profilage des fournisseurs de contenu numérique et des gros téléchargeurs sur BitTorrent » a été publié récemment par les chercheurs de l’INRIA Stevens Le Blond, Arnaud Legout, Fabrice Lefessant, Walid Dabbous et Mohamed Ali Kaafar. Cette étude s’intéresse à la question de l’identification des pairs.

Dans le cadre de cette recherche, sur une période de 3 mois, 148 millions d’IPs ont été collectées, pour 2 milliards de fichiers copiés.
Dans 70% des cas, l’adresse IP des plus importants fournisseurs de contenus a été récupérée . Il a été également démontré que la confidentialité des pairs dans BitTorrent est compromise et qu’il est possible d’identifier n’importe quel téléchargeur.

BitTorrent Protocol

Login et Annonce de nouveau contenu

La première source d’information publique exploitée dans l’identification des adresses IP des fournisseurs de contenus est la page qui liste les nouveaux torrents uploadés. Les sites Web populaires tels que The Pirate Bay et IsoHunt ont une page dédiée à la nouvelle injection de contenu, souvent via un flux RSS. La seconde source exploitable est le nom d’accès  des fournisseurs de contenu sur le site. En effet, les uploaders ont parfois besoin de se connecter à des sites privés à l’aide un login personnel pour annoncer de nouveaux contenus. Ces informations sont  publiques.

La fonction Scrape-all

La plupart des trackers acceptent la requête scrape-all pour laquelle ils renvoient en retour les identificateurs de tout le contenu qu’ils visent et pour chaque contenu, le nombre de pairs qui ont téléchargé une copie complète du contenu, le nombre de pairs actuellement souscrits à ce tracker avec une copie complète du contenu (les seeders) et avec une copie partielle du contenu (les leechers). Afin d’exploiter cette fonctionnalité, l’équipe de chercheurs a envoyé une requête scrape-all aux 8 trackers de Pirate Bay et récupéré 2 millions s’identifiants.

L’annonce démarrer/arrêter : Par ici les IP !

Les requêtes  d’annonce démarrer/arrêter sont envoyées quand un pair commence ou cesse la diffusion d’un contenu. À la réception de cette demande, le tracker enregistre le pair comme distributeur de contenu et lui renvoie un  sous-ensemble de pairs, et le nombre de seeders et de leechers partageant ce contenu. Quand un pair arrête la distribution d’un contenu, il envoie une annonce d’arrêt et le tracker décrémente un compteur indiquant le nombre de contenus distribués par ce pair.
Généralement les trackers mettent le pair en liste noire  quand il distribue plus de 100 contenus.  Donc un adversaire (TMG, RIAA)  doit envoyer une annonce démarrer/arrêter après chaque demande de démarrage pour éviter la liste noire. De cette façon, l’équipe de chercheurs a, toutes les 2 heures et à plusieurs reprises, envoyé des annonces démarrer/arrêter sur tous les contenus des trackers The Pirate Bay et recueilli l’adresse IP d’au moins 90% des distributeurs de contenu. Cette procédure dure environ 30 minutes : en la répétant sur 103 jours, du 13 mai au 23 août 2009, elle a permis la collecte de 148 millions Adresses IP téléchargeant 2 milliards de fichiers.

Le profilage grâce au fichier de metadata .torrent

Une fois terminée l’identification IP des uploaders et gros téléchargeurs, les fichiers de métadonnées peuvent servir au profilage. Le fichier torrent contient le nom d’hôte du tracker, le nom du contenu, sa taille, le hachage des pièces, etc Sans ce fichier, un identifiant de contenu se résume à un obscur hash. L’adversaire doit par conséquent obtenir le plus grand nombre possible de fichiers torrent pour déterminer si le contenu est soumis à copyright, quel type de contenu est distribué, etc. Récupérer ces fichiers par millions en quelques heures sur une machine est un jeu d’enfants et permet le profilage des usagers de BitTorrent en effectuant des recherches par mots-clés.

Pour les inconditionnels, une autre recherche a été effectuée sur le thème : « Surveiller les surveillants » et démontre qu’il est tout à fait possible d’identifier les clients de surveillance des « ayants-droits » et autres botnets sévissant sur l’écosystème..

Les conclusions d’une autre étude sur l’écosystème BitTorrent :

L’écosystème BitTorrent est de loin l’application Internet open source qui connaît le plus grand succès de la  décennie. Nous avons constaté que l’ écosystème présente une remarquable diversité en termes de fonctionnement des sites de recherche de torrent, de comportement utilisateur,, du nombre de torrents et de pairs suivis par les trackers, de type de contenu, et des implémentations client. Néanmoins, nous avons constaté que The Pirate Bay joue actuellement un rôle disproportionné dans l’écosystème.

Publicités