Stratégies Télécoms & Multimédia

DT 29 - Grille de calcul, P2P, applications et problématique

L’acronyme P2P qui signifie "Poste-à-Poste" ou "Egal à égall", (Peer to Peer, en anglais) s’applique à deux applications distinctes sur réseau de paquets de type IP entre terminaux informatiques : le transfert de fichiers d’informations bien connu des jeunes Internautes et à la Grille de calcul (Grid Computing). Ces applications utilisent deux types d’architecture de protocole, celle du Client serveur ou celle du travail en parallèle. Ces innovations présentent des avantages indéniables et soulèvent des questions.

I - Aspects techniques


1.1 - La relation Client-Serveur


Dans le mode de relation Client-Serveur, les terminaux en présence obéissent à des règles de procédure qui supposent une hiérarchie entre les deux terminaux, celui du Client et celui du Serveur, les nœuds de réseau respectant cette architecture lors des échanges de demandes (ou requêtes) et de réponses définis par ces relations. La relation Client Serveur suppose une valeur raisonnable du temps de réponse du serveur, celui-ci devant faire face à N connexions multiples qui sont traitées séquentiellement avec les N clients qui le sollicitent.

1.2 - L’architecture parallèle


Pour résoudre les problèmes posés par ce dernier aspect, des logiciels, ainsi que la technologie des composants, permettent aujourd’hui d’effectuer plusieurs tâches en même temps, grâce à une architecture dite "en parallèle". Le calcul parallèle, qui est également possible en affectant plusieurs ordinateurs à une même tâche en même temps, est plus rapide. Cependant le gain de temps apporté n’est pas toujours proportionnel au nombre de processeurs, puisqu’il dépend de la proportion d’activités parallélisables. Les informaticiens sont donc invités à paralléliser la plus grande part possible des traitements sous une forme d’algorithmes et de codage parallèle. En quelque sorte, plus la tâche est partitionnée en tâches indépendantes, mieux elle peut être répartie entre les différents processeurs associés.

1.3 - Définition


Le P2P se définit comme "un ensemble de mécanismes basés sur des normes ouvertes permettant le partage de ressources informatiques distribuées". Cette technologie repose sur des processus disponibles à la fois en puissance de calcul et en capacité de stockage. Elle suppose aussi une communauté d’utilisateurs (organisation virtuelle) et un ensemble de logiciels compatibles (Grid Middleware Infrastructure) reliés par des artères de débits suffisants.

II - Le P2P (Peer to Peer)


2.1 - Organisation


La technologie de communication Peer to Peer (P2P) permet d’échanger directement des fichiers (musique, vidéo, logiciels, photos, etc.) entre différents utilisateurs connectés au même instant à Internet. La connexion dite "d’égal à égal" confère à chaque terminal informatique le double rôle de serveur et de client, quel que soit celui qui a ouvert la session (d’où le sens de l’expression d’égal à égal). Les fichiers échangés sont stockés sur les ordinateurs des différents utilisateurs sans nécessiter de serveur centralisant les fichiers. Les terminaux en présence sont à la fois Client et Serveur et travaillent en parallèle. Les logiciels P2P correspondent à des fonctions serveur et client (d’où le néologisme "servent" qui s’applique à cette fonctionnalité). Le P2P permet d’effectuer des calculs sur plusieurs ordinateurs, de transférer ou de diffuser de un vers plusieurs des contenus multimédia en flux continu de streaming sur Internet. (dans les deux cas, à la condition d’utiliser le même logiciel P2P). Le P2P utilise TCP pour le transport des données et UDP pour le streaming et pour les messages entre "servents".

On distingue l’architecture P2P avec serveur centralisé qui joue le rôle d’annuaire central des machines et des fichiers disponibles, et l’architecture P2P décentralisée. Dans ce dernier cas, aucun serveur n’est nécessaire, car chaque ordinateur fait office de serveur. Chaque ordinateur en fonction se signale aux autres et ceux qui contiennent des fichiers recherchés se déclarent à tous de façon à procéder aux téléchargements demandés. Les éléments des fichiers ne transitent pas par les serveurs et ils utilisent les ressources du réseau selon des algorithmes propres au logiciel P2P utilisé (hachage distribué ou "superpeers"). On compte aujourd’hui une vingtaine de logiciels P2P qui contribuent à l’édification d’autant de dizaines de réseaux relationnels sur Internet ("P2P overlays"). L’échange de fichiers sur la Toile est soumis à la réglementation en vigueur. Il est donc nécessaire de disposer des droits nécessaires pour le téléchargement (licence pour un logiciel, l’original pour un CD, etc., sauf pour les logiciels "libres de droits" ou "freeware").

2.2 - Fonctionnement du P2P


Le P2P nécessite l’installation d’un logiciel spécifique sur chacun des ordinateurs et une sélection des fichiers mis à disposition des autres internautes. L’utilisateur charge et exécute un logiciel P2P de son choix, (Gnutellanet, BitTorrent, FastTrack, Freenet Project, Gnutella2, NEOnet, Skype, Google Talk, Bonjour, etc.), adapté à l’application désirée (voix sous IP, messagerie instantanée, visioconférence, partage de fichier en Open Source, etc.). Il introduit l’adresse de son correspondant disposant du même logiciel ou valide l’adresse recommandée par la version du logiciel. Dès que la connexion est établie avec l’un quelconque du groupe de correspondants (ou essaim), l’utilisateur choisit le nombre de connexions souhaitées et le type de fichiers désiré. Il indique les fichiers dont il dispose et qu’il souhaite copartager avec les membres de l’essaim.

Les données du fichier partagé sont coupées en petits fragments par le logiciel et transmises au nœud de réseau qui se charge de l’acheminement à travers tout le réseau. Ainsi, si le nombre de membres participant à la diffusion est élevé, il n’y a pas de surcharge du serveur par excès de requêtes simultanées. Les receveurs du fichier renvoient de temps à autre des accusés de réception qui ne remontent qu’à leur propre centre de diffusion. En réalité, la diffusion ne se fait pas fragment par fragment en simultanéité pour tous les correspondants. Chacun d’entre eux reçoit à un moment donné le fragment qui le concerne. D’autre part, dès sa réception, le fragment en question est disponible pour une nouvelle diffusion vers un autre correspondant ou groupe de correspondants. Ainsi, il est possible qu’un même correspondant reçoive au même instant des fragments différents en provenance d’une vingtaine de correspondants. La caractéristique essentielle de ces logiciels P2P est d’effectuer une auto régulation des flux au sein du réseau de façon à éviter les pertes de paquets et les détériorations de transferts de fichiers consécutives. Il est important, de ce point de vue, de ne pas déconnecter son ordinateur après un téléchargement de façon à procurer à d’autres utilisateurs le bénéfice du téléchargement. Il est aussi important de ne pas retoucher un fichier reçu, car une nouvelle redistribution porterait sur une version édulcorée. Le mécanisme d’auto acheminement et de régulation des flux confère au P2P une grande résilience de fonctionnement sans augmenter le débit instantané des liens internes et des voies d’accès au réseau.

2.3 - Avantages du P2P


Les avantages du P2P tiennent à ses performances, à sa robustesse et à sa capacité d’extension. Les entreprises voient dans le P2P un moyen de diffuser une information ou une documentation à leurs employés de façon fiable et sécurisée sans avoir à procéder à la maintenance d’un site centralisé spécialisé.

La distribution numérique de programmes vidéo, musicaux et audios peut être effectuée en P2P de façon très économique sans compression sensible (2 heures pour un film) tout en utilisant les supports numériques d’accès actuels, bien que des voies symétriques soient préférables aux canaux ADSL et Docsis 2.0 actuellement mis en place. Une autre application bien connue aujourd’hui du P2P est l’application de voix sur Internet (VoIP) que réalise le logiciel Skype, sans commutateur par logiciel.

2.4 - Obstacles juridiques au P2P


Les logiciels de téléchargement P2P suscitent la polémique, car le P2P est utilisé aujourd’hui principalement pour le transfert de fichiers protégés par des droits d’auteur. Des instances nationales peuvent se prononcer pour ou contre l’usage du P2P. Les jugements rendus varient beaucoup selon les dossiers mis en cause et selon les pays. Les industriels occidentaux du disque et du cinéma se sont mobilisés contre le P2P, car ils estiment que le P2P remet en jeu l’équilibre économique des activités industrielles liées à ces loisirs. D’autres intervenants pensent qu’au contraire, les copies qui circulent sur Internet, même édulcorées par l’effacement d’éléments de données utiles attachés aux droits de diffusion (DRM), servent à la publicité de l’œuvre et permettent d’accroître les ventes réelles. Pour que le P2P soit pleinement utilisable, il faut que les fichiers soient disponibles intégralement (c’est-à-dire, qu’ils ne doivent pas avoir été modifiés ou édulcorés sur certaines séquences – celles qui portent les droits dans les métadonnées ou DRM, Digital Right Management). Le P2P est utilisé par la BBC pour la distribution de ses programmes et par des exploitants de réseau pour leurs travaux de facturation des abonnés, etc.

Le P2P implique une philosophie de partage et une imprégnation communautaire. En France, la loi sur le droit d’auteur interdit strictement toute exploitation d’une œuvre sans autorisation, sauf le droit à la copie privée. En clair, le partage des fichiers sous copyright est condamnable, alors que, le téléchargement de fichiers audio ou vidéo pour une utilisation personnelle n’est pas condamné. La notion de copie privée n’existe pas pour les logiciels, sauf pour le cas de sauvegarde. La situation actuelle en France a tracé deux camps, ceux qui s’opposent au P2P et ceux qui sont en faveur au nom de la liberté. Alors que la Fédération Internationale de l’Industrie Phonographique (IFPI) annonce de nouvelles plaintes en France contre les adeptes du protocole d’échange P2P, la CNIL (Commission Nationale de l’Informatique et des Libertés) autorise le suivi automatique des activités de téléchargement. A l’opposé de ces considérations, l’ADA (Association Des Audionautes) souhaite porter l’affaire au Conseil d’Etat, car elle estime la décision contraire à la Loi Informatique et Libertés, et souligne son étonnement face à un pouvoir délégué à un organisme privé plutôt qu’à une autorité judiciaire.

L’OCDE, dans un rapport effectué sur la musique numérique, souhaiterait que l’industrie liée aux activités musicales révise sa position sur le P2P. Il semblerait qu’il n’existe pas de lien entre l’apparition du P2P et le déclin des ventes de disques ou de Cédéroms et que les principes de distribution de ces produits devraient être révisés. Il semble nécessaire de répartir les plateformes P2P en deux catégories, celles qui n’intégrant pas de protection du copyright devront fermer et celles qui feront payer les internautes téléchargeant des fichiers protégés. Les aspects juridiques relatifs aux droits d’auteur ne sont pas encore normalisés sur le plan international.

2.5 - Infrastructure P2P sur réseaux IP (P2P overlay networks)


Les ordinateurs connectés à la Toile (aujourd’hui au nombre d’un milliard) ou à des réseaux radioélectriques en IP disposent des capacités informatiques nécessaires pour s’organiser eux-mêmes en réseaux d’infrastructure P2P et se copartager les ressources du réseau utilisé (local, d’accès ou de la Toile) en débit ou en puissance de calcul. Des dizaines de services P2P existent aujourd’hui, sous réserve de disposer des logiciels adéquats. La simplicité et la gratuité expliquent l’expansion mondiale du P2P, non seulement pour des usages privés, mais aussi pour la télémédecine, l’enseignement et les communications locales. La protection des fichiers peut être assurée par AllPeers, extension du butineur Firefox. Le protocole SIP (Session Initiation Protocol) semble avoir vieilli soudain de quatre ou cinq ans.

Des éditeurs de jeux vidéos, regroupés en Syndicat des Editeurs de Logiciels de Loisirs (SELL), ont obtenu l’autorisation "d’exploiter des systèmes automatisés de surveillance Peer-To-Peer". Le SELL, au sein duquel figurent Vivendi, Sega, Sony, Ubisoft et Microsoft, peut utiliser des liens informatiques permettant de collecter les adresses IP des contrevenants. En premier lieu, les "petits poissons" et leurs FAI ne recevront qu’un message d’alerte, tandis que ceux qui font commerce du piratage se verront assignés en justice. Il est possible en effet de lire sur le réseau les paquets P2P et de retrouver les adresses des utilisateurs. Il est aussi possible de savoir si le logiciel P2P transfère des contenus autorisés ou non et de bloquer le trafic illicite. Mais il est aussi possible d’utiliser le "caching" avec le P2P !...

Le distributeur Bertelsmann a mis en place sur Internet une plateforme spécialisée dans le téléchargement et le partage de fichiers de jeux et de films. L’accès à cette plateforme pour des téléchargements légaux est ouvert à tous les utilisateurs des stations de télévision, des fournisseurs de services sur Internet ainsi qu’aux exploitants de réseau de téléphonie mobile (notamment en 3G !). Ces contenus pourront ensuite être copartagés à nouveau.

La plus grande rapidité de connexion du P2P conduit à l’utiliser de façon plus lucrative pour des applications nouvelles, en particulier pour le commerce électronique. Le P2P semble être capable de mettre aux oubliettes la quincaillerie de matériels nécessaires à la Voix sur IP. Skype et Google Talk sont plus simples et ils réduisent la facture, bien que des progrès restent à faire sur le plan de la sécurité et des performances. Le P2P peut avoir un grand impact dans le commerce électronique parce qu’il place le consommateur en dehors de tout champ de contrôle sur le réseau et rapproche celui-ci de tous les producteurs. C’est justement ce raccourcissement des circuits commerciaux qui a été observé par Google et eBay ! Et les distributeurs ont flairé la menace, particulièrement sensible dans la zone des tout derniers kilomètres !

III - La Grille de calcul


3.1 - Définition


Une grille de calcul (Grid Computing) est constituée de ressources informatiques hétérogènes distantes qui sont mises en réseau et collaborent sur des applications compatibles (banques de données, par exemple) et avec des équipements de stockage. Aujourd’hui la plupart des grilles de calcul utilisent une approche client/serveur dans la recherche de ressources (processeurs, mémoires, réseaux, applications, etc.). En effet, dans un réseau à ressources distribuées, le temps pris pour découvrir les ressources est long et il est préférable d’utiliser un serveur central (secouru) disposant de l’information sur l’état des ressources de la grille. D’autre part, la mise en oeuvre de grille de calcul de type client/serveur est plus facile.

3.2 - Fonctionnement de la Grille de calcul


L’approche Client Serveur, évoquée ci-dessus, n’est plus adaptée pour la Grille de calcul lorsque des milliers de ressources sont en cause ou qu’une panne se produit (notamment sur le serveur qui dispose de l’information sur l’état des ressources). Des recherches sont en cours qui visent à utiliser un protocole P2P pour la découverte de ressources au sein du réseau. Mais le temps nécessaire à cette découverte est beaucoup plus long, car cet état est distribué. D’autre part, les outils de l’architecture parallèle (algorithmes et codages) ne peuvent collaborer ensemble que s’ils sont homogènes. Des couches compatibles de logiciels intermédiaires (middleware) et la transparence doivent être assurés pour le succès de l’opération. Les navigateurs, les moteurs de recherche et les transferts doivent être sécurisés. Pour se connecter à la grille, des certificats d’authentification sont nécessaires à chacun des ordinateurs de la grille.

L’industrie, la banque et les activités financières, et les entreprises en général, peuvent déjà commencer à utiliser ces techniques sur leurs réseaux dédiés et avec des logiciels de propriétaires de médiation. C’est déjà le cas de eBay (Grid 2.0@eBay) et de plusieurs banques qui en ont compris l’avantage économique.

3.3 - Le Globus Consortium


Plusieurs constructeurs - dont IBM, Intel, HP et Sun - ont constitué le "Globus Consortium" afin d’accélérer le déploiement des logiciels libres (Open Source), dans le monde des entreprises. Ce consortium vise aussi à utiliser les grilles de calcul du domaine scientifique pour des applications financières et industrielles (analyses, industrie pétrolière, recherche appliquée, etc.). Le Globus Consortium fait suite à l’Enterprise Grid Alliance (EGA) conduite par Oracle, le Global Grid Forum (GGF) de Microsoft, etc.

3.4 - La Grille du Hadron LHC


Huit centres de recherche occidentaux, associés au projet LHC (Large Hadron Collider), se proposent d’unir les ressources d’une centaine de centres informatiques répartis dans 31 pays afin de créer la plus puissante grille de calcul scientifique du monde. Le LHC associera 100 000 processeurs et des capacités de stockage répondant aux tonnes de données qui seront produites, évaluées à 1500 Mo par seconde, soit l’équivalent de 15 Péta-octets par an. L’objectif du LHC consiste à organiser une grille de calcul capable de répondre à tous les défis en matière de calcul scientifique, de traitement et de débit. Les grilles utilisées seront celles relatives au projet EGEE (Enabling Grids for E-Science), l’OSG (Grid3/Open Science), à l’INFNGrid et au GridPP. Quand l’accélérateur du Cern sera en service, les données produites seront accessibles à 5 000 chercheurs dans plus de 200 sites répartis dans 32 pays (le Cern, les centres de stockage de données et des chercheurs isolés).

Le GridPP (Grid for Particle Physics) est la contribution britannique à la grille informatique de calcul internationale (infrastructure virtuelle d’ordinateurs) dédiée au traitement des données et de calculs du Large Hadron Collider (LHC), du CERN, à Genève. La biologie moléculaire est gourmande en calcul informatique et le réseau optique britannique à très haut débit appelé "UK Light" va prendre toute son utilité avec les superordinateurs du National Grid Service britannique et le TeraGrid des Etats-Unis. Ces ressources de calculs vont permettre aux scientifiques de pouvoir visualiser et simuler des processus biologiques les plus complexes. Le projet Simulated Pore Interactive Computing Experiment (simulation de l’interactivité des pores cellulaires, SPICE) simule le mouvement d’une molécule d’ADN à travers les nano pores d’une protéine fixée à la membrane de la cellule. Grâce au réseau UKLight, il n’y a pas de perte de données lors de la transmission et la simulation peut être suivie et contrôlée en temps réel. En astronomie, la mise en connexion de trois observatoires situés au Japon, au Royaume-Uni et aux Etats-Unis va permettre d’observer et d’analyser simultanément les mêmes endroits du ciel afin d’obtenir un "Very Long-Base Interferometry" (VLBI) mondial contrôlable en temps réel.

Le centre de recherche du "San Diego Supercomputer Center" (SDSC) de l’Université de Californie propose un service dans le domaine du calcul distribué qui repose sur l’emploi des ressources de ce centre de calcul intensif. Le SDSC fait partie du réseau TeraGrid financé par la NSF. Cette infrastructure est proposée sans frais à la communauté de recherche universitaire américaine. En fonctionnement normal, les travaux sont soumis à une liste d’attente (TeraGrid SDSC Allocations). Dès qu’un calcul prioritaire de type OnDemand doit être effectué, le gestionnaire des tâches Sun Grid Engine met temporairement en veille les autres processus jusqu’à la fin des traitements.

3.5 - Offre commerciale de NTT West


L’exploitant japonais NTT West vient d’ouvrir dans son réseau un service de grille de calcul (Grid Computing). Les ressources non utilisés des ordinateurs des abonnés sont collectées par le réseau d’accès en fibre optique à Internet, afin d’effectuer des calculs complexes pour le bénéfice des clients professionnels de NTT. Au lieu d’investir dans un super ordinateur de plusieurs millions de dollars, les entreprises bénéficient de ressources collectées auprès d’une centaine d’ordinateurs mis en parallèle pour une dépense de dix mille euros environ. En compensation, NTT West reverse une indemnité de sept euros par mois aux abonnés qui collaborent à la grille. Un haut degré de sécurité est assuré avec l’usage conjoint de IPv6.

3.6 - Normalisation de la grille de calcul


La Grille de calcul est aussi un instrument de recherche théorique qui s’appuie sur les expérimentations en P2P faites par les Internautes. Différents travaux se poursuivent à l’heure actuelle afin de perfectionner cette technique (Projet « Grid’5000 », etc.). La grille de calcul est basée sur un ensemble ouvert de normes et de protocoles (OGSA, Open Grid Services Architecture, OASIS, Organisation for the Advancement of Structured information Standards, XML, WSRF, GGF, Global Grid Forum, EGA, Entreprise Grid Alliance, etc.). Les études en cours sur ce thème portent sur le logiciel de médiation de la grille (Grid Middleware ), la gestion de réseau de la grille (Grid Data Management), la sécurité (Grid Security), l’environnement de l’utilisateur (Grid User Environment) et OGSA. Les scientifiques attendent beaucoup de la grille de calcul, car les expériences déjà tentées ont montré que des résultats spectaculaires peuvent être obtenus à l’aide de milliers d’ordinateurs interconnectés sans faire recours à de puissantes ressources informatiques.

4 - Du danger des réseaux P2P


La technique P2P permet aux Internautes de transférer sans contrôle des fichiers de données sans passer par un serveur central, à la différence de ce qui se passe avec les sites de “iTunes”, "MySpace" et de "YouTube". Développée à l’origine pour faire face à des anciennes limitations de débits et de capacité de stockage du réseau, la technologie P2P demeure encore une voie de recherche et d’innovation qu’il convient de maintenir, bien que ces programmes de partage de fichiers en "P2P avec contamination" constituent une menace réelle pour la sécurité des données personnelles, professionnelles et gouvernementales. La société Safe Media a déposé des brevets pour des logiciels d’entreprise qui combinent la technologie de désagrégation de P2P (P2PD) avec une solution de distribution numérique sur Internet (DIDS, Digital Internet Distribution Solution), lesquels évitent que les réseaux ne soient contaminés par du P2P issu d’ordinateurs d’utilisateurs accédant de façon incontrôlée. La technologie P2P utilise les procédés suivants :

• Marqueurs adaptatifs d’empreintes digitales et de DNA : La bibliothèque des logiciels et de leurs clients est mise à jour toutes les 3 heures.
• Combinaisons adaptatives de réseau. Tous les protocoles ne peuvent être identifiés avec un seul envoi de paquets. Pour cette raison, le protocole P2PD gère un flux de paquets et ajuste son algorithme en fonction de ce qu’il a déjà vu et de ce qu’il voit.
• Bibliothèques intelligentes : Les bibliothèques se basent sur leur expérience.
• Mise à jour à distance et autoréparations.
• Respect de la propriété privée : La détection en P2PD doit respecter la propriété individuelle, ne doit pas faire de copies privées, ne doit pas décrypter des messages et doit respecter les techniques de sécurité courantes (Tunneling, SSH, etc.).
• Débit : Le P2PD travaille au débit du réseau avec une faible latence ou sans latence.

Précision : Le P2PD est tout à fait efficace par rapport à la discrimination légale entre trafic P2P contaminé ou non contaminé, avec aucun faux positif (par exemple, identification un autre protocole comme le protocole visé), qu’il soit crypté ou non.

La plupart des utilisateurs de logiciels P2P (résidentiels ou professionnels) ignorent le danger présenté par l’hébergement de logiciels de communication P2P sur leurs ordinateurs. La société SafeMedia met en garde les Internautes au sujet des risques relatives aux informations à caractère professionnel, personnel, financier, ou liées à leur santé qui intéressent les voleurs d’identité. Selon la police de Seattle, des milliers de fraudeurs cherchent, grâce aux logiciels P2P, à obtenir de l’argent de tout un chacun par la fraude informatique. La solution P2PDP de SafeMedia permet de protéger l’identité des Internautes et son "désagrégateur" élimine la connexion et la contamination provoquée par les réseaux P2P.

IV - Conclusion


Les théoriciens d’Internet avaient voulu mettre en place un réseau simple pour relier des terminaux intelligents. Voilà que l’Histoire leur propose un réseau qui sait faire du routage dynamique, flexible et robuste entre des centaines d’utilisateurs pour des applications nouvelles. La réglementation doit faire face à ce développement nouveau, car il remet en cause certaines situations acquises, notamment en ce qui concerne l’informatique de fortes capacités. Du côté des réseaux, cette évolution technologique interpelle les industriels et les exploitants de réseau qui doivent réviser les systèmes d’accès au réseau de façon à ce qu’ils puissent offrir des débits symétriques. Il n’est pas impossible qu’il soit démontré d’autre part que des pratiques de P2P soient nuisibles au débit global des réseaux, dans certains cas de configuration.


Sources : Wikipedia, IEEE Transactions, Sciences Ouest. Bulletin de l’Irisa. Electronics News. Jap'Presse. Commission d’études 16 de l’UIT-T (Contribution Cern).