Le «gros» contenu dans le Big Data est suffisant pour que la plupart des architectes informatiques s'inquiètent de la possibilité d'une charge accrue sur une infrastructure déjà taxée. À mesure que les entreprises passent d'expérimentations à un déploiement étendu de Big Data et d'autres applications en cluster, le réseau qui sous-tend tout cela devient à la fois plus critique et plus chargé que jamais..

Les responsables informatiques doivent se poser une question simple: mon réseau est-il prêt pour le Big Data??

Le big data est gros, mais pas comme vous le pensez

Lorsque la plupart des gens pensent au Big Data, ils imaginent d’énormes applications couvrant des milliers de nœuds pour aider les plus grandes entreprises à l’échelle du Web. S'il est vrai que ces déploiements existent (Yahoo! compte notamment plus de 40 000 nœuds Hadoop), le déploiement moyen de Big Data en entreprise se situe en réalité entre 100 et 150 nœuds..

Donc, si le déploiement moyen est relativement petit, l’échelle est-elle un problème?

Pour la plupart des entreprises, l’échelle ne sera pas centrée sur une ou deux applications Big Data. Aujourd'hui, les entreprises qui expérimentent déjà dans ce domaine ne font que plonger leurs pieds dans la fameuse eau du big data. Les déploiements sont petits, car ils constituent davantage une expérience qu'une application cruciale pour l'entreprise. Toutefois, si ces incursions initiales dans le secteur de l’espace donnent des résultats positifs, attendez-vous à l’ajout d’autres applications pour suivre rapidement.

La tendance probable sera la prolifération de petites applications big data, chacune consommant quelques centaines de nœuds. Bien que la plupart des entreprises ne connaîtront jamais la complexité d'un déploiement de 10 000 nœuds, elles commenceront à faire face à la charge totale de quelques dizaines d'applications plus petites..

Le rôle de la bande passante pour le Big Data

Le principe fondamental des mégadonnées est de diviser les charges de travail importantes en fragments plus petits et plus consommables. Pour ce faire, les données doivent être répliquées sur les serveurs d'un cluster. Étant donné que la plupart des applications Big Data font trois copies de chaque information (deux dans le rack, une dans un autre pour la résilience), la charge sur le réseau devient très importante.

Traditionnellement, la gestion de la charge sur un réseau est réalisée avec une technologie appelée ECMP (Equal Cost Multi-Pathing). ECMP répartit les flux sur un petit nombre de chemins de coûts égaux dans le réseau. Ainsi, même s'il peut y avoir de nombreuses façons d'aller d'un point A à un point B, ECMP sélectionnera le chemin le plus court et équilibrera la charge entre ceux-ci. Pour les flux de données volumineux, cela peut créer des problèmes. Lorsque vous envoyez beaucoup de trafic sur les mêmes chemins, vous pouvez générer de la congestion sur le réseau. La plupart des applications Big Data traitent la congestion en renvoyant simplement la demande. Mais, en période de congestion, les retransmissions ne font qu'exacerber le problème.

La tendance la plus en vogue dans la mise en réseau est une technologie appelée SDN (Software-Defined Networking). Le principe architectural fondamental de SDN est la séparation du contrôle et du transfert. En créant un point de contrôle central, SDN est en mesure d’examiner intelligemment le réseau dans son ensemble. Cela permet de transférer intelligemment le trafic sur des trajets plus longs, mais moins encombrés. Il se pourrait que l’adoption du multi-cheminement à coûts non égaux soit l’une des clés pour réussir à faire évoluer l’infrastructure pour le big data.

Plus que de la bande passante

Bien que SDN puisse contribuer à atténuer les problèmes de bande passante en utilisant davantage de chemins d'accès disponibles sur le réseau, la mise à l'échelle de données volumineuses ne concerne pas uniquement la bande passante. Si la croissance du big data dans les centres de données d'entreprise implique plusieurs applications, cela signifie que le problème de la montée en puissance est de plus en plus préoccupant: comment le réseau peut-il prendre en compte différentes applications avec différentes exigences?.

La plupart des réseaux actuels sont conçus pour être agnostiques vis-à-vis des applications qui les exécutent. Cela signifie que le réseau est conçu pour être polyvalent et traiter toutes les applications de la même manière.

Mais toutes les applications Big Data ne sont pas identiques. Certaines sont très chargées en bande passante (comme pour les sauvegardes de données). D'autres sont plus sensibles au temps de latence (comme les moteurs de recommandation dans AdTech). D'autres sont sensibles à l'instabilité ou à la perte. Et d'autres encore ont des exigences de conformité strictes (PCI ou HIPAA). Le point ici est qu’il est impossible pour un seul réseau de traiter ces applications différemment si ce réseau n’est pas au moins quelque peu conscient des applications..

SDN peut potentiellement prendre en charge les exigences des applications via l'expression de stratégie abstraite. En d'autres termes, les utilisateurs peuvent définir une application et lui attribuer les éléments les plus importants. Si la bande passante est importante, le contrôleur peut créer de manière dynamique des liens de grande capacité si nécessaire. Si la latence est importante, le contrôleur peut aider à garantir que le chemin le plus court possible est toujours utilisé. Si l'isolation du trafic pour des raisons de conformité est essentielle, le contrôleur peut créer des tunnels..

L'avenir de l'informatique d'entreprise est en train de changer radicalement, avec à sa tête des applications telles que le Big Data. Heureusement, les avancées technologiques dans l’infrastructure sous-jacente devraient offrir un soulagement aux entreprises qui souhaitent en tirer parti. Cependant, les architectes informatiques devront tracer soigneusement et délibérément leurs cours d'infrastructure pour s'assurer que l'infrastructure sous-jacente intersecte les applications qu'ils souhaitent exécuter..

  • Michael Bushong, vice-président du marketing chez Plexxi