Où que vous regardiez, il ne manque pas de statistiques ou d'analyses indiquant l'explosion mondiale de la croissance des données. Selon CSC Insights, la production de données devrait être 44 fois supérieure en 2020 à celle de 2009, les volumes de données d'entreprise doublant tous les 1,2 ans dans le monde..

Toutefois, pour tirer le meilleur parti de cet actif de plus en plus précieux, le problème ne réside pas dans le volume plus important de données, mais dans la complexité de la valorisation. La majeure partie de cette croissance provient de nouvelles formes de données - contenus de réseaux sociaux, images, vidéos et données de capteurs - souvent classées génériquement dans la catégorie "données non structurées", car elles ne suivent pas un format ordonné de lignes et de colonnes, généralement utilisé pour les fichiers. stocker et analyser des données.

De plus, la valeur optimale de ces sources complexes ne peut être réalisée que par l'application de nouveaux types d'analyse inconnus..

Temps de réaction

Sans surprise, les entreprises réagissent à ces changements spectaculaires pour tirer parti de cette formidable opportunité d'amélioration. En conséquence, les mégadonnées occupent une place décisive dans l'agenda des conseils d'administration.

Cependant, étant donné la complexité du sujet, les mesures prises sont souvent aléatoires, sans orientation ou stratégie claire, ce qui entraîne des occasions manquées et une lente réalisation des avantages potentiels..

Un récent sondage mené par Teradata auprès d'entreprises européennes a révélé que près de la moitié (47%) menaient déjà des projets de données volumineuses ou en projetaient dans les deux prochaines années. Et l’élan prend de l’ampleur - même avec le soutien des gouvernements - par exemple, la Commission européenne finance un forum Big Data Public / Privé (Big Data) conçu pour engager toutes les parties prenantes dans la promotion du débat sur le Big Data..

Aux États-Unis, les grandes entreprises ont progressé encore plus rapidement. En 2009, il n'y avait qu'un petit nombre de projets Big Data, d'une valeur de seulement 100 millions de dollars. Pourtant, aujourd'hui, plus de 90% des entreprises du classement Fortune 500 ont lancé une initiative en ce sens..

Étant donné que la croissance des données est principalement due aux nouvelles sources de données «non structurées», les méthodes utilisées pour stocker et analyser cet actif ont également un impact significatif. Cela se reflète dans l’intérêt croissant pour les nouvelles infrastructures de stockage, en particulier les solutions open source, telles que Hadoop..

Hadoop - aller au-delà de l'expérimentation

En tant que première étape du Big Data, de nombreuses entreprises se sont lancées dans l'exploration de Hadoop, attirées par le concept de téléchargement de logiciels gratuits à code source ouvert sur des serveurs de produits de base peu coûteux, afin d'améliorer leur capacité à analyser efficacement les données au sein de l'entreprise..

Pourtant, cette approche n’est pas sans risque. Tout d’abord, pour commencer, la solution consiste à regarder du mauvais côté du télescope. Au lieu de cela, l'organisation devrait d'abord examiner les problèmes commerciaux à résoudre, puis définir une réponse appropriée..

Deuxièmement, tout développement devrait faire l’objet d’une analyse rigoureuse et continue visant à déterminer s’il fonctionne correctement et est la meilleure solution au problème..

Cela dit, Hadoop offre un certain nombre d'avantages uniques à l'entreprise. En tant que grand système de fichiers distribué, il permet à l’entreprise d’acquérir et de stocker de grands volumes de données semi-structurées et non structurées à moindre coût. En conséquence, il est de plus en plus perçu comme une plate-forme de stockage de données à long terme extrêmement efficace..

Hadoop est également un moyen efficace de traitement séquentiel des fichiers. Cela est particulièrement utile pour les tâches de prétraitement telles que la préparation de journaux Web pour le chargement dans un entrepôt de données..

Cependant, en tant qu'outil de traitement par lots traditionnel, Hadoop est moins efficace qu'un entrepôt de données traditionnel pour gérer les requêtes nécessitant des données sur différents fichiers et ne peut prendre en charge qu'un petit nombre de requêtes utilisateur à un moment donné..

Alors, où en sommes-nous? Les entreprises qui implémentent Hadoop trouvent généralement qu’il est rapide et facile de stocker d’énormes volumes de différents types de données et d’effectuer la majeure partie de la manipulation et de la préparation initiales des données. Cependant, ils reconnaissent rapidement les limites des analyses en cours dans cet environnement - la vérité est qu’il n’existe pas de solution miracle à la vaste gamme d’analyses nécessaires aujourd’hui..