Les données sont au cœur de toutes les technologies que nous touchons et, au fur et à mesure de nos activités quotidiennes, nous consommons et générons des données à un rythme incroyable. Même quelque chose d'aussi simple que de payer un déjeuner dans un café avec une carte de débit génère des données.

Récemment, les volumes de données que nous produisons ont explosé. Nous ne parlons donc plus de données faciles à gérer dans un tableur, mais de mégadonnées, qui nécessitent des systèmes d’intelligence sophistiqués..

Les évangélistes du Big Data ont vanté les avantages de la collecte de plus en plus de données, citant le fait que la taille est bonne et que mieux c'est. Cette vague de données a été conçue pour nous rendre plus intelligents, nous permettre de prendre des décisions en temps quasi réel et peut-être même de prédire les comportements futurs..

Cependant, ces affirmations séduisantes sur le big data cachent le fait que, si elles sont regroupées dans l'infrastructure actuelle de la plupart des entreprises, le déluge de données risque de rendre une entreprise plus lente, moins réactive et - à long terme - moins "intelligente"..

Pourquoi cela arrive-t-il?

Cela s'explique par le fait que le traitement de téraoctets d'informations sur les systèmes hérités déjà taxés sur lesquels de nombreuses entreprises sont exécutées prend de plus en plus de temps à mesure que les volumes de données augmentent..

En conséquence, les organisations de données finissent par utiliser des rapports critiques pour l'entreprise ou pour tester de nouvelles applications. Elles ne sont pas du tout en temps réel, elles sont anciennes et vieillissent à mesure que les types d'exigences informatiques supplémentaires suivantes aggravent le problème:

Migration de données: Les entreprises gèrent souvent un grand nombre d'applications d'entreprise (celles du secteur bancaire peuvent compter plusieurs milliers de personnes) et disposent de processus complexes pour les données à traiter avant de parvenir au logiciel de Business Intelligence pour analyse..

Les données doivent passer des applications aux magasins de données opérationnelles avant de se retrouver dans un entrepôt de données. Ce processus doit généralement être terminé dans un laps de temps limité et, lorsque les volumes de données étaient plus petits, la tâche était relativement facile à gérer..

Si l'un de ces projets se déroule en même temps que des projets d'aide à la décision, il est possible que les analystes, au lieu d'avoir des données obsolètes dans l'environnement de reporting, se retrouvent avec des données parfois vieilles de quelques semaines. Un de nos clients a calculé que le coût de cette attente d'anciennes données représentait 50% de son investissement en BI..

Réplication de la base de données: De nombreuses grandes entreprises ont besoin de gérer plusieurs instances de bases de données uniques. Ces bases de données sont utilisées pour une multitude de processus métier, y compris les tests et le développement, l'assurance qualité, la formation, la sauvegarde et la reprise après sinistre..

En conséquence, chaque base de données est en moyenne répliquée huit à dix fois. Ces réplications agissent comme une ancre marine sur n'importe quel système de Business Intelligence il faut énormément de temps et d'efforts pour analyser les données répliquées, ce qui ralentit le processus dans son ensemble.

Masquage des données: La nouvelle réglementation de l'UE imposera bientôt à toute organisation traitant des données client de masquer les données sensibles qu'elles collectent, qu'elles soient utilisées pour le développement, les tests et l'assurance qualité, ou simplement stockées et contrôlées à des fins de veille stratégique..

Bien que le processus de masquage des données soit simple, les entreprises rencontrent souvent des problèmes de livraison des données. Comme les organisations doivent masquer non seulement un ensemble de données, mais chaque copie réalisée, ces projets s’accumulent à un rythme rapide..

Une foule de compromis

Alors, quelle est la solution à ce problème de données vieillissantes? Traditionnellement, dans la plupart des cas, cela implique beaucoup de compromis. Par exemple, certaines entreprises tentent de résoudre ce problème en choisissant de travailler avec des sous-ensembles de données plus petits..

D'autres organisations donnent la priorité aux données devant être réellement en temps réel et pouvant être fournies chaque semaine, chaque mois ou chaque trimestre. Cependant, en s'éloignant des architectures traditionnelles et en accordant la priorité à l'intégrité de leurs données, de nombreuses entreprises constatent qu'elles sont en mesure d'éviter de prendre ces mesures compromettantes..

Pour hiérarchiser les données, les entreprises doivent d’abord les rendre agiles. Les techniques de virtualisation sont maintenant appliquées à des piles d'applications entières, ce qui permet même aux ensembles de données les plus volumineux de prendre une fraction de l'espace, ce qui signifie que les données peuvent désormais être livrées n'importe où dans l'entreprise en quelques minutes..

Les entreprises qui ont mis leurs données en premier en déployant la technologie de virtualisation ont vu les délais de traitement diminuer considérablement, passant de quelques semaines à quelques heures, ce qui signifie que les données n’ont plus la chance de devenir obsolètes. Un de nos clients a pu améliorer les performances à un point tel que les données sont arrivées en minutes plutôt qu'en jours..

La plupart des responsables informatiques comprennent déjà les avantages en termes d'agilité et de mobilité que la virtualisation peut offrir avec leurs serveurs. Cependant, en élargissant les possibilités de virtualisation à la pile d'applications, les entreprises peuvent commencer à obtenir les types d'informations et d'informations décisionnelles que le «big data» a toujours promis, tout en restant en mesure de développer, tester et déployer de nouvelles applications de manière efficace..

Les données vieillissantes nous ralentissent, pas plus intelligemment; mais avec la bonne infrastructure en place, la fierté du big data - la mienne est plus grande que la vôtre - pourrait enfin commencer à prendre un sens réel.

  • Iain Chidgey a plus de 20 ans d'expérience dans le secteur des technologies de l'information. Il est actuellement vice-président EMEA et directeur général de Delphix, l'un des principaux fournisseurs mondiaux de plates-formes de gestion de données agiles destinées aux entreprises du monde entier..