vendredi 12 juillet 2013

Projets big data : les pièges à éviter

A lire sur:  http://www.talend.com/sites/default/files/newsletter/newsletter39_FR_edito.html


Bertrand_Diard
La plupart des organisations ne sont qu’au début de l’adoption des big data et peu d’entre elles réalisent, au-delà de l’aspect technologique, à quel point les big data vont impacter leurs processus et leur architecture d’information. Que les projets big data aient dépassé le stade du pilote et que la mise en production soit en cours ou qu’ils se profilent à l’horizon, une réflexion stratégique et une planification adéquate sont nécessaires pour éviter les pièges les plus courants qui peuvent entraver la réussite des projets big data.
Nos experts big data ont identifié cinq éléments à surveiller :
Oubliez le volume (ou plutôt, ne vous focalisez pas dessus). Les big data sont grandes et petites à la fois. Elles ont des origines, une homogénéité, une qualité et des formats différents. Certaines organisations dans certains secteurs d’activité doivent traiter de gros volumes de données alors que d’autres en ont de plus petits à exploiter, mais qui peuvent avoir des sources et des formats très différents. Vous devez vous attaquer aux “bonnes” données : identifiez toutes les sources pertinentes et ne vous sentez pas gêné si votre cluster big data ne comporte pas des centaines de serveurs !
Ne perdez pas de données en route, pensez global. Certaines des données nécessaires à vos projets big data sont clairement identifiées, c’est le cas des données transactionnelles ou de celles générées par les applications métier. Cependant, la plupart de ces données sont cachées dans des fichiers de logs, des systèmes de production, des PC ou différents serveurs ; c’est ce qu’on appelle les « Dark Data » ou « Données Cachées ». Certaines même disparaissent dans les méandres de l’IT. Ces « Données d’Echappement » des capteurs et logs sont purgées après un certain temps ou ne sont jamais stockées. Toutes peuvent se révéler pertinentes. Ne limitez pas votre projet à la première catégorie : répertoriez les « Dark Data », déployez des processus de récupération pour les « Données d’Echappement » et transformez-les ensuite en valeur ajoutée.
Ne déplacez pas tout, distribuez vos données « logiquement ». Trop d’organisations cherchent à éliminer les silos de données pour centraliser les données en un seul endroit et Hadoop est une excellente ressource de stockage pour les gros volumes de données (où elles sont distribuées à travers des clusters). Cependant, vous devez penser à cette « distribution » au delà d’Hadoop. Il n’est pas toujours nécessaire de tout dupliquer et reproduire. Certaines données sont déjà disponibles dans le data warehouse, avec un accès rapide. Certaines d’entre elles devraient plutôt se trouver dans leur source de production. Le concept de « l’entrepôt de données logique » s’applique très bien dans le monde du “non big data”. Il faut aussi l’appliquer au big data.
Il ne s’agit pas uniquement de stockage, pensez plateforme de traitement. Hadoop n’est pas seulement un conteneur pour les big data avec son système de fichier distribué, c’est également un moteur puissant permettant de traiter les données et d’en extraire de précieuses informations. Il existe un écosystème étendu d’outils et des paradigmes de programmation qui couvrent tous les cas d’usage en matière de manipulation de données. De MapReduce à YARN, de Pig à HiveQL complété par Impala, Stinger ou Drill, ou à travers la fusion des moteurs Hadoop et SQL comme HAWK, il existe des ressources qui ne vous obligent pas à extraire les données de la plateforme. Et toutes ces ressources sont là, à portée de main.
Enfin, n’isolez pas vos big data. Les environnements de type « sandbox » conviennent parfaitement à des prototypes et projets pilotes mais quand on industrialise les projets, ces derniers doivent faire partie intégrante de l’infrastructure informatique globale et de l’architecture d’information. Vous devez connecter vos applications big data à d’autres systèmes en amont et en aval. Les big data doivent également être intégrées dans vos politiques de gouvernance d’information.
Alors que l’intérêt et la mise en œuvre de stratégies big data ne cesse de croître, beaucoup d’organisations sont toujours à la case départ. L’aspect nouveau des plateformes et des applications, met les projets big data sous les feux des projecteurs et les attentes sont très élevées.
Les technologies innovantes comme celle proposées par Talend, facilitent le démarrage des projets en abaissant la barrière à l’adoption. Cependant, les projets pilotes qui s’industrialisent ne se réduisent pas qu’à une simple technologie.
Nous pensons que ces éléments aideront les organisations à apprendre à partir de l’expérience des autres et à éviter les embûches semées sur le chemin du big data.
Bertrand Diard, Co-fondateur et Chief Strategy Officer - Talend

Aucun commentaire:

Enregistrer un commentaire