A lire sur: http://www.talend.com/sites/default/files/newsletter/newsletter39_FR_edito.html
La
plupart des organisations ne sont qu’au début de l’adoption des big
data et peu d’entre elles réalisent, au-delà de l’aspect technologique, à
quel point les big data vont impacter leurs processus et leur
architecture d’information. Que les projets big data aient dépassé le
stade du pilote et que la mise en production soit en cours ou qu’ils se
profilent à l’horizon, une réflexion stratégique et une planification
adéquate sont nécessaires pour éviter les pièges les plus courants qui
peuvent entraver la réussite des projets big data.
Nos experts big data ont identifié cinq éléments à surveiller :
Oubliez le volume (ou plutôt, ne vous focalisez pas dessus).
Les big data sont grandes et petites à la fois. Elles ont des origines,
une homogénéité, une qualité et des formats différents. Certaines
organisations dans certains secteurs d’activité doivent traiter de gros
volumes de données alors que d’autres en ont de plus petits à exploiter,
mais qui peuvent avoir des sources et des formats très différents. Vous
devez vous attaquer aux “bonnes” données : identifiez toutes les
sources pertinentes et ne vous sentez pas gêné si votre cluster big data
ne comporte pas des centaines de serveurs !
Ne perdez pas de données en route, pensez global.
Certaines des données nécessaires à vos projets big data sont
clairement identifiées, c’est le cas des données transactionnelles ou de
celles générées par les applications métier. Cependant, la plupart de
ces données sont cachées dans des fichiers de logs, des systèmes de
production, des PC ou différents serveurs ; c’est ce qu’on appelle les «
Dark Data » ou « Données Cachées ». Certaines même disparaissent dans
les méandres de l’IT. Ces « Données d’Echappement » des capteurs et logs
sont purgées après un certain temps ou ne sont jamais stockées. Toutes
peuvent se révéler pertinentes. Ne limitez pas votre projet à la
première catégorie : répertoriez les « Dark Data », déployez des
processus de récupération pour les « Données d’Echappement » et
transformez-les ensuite en valeur ajoutée.
Ne déplacez pas tout, distribuez vos données « logiquement ».
Trop d’organisations cherchent à éliminer les silos de données pour
centraliser les données en un seul endroit et Hadoop est une excellente
ressource de stockage pour les gros volumes de données (où elles sont
distribuées à travers des clusters). Cependant, vous devez penser à
cette « distribution » au delà d’Hadoop. Il n’est pas toujours
nécessaire de tout dupliquer et reproduire. Certaines données sont déjà
disponibles dans le data warehouse, avec un accès rapide. Certaines
d’entre elles devraient plutôt se trouver dans leur source de
production. Le concept de « l’entrepôt de données logique » s’applique
très bien dans le monde du “non big data”. Il faut aussi l’appliquer au
big data.
Il ne s’agit pas uniquement de stockage, pensez plateforme de traitement.
Hadoop n’est pas seulement un conteneur pour les big data avec son
système de fichier distribué, c’est également un moteur puissant
permettant de traiter les données et d’en extraire de précieuses
informations. Il existe un écosystème étendu d’outils et des paradigmes
de programmation qui couvrent tous les cas d’usage en matière de
manipulation de données. De MapReduce à YARN, de Pig à HiveQL complété
par Impala, Stinger ou Drill, ou à travers la fusion des moteurs Hadoop
et SQL comme HAWK, il existe des ressources qui ne vous obligent pas à
extraire les données de la plateforme. Et toutes ces ressources sont là,
à portée de main.
Enfin, n’isolez pas vos big data.
Les environnements de type « sandbox » conviennent parfaitement à des
prototypes et projets pilotes mais quand on industrialise les projets,
ces derniers doivent faire partie intégrante de l’infrastructure
informatique globale et de l’architecture d’information. Vous devez
connecter vos applications big data à d’autres systèmes en amont et en
aval. Les big data doivent également être intégrées dans vos politiques
de gouvernance d’information.
Alors
que l’intérêt et la mise en œuvre de stratégies big data ne cesse de
croître, beaucoup d’organisations sont toujours à la case départ.
L’aspect nouveau des plateformes et des applications, met les projets
big data sous les feux des projecteurs et les attentes sont très
élevées.
Les
technologies innovantes comme celle proposées par Talend, facilitent le
démarrage des projets en abaissant la barrière à l’adoption. Cependant,
les projets pilotes qui s’industrialisent ne se réduisent pas qu’à une
simple technologie.
Nous
pensons que ces éléments aideront les organisations à apprendre à
partir de l’expérience des autres et à éviter les embûches semées sur le
chemin du big data.
Bertrand Diard, Co-fondateur et Chief Strategy Officer - Talend
Aucun commentaire:
Enregistrer un commentaire