A lire sur: http://www.decideo.fr/La-Qualite-de-Donnees-en-Entreprise_a5663.html?utm_medium=email&utm_campaign=Decideo+457&utm_content=Decideo+457+CID_955befbc41df4f949e20ca75245cea56&utm_source=CampaignMonitor&utm_term=Lire%20la%20suite%20et%20commenter
Le sujet de ce post m’est venu à la lecture d’un message sur
Twitter. Une personne se plaignait d’avoir reçu un message électronique
qui ne lui était pas destiné. Ce tweet, le voici : “Just received an
email[...] with a wrong name, not even with my nickname! (Reçu un email
avec un mauvais nom, même pas mon surnom)” Précisément, cette personne a
reçu cet email avec un nom différent du sien parce qu’une base de
données était probablement de mauvaise qualité. Comment est-ce que des
erreurs comme celles-ci peuvent se produire aujourd’hui ? Pourquoi
est-ce que la qualité de données s’avère être importante dans la gestion
des données ? Comment les entreprises s’adaptent à la qualité de
données avec un volume important de données ? Ce sont ces questions
auxquelles je vais tenter de répondre.
Patrick COFFRE, Talend, Mercredi 14 Novembre 2012
Le sujet de ce post m’est venu à la lecture d’un message sur
Twitter. Une personne se plaignait d’avoir reçu un message électronique
qui ne lui était pas destiné. Ce tweet, le voici : “Just received an
email[...] with a wrong name, not even with my nickname! (Reçu un email
avec un mauvais nom, même pas mon surnom)” Précisément, cette personne a
reçu cet email avec un nom différent du sien parce qu’une base de
données était probablement de mauvaise qualité. Comment est-ce que des
erreurs comme celles-ci peuvent se produire aujourd’hui ? Pourquoi
est-ce que la qualité de données s’avère être importante dans la gestion
des données ? Comment les entreprises s’adaptent à la qualité de
données avec un volume important de données ? Ce sont ces questions
auxquelles je vais tenter de répondre.
Patrick COFFRE, community manager de Talend
La diminution et les erreurs de qualité de données ont pour cause
de nombreuses raisons. Nous pouvons classifier en trois catégories les
changements sur les données pouvant causer des diminutions de qualité:
- Les entrées de nouvelles données dans une base, comme l’insertion d’un nouveau nom de client ou la modification d’un contact déjà existant.
- La détérioration à cause de manipulations de données, par exemple un transfert de données.
- Les changements par processus interne, que ce soit par le traitement des données, le nettoyage des données ou la purge des données.
Ces diminutions de qualité peuvent ensuite entrainer des erreurs de données, dans un second temps, lorsque les données sont utilisées par les entreprises.
Regardons un exemple d’erreur de qualité de données. Dans son livre « Data Quality Assessment », Arkady Maydanchik cite l’un de ses premiers problèmes de qualité de données. Intégré à une équipe chargée de l’implémentation d’un nouveau système d’administration des retraites, Arkady pensait la tache simple à effectuer. Il s’avère que la conversion des anciens bulletins de salaire et types de compensation en retraite donnaient des erreurs pour de nombreux retraités. La moitié des codes de compensations n’étaient pas inclus dans la méthode de calcul et étaient totalement inconnus d’Arkady. C’est seulement en intégrant ces codes et après de longues semaines de profiling et analyses de données que l’implémentation du système a pu être faite.
Dans ce cas, la solution était relativement aisée à trouver, ce qui n’est pas le cas pour tous problèmes de qualité de données. Dans d’autres cas où la qualité de données est plus complexe, trop d’erreurs peut signifier la fin de l’utilisation des données dans l’entreprise et des équipes liées au projet !
Pour une Business Intelligence plus fiable, la qualité de données est importante quand on gère des données. Elle apporte de nombreux avantages, notamment une gestion de projet maîtrisée et de la fiabilité ainsi que de la flexibilité à la gestion de données d'une entreprise. Des données de bonne qualité permettent à l’entreprise de rester compétitive et de continuer à avancer.
Mais les données sont parfois fausses pour commencer, à cause d’erreurs, d'accidents, ce qui rend leur utilisation risqué pour l'entreprise : laquelle doit se tourner impérativement vers des solutions de qualité de données.
Les bonnes données d'origine sont parfois au mauvais endroit, et il arrive que celles-ci soient coupées ou modifiées. Les données peuvent aussi devenir obsolètes ou être victime de fraudes au sein de l'entreprise. Les entreprises pourront alors avoir recours à de la qualité de données pour réparer les erreurs.
Au-delà du phénomène médiatique, les grands volumes de données (Big Data) sont aussi un enjeu pour la qualité de données. Plus on a de données, plus les chances de se retrouver en face de problèmes de données potentiels est important.
Avec les Big Data, la qualité de données doit avoir une importance accrue. La nature des données volumineuses ne permet pas toujours des pratiques traditionnelles de qualité de données et le volume peut être trop important pour le traitement. Les données peuvent parfois être trop instables pour les gérer convenablement. C'est pourquoi on peut conseiller d’une part l’utilisation de processus de qualité de données basés sur Hadoop, pour faciliter la qualité de données sur des volumes importants. Et d’autre part une certaine rigueur et consistance dans la gestion des données volumineuses au sein de l’entreprise.
La qualité de données n’est pas une science exacte : les raisons de problèmes de qualité de données peuvent être différentes. La gestion des données suppose de prendre en compte la qualité de données.
Reprenons l’exemple du tweet en introduction : même si parfois on peut s’attendre à ce qu’aucun nom (parfois remplacé par des X) ou un nom différent apparaisse, parce qu’il est peut être difficile pour toutes les entreprises d’empêcher des problèmes de qualité de données, cela reste dommageable pour un individu de ne pas voir son nom mentionné. Alors, en fait, la qualité de données permet de non seulement techniquement s’adresser à la bonne personne dans un message personnalisé mais est aussi gage d’une bonne relation humaine entre l’entreprise et le destinataire. C’est pour ces raisons que la qualité de données en entreprise peut aujourd’hui être considérée comme l’un des composants de fidélisation au même titre que la relation commerciale, financière ou client.
- Les entrées de nouvelles données dans une base, comme l’insertion d’un nouveau nom de client ou la modification d’un contact déjà existant.
- La détérioration à cause de manipulations de données, par exemple un transfert de données.
- Les changements par processus interne, que ce soit par le traitement des données, le nettoyage des données ou la purge des données.
Ces diminutions de qualité peuvent ensuite entrainer des erreurs de données, dans un second temps, lorsque les données sont utilisées par les entreprises.
Regardons un exemple d’erreur de qualité de données. Dans son livre « Data Quality Assessment », Arkady Maydanchik cite l’un de ses premiers problèmes de qualité de données. Intégré à une équipe chargée de l’implémentation d’un nouveau système d’administration des retraites, Arkady pensait la tache simple à effectuer. Il s’avère que la conversion des anciens bulletins de salaire et types de compensation en retraite donnaient des erreurs pour de nombreux retraités. La moitié des codes de compensations n’étaient pas inclus dans la méthode de calcul et étaient totalement inconnus d’Arkady. C’est seulement en intégrant ces codes et après de longues semaines de profiling et analyses de données que l’implémentation du système a pu être faite.
Dans ce cas, la solution était relativement aisée à trouver, ce qui n’est pas le cas pour tous problèmes de qualité de données. Dans d’autres cas où la qualité de données est plus complexe, trop d’erreurs peut signifier la fin de l’utilisation des données dans l’entreprise et des équipes liées au projet !
Pour une Business Intelligence plus fiable, la qualité de données est importante quand on gère des données. Elle apporte de nombreux avantages, notamment une gestion de projet maîtrisée et de la fiabilité ainsi que de la flexibilité à la gestion de données d'une entreprise. Des données de bonne qualité permettent à l’entreprise de rester compétitive et de continuer à avancer.
Mais les données sont parfois fausses pour commencer, à cause d’erreurs, d'accidents, ce qui rend leur utilisation risqué pour l'entreprise : laquelle doit se tourner impérativement vers des solutions de qualité de données.
Les bonnes données d'origine sont parfois au mauvais endroit, et il arrive que celles-ci soient coupées ou modifiées. Les données peuvent aussi devenir obsolètes ou être victime de fraudes au sein de l'entreprise. Les entreprises pourront alors avoir recours à de la qualité de données pour réparer les erreurs.
Au-delà du phénomène médiatique, les grands volumes de données (Big Data) sont aussi un enjeu pour la qualité de données. Plus on a de données, plus les chances de se retrouver en face de problèmes de données potentiels est important.
Avec les Big Data, la qualité de données doit avoir une importance accrue. La nature des données volumineuses ne permet pas toujours des pratiques traditionnelles de qualité de données et le volume peut être trop important pour le traitement. Les données peuvent parfois être trop instables pour les gérer convenablement. C'est pourquoi on peut conseiller d’une part l’utilisation de processus de qualité de données basés sur Hadoop, pour faciliter la qualité de données sur des volumes importants. Et d’autre part une certaine rigueur et consistance dans la gestion des données volumineuses au sein de l’entreprise.
La qualité de données n’est pas une science exacte : les raisons de problèmes de qualité de données peuvent être différentes. La gestion des données suppose de prendre en compte la qualité de données.
Reprenons l’exemple du tweet en introduction : même si parfois on peut s’attendre à ce qu’aucun nom (parfois remplacé par des X) ou un nom différent apparaisse, parce qu’il est peut être difficile pour toutes les entreprises d’empêcher des problèmes de qualité de données, cela reste dommageable pour un individu de ne pas voir son nom mentionné. Alors, en fait, la qualité de données permet de non seulement techniquement s’adresser à la bonne personne dans un message personnalisé mais est aussi gage d’une bonne relation humaine entre l’entreprise et le destinataire. C’est pour ces raisons que la qualité de données en entreprise peut aujourd’hui être considérée comme l’un des composants de fidélisation au même titre que la relation commerciale, financière ou client.
Aucun commentaire:
Enregistrer un commentaire