http://www.bulletins-electroniques.com/actualites/68051.htm
De nombreux systèmes
d'analyse de données sont basés sur un traitement séquentiel (batch).
Cependant, ce type de traitement n'est pas assez efficace dans le cas
d'applications nécessitant une analyse temps-réel sur un grand nombre de
données. Le traitement séquentiel impose à un serveur d'attendre que
toutes les données précédemment reçues soient traitées, ce qui augmente
peu à peu le temps de réaction et ne permet donc pas de répondre à des
situations où la spontanéité est un facteur critique.
L'un des leaders japonais des technologies de l'information, NTT, a développé conjointement avec l'entreprise japonaise Preferred Infrastructure une technologie appelée Jubatus permettant une analyse en temps-réel d'un gros volume de données.
Le nom Jubatus provient du nom scientifique du guépard.
L'un des leaders japonais des technologies de l'information, NTT, a développé conjointement avec l'entreprise japonaise Preferred Infrastructure une technologie appelée Jubatus permettant une analyse en temps-réel d'un gros volume de données.
Le nom Jubatus provient du nom scientifique du guépard.
Précision de différents traitements en fonction du temps Crédits : ML / Ambassade de France au Japon, d'après Preferred Infrastructure Corp.
Jusqu'à maintenant, d'autres travaux avaient tenté de maîtriser ce problème d'"explosion des données". Par exemple, Hadoop [1], un framework (c'est-à-dire un ensemble de classes ou de librairies réutilisables dans un logiciel) dont le développement communautaire est fortement supporté par Yahoo!, permet de diviser des données selon un procédé de type MapReduce (système conçu par Google [2]) et de les distribuer à différents serveurs.
L'objectif du framework Jubatus est d'analyser de façon "distribuée" entre les serveurs et en continu de larges volumes de données dans le but de réaliser une analyse détaillée. La communication entre les serveurs est donc essentielle. Dans le cas de Jubatus, le système d'agrégation et de communication de résultats intermédiaires (appelé MIX) est particulièrement flexible. Au lieu d'effectuer une comparaison des résultats d'analyse uniquement à la fin de chaque itération (ce qui peut induire une attente entre les serveurs), le système est capable d'optimiser le moment où cette opération sera réalisée de façon à augmenter la productivité de chaque serveur.
Jubatus dispose d'une architecture dite "pluggable" : les moteurs et modules d'analyse disposent d'interfaces communes. Ils peuvent alors être simplement utilisés comme "brique logicielle". Compte-tenu de l'augmentation rapide de la quantité d'informations sur Internet, Jubatus sera particulièrement bien venu pour l'analyse sur ce réseau. Ainsi, les applications envisagées sont, par exemple, l'analyse en temps réel de messages des réseaux sociaux types Twitter dans un but de catégorisation, de filtrage ou de "recherche floue", ou encore la détection de cyber-attaques.
Le framework sera mis à disposition du public en open-source, avec l'espoir de créer une communauté d'utilisateurs.
Pour en savoir plus, contacts :
- [1] Site internet d'Hadoop (anglais) : http://hadoop.apache.org/
- [2] MapReduce: Simplified Data Processing on Large Clusters, Google, décembre 2004 (anglais) - http://labs.google.com/papers/mapreduce.html
Code brève ADIT : 68051
Sources : Communiqué de pressse de NTT et Preferred Infrastructure, 26/10/2011 (anglais) : http://preferred.jp/2011/10/jubatus-english.html
Rédacteurs : Maxime LABAT - adjoint(point)stic(arobase)ambafrance(tiret)jp(point)org
Origine : BE Japon numéro 591 (28/10/2011) - Ambassade de France au Japon / ADIT - http://www.bulletins-electroniques.com/actualites/68051.htm
Aucun commentaire:
Enregistrer un commentaire