mercredi 9 novembre 2011

Jubatus : analyse en temps réel de gros volumes de données


http://www.bulletins-electroniques.com/actualites/68051.htm
De nombreux systèmes d'analyse de données sont basés sur un traitement séquentiel (batch). Cependant, ce type de traitement n'est pas assez efficace dans le cas d'applications nécessitant une analyse temps-réel sur un grand nombre de données. Le traitement séquentiel impose à un serveur d'attendre que toutes les données précédemment reçues soient traitées, ce qui augmente peu à peu le temps de réaction et ne permet donc pas de répondre à des situations où la spontanéité est un facteur critique.

L'un des leaders japonais des technologies de l'information, NTT, a développé conjointement avec l'entreprise japonaise Preferred Infrastructure une technologie appelée Jubatus permettant une analyse en temps-réel d'un gros volume de données.

Le nom Jubatus provient du nom scientifique du guépard.


Précision de différents traitements en fonction du temps Crédits : ML / Ambassade de France au Japon, d'après Preferred Infrastructure Corp.

Jusqu'à maintenant, d'autres travaux avaient tenté de maîtriser ce problème d'"explosion des données". Par exemple, Hadoop [1], un framework (c'est-à-dire un ensemble de classes ou de librairies réutilisables dans un logiciel) dont le développement communautaire est fortement supporté par Yahoo!, permet de diviser des données selon un procédé de type MapReduce (système conçu par Google [2]) et de les distribuer à différents serveurs.

L'objectif du framework Jubatus est d'analyser de façon "distribuée" entre les serveurs et en continu de larges volumes de données dans le but de réaliser une analyse détaillée. La communication entre les serveurs est donc essentielle. Dans le cas de Jubatus, le système d'agrégation et de communication de résultats intermédiaires (appelé MIX) est particulièrement flexible. Au lieu d'effectuer une comparaison des résultats d'analyse uniquement à la fin de chaque itération (ce qui peut induire une attente entre les serveurs), le système est capable d'optimiser le moment où cette opération sera réalisée de façon à augmenter la productivité de chaque serveur.

Jubatus dispose d'une architecture dite "pluggable" : les moteurs et modules d'analyse disposent d'interfaces communes. Ils peuvent alors être simplement utilisés comme "brique logicielle". Compte-tenu de l'augmentation rapide de la quantité d'informations sur Internet, Jubatus sera particulièrement bien venu pour l'analyse sur ce réseau. Ainsi, les applications envisagées sont, par exemple, l'analyse en temps réel de messages des réseaux sociaux types Twitter dans un but de catégorisation, de filtrage ou de "recherche floue", ou encore la détection de cyber-attaques.

Le framework sera mis à disposition du public en open-source, avec l'espoir de créer une communauté d'utilisateurs. 


Pour en savoir plus, contacts :
- [1] Site internet d'Hadoop (anglais) : http://hadoop.apache.org/
- [2] MapReduce: Simplified Data Processing on Large Clusters, Google, décembre 2004 (anglais) - http://labs.google.com/papers/mapreduce.html
   
Code brève ADIT : 68051

Sources : Communiqué de pressse de NTT et Preferred Infrastructure, 26/10/2011 (anglais) : http://preferred.jp/2011/10/jubatus-english.html

Rédacteurs : Maxime LABAT - adjoint(point)stic(arobase)ambafrance(tiret)jp(point)org

Origine : BE Japon numéro 591 (28/10/2011) - Ambassade de France au Japon / ADIT - http://www.bulletins-electroniques.com/actualites/68051.htm

Aucun commentaire:

Enregistrer un commentaire