dimanche 12 janvier 2014

Hadoop se met à la programmation R native pour l'analyse big data

A lire sur: http://www.lemondeinformatique.fr/actualites/lire-hadoop-se-met-a-la-programmation-r-native-pour-l-analyse-big-data-56010.html

RRE7 comprend une bibliothèque d'algorithmes R que l’on peut exécuter en parallèle sur plusieurs nœuds.
RRE7 comprend une bibliothèque d'algorithmes R que l’on peut exécuter en parallèle sur plusieurs nœuds.
Revolution R Enterprise a livré un plug-in permettant de faire tourner des analytiques R sur des ensembles de données Hadoop.
Voyant l'intérêt croissant suscité par l'analyse big data, l'éditeur de logiciels Revolution Analytics a mis à jour son principal produit, à savoir son pack de fonctions statistiques R. Désormais, R peut tourner avec la plate-forme de traitement de données Hadoop. Disponible depuis hier, Revolution R Enterprise 7 (RRE 7) permet aussi de faire tourner R dans les bases de données Teradata. Le langage R permet d'effectuer des tests statistiques courants - comme la modélisation linéaire et non linéaire, l'analyse de séries chronologiques, la classification et le regroupement - sur un ensemble de données. La présentation des résultats se fait ensuite le plus souvent sous forme graphique. R est de plus en plus utilisé pour faire de l'analyse de données sophistiquée et va au-delà de ce que peuvent offrir la plupart des solutions de BI courantes. Selon Revolution Analytics, plus de 2 millions de personnes utilisent R dans le monde.

Compatible avec les distributions Cloudera et Hortonworks

RRE7 comprend une bibliothèque d'algorithmes R que l'on peut exécuter en parallèle sur plusieurs noeuds. Il donc très adapté à la façon dont Hadoop gère les grands ensembles de données. RRE 7 peut être ajouté aux distributions Cloudera CDH3 et Hadoop CDH4 ainsi qu'à la plateforme de données Hortonworks Data Platform 1.3. La nouvelle bibliothèque R comprend les algorithmes d'analyse statistique et prédictive couramment utilisés pour le traitement des données, l'échantillonnage de données, les statistiques descriptives, les tests statistiques, la visualisation de données, la simulation, l'apprentissage automatique et les modèles prédictifs.

Selon Revolution Analytics, l'analyse de données basées sur R est plus rapide : en effet, les données n'ont pas besoin d'être transférées ailleurs et l'analyse peut se faire directement dans le noeud où elles résident. R permet également d'analyser un ensemble complet de données, et pas seulement un sous-ensemble ou un échantillon de données, ce qui rapproche aussi le langage avec le mode de fonctionnement des entrepôts de données d'entreprise (EDWS).

Apprentissage automatique pour faciliter la prédiction

Revolution Analytics espère que l'intégration de R dans Hadoop et dans les bases de données Teradata va permettre d'étendre l'usage du langage aux responsables des services. L'entreprise a conçu une nouvelle interface de workflow ne nécessitant aucune connaissance quant à la mise en oeuvre des algorithmes spécifiques de R. Cela permet d'éviter les problèmes de codage de R avec Java ou un autre langage, en vue de faire tourner R sur la plate-forme Hadoop.

Outre la compatibilité avec ces nouvelles plates-formes, RRE7 comporte également un certain nombre de nouveaux algorithmes et de processus. On trouve par exemple une série de modèles pour le paramétrage de Decision Forests, une technique d'apprentissage automatique pour prédire des résultats futurs. Un ensemble de fonctionnalités dites Stepwise Regression permet d'automatiser la sélection des variables les plus importantes qui doivent servir à un modèle prédictif. Decision Tree propose un mode de visualisation sous forme graphique pour représenter des relations et des corrélations complexes dans un ensemble de données.

Aucun commentaire:

Publier un commentaire