Aller plus loin    
  • ​Lexique

    Lexique

    Arbres de décision

    Algorithme permettant la résolution de problèmes en les représentant sous forme d’arbre dans lequel chaque feuille représente une solution possible, les branches les choix à suivre.

    Churn

    Le churn ou taux d’attrition correspond à la part des clients perdus sur une période.

    Clickstream

    Il s’agit du flux de clics généré en permanence par les utilisateurs d’un site Internet. Il est donc la source principale de l’analyse de l’activité des utilisateurs au travers de leurs clics sur une page web. C’est une source précieuse d’information pour les algorithmes de Machine Learning.

    COA (Container Oriented Architecture)

    L’architecture Orientée Container vise à découper le Système d’Information en services indépendants qui seront déployés dans des containers.

    Dark data

    Il s’agit de la donnée qui est collectée, utilisée et stockée par les entreprises mais qui n’est pas exploitée à des fin d’analyse et qui par conséquent n’est pas monétisée.

    Data Analyst

    Maîtrisant les outils du Big Data et les statistiques, le Data Analyst code les algorithmes prédictifs sur la plateforme analytique.

    Data Cleansing

    Littéralement nettoyage des données. C’est une phase qui consiste à supprimer les données incohérentes, corriger les erreurs comme, par exemple, des données mal saisies. Disposer d’informations d’un bon niveau de qualité est un préalable à l’élaboration d’algorithmes de Machine Learning.

    Data Engineer

    C’est l’informaticien, spécialiste du Big Data, qui va mettre en oeuvre tous les outils et solutions à destination des utilisateurs.
    Son périmètre de compétence s’arrête à l’analyse des données.

    Data Governance (Gouvernance des données)

    Ensemble des techniques permettant de s’assurer de la gestion, de l’exploitation, de l’optimisation, et du contrôle des données des entreprises.
    L’activité consiste aussi à s’assurer que les bonnes pratiques du management de la donnée sont appliquées.

    Data Lake

    L’approche Data Lake ou lac de données consiste à mettre en place un cluster Hadoop, le plus souvent, où vont converger toutes les données brutes que l’entreprise peut capter. Cela permet de s’affranchir des silos fonctionnels ou techniques d’une entreprise.

    Data Management Platform

    Une plateforme DMP permet de récupérer, centraliser, gérer et utiliser les données relatives aux prospects et clients. Les plateformes DMP sont utilisées pour optimiser le ciblage et l’efficacité des campagnes marketing et publicitaires.

    Data Mining

    Permet de trouver des corrélations, des modèles, des tendances parmi les données en utilisant des algorithmes statistiques et mathématiques.

    Data Scientist

    Poste à double compétence car il est capable d’utiliser les outils informatiques du Big Data (voire de coder en Python, R, …) et de comprendre les enjeux business de ses analyses.

    Data Visualisation

    Aussi nommée « dataviz« , il s’agit de technologies, méthodes et outils de visualisation des données. Elle peut se concrétiser par des graphiques, des camemberts, des diagrammes, des cartographies, des chronologies, des infographies, ou même des créations graphiques inédites. La présentation sous une forme illustrée rend les données plus lisibles et compréhensibles.

    Datastore

    Système de persistance des données (Hadoop, SGBD, NoSQL, …).

    Dirty data

    Données brutes, non filtrées et inutilisables pour les systèmes d’analyse.

    KPI (Key Performances Indicators)

    Indicateurs de performances qui varient en fonction de ce que vous mesurez.

    • Pour un site web, visites, visiteurs, nouveaux visiteurs,…
    • Pour une campagne email, taux d’ouverture, de réactivité, de clics,…

    LDAP (Lightweight Directory Access Protocol)

    LDAP est un protocole permettant l’interrogation et la modification des services d’annuaire.

    Machine Learning

    Discipline issue de l’intelligence artificielle, le Machine Learning ou apprentissage automatique consiste au développement d’algorithmes qui apprennent un phénomène à partir des données. L’apprentissage est automatique, à la différence du Data Mining classique, où les analyses sont réalisées par le statisticien, a posteriori.

    MDM (Master Data Management)

    Ensemble de processus visant à gérer les données de références de l’entreprise au sein d’une base de données.

    NoSQL

    Système de gestion de base de données fondé sur des principes de non relation entre les documents et de scalabilité horizontale.

    Open Data

    Si le mouvement données Open Data n’est pas directement lié au Big Data, même si ce dernier peut tirer profit des données de plus en plus librement accessibles sur le Web.

    Open Data

    Principe de donner accès à tous à des données numériques. Celles-ci sont mises en ligne et réutilisables par tous. Une “donnée ouverte” est publiée de manière “Complète, Primaire, Opportune, Accessible, Exploitable, NonDiscriminatoire, Non-Propriétaire, Libre de droits, Permanente, et Gratuite” (Source Association Libertic).

    Prédictif

    Les algorithmes prédictifs constituent une application directe des techniques de Machine Learning dans le Big Data.

    • A partir d’un historique d’achats, de sessions de navigation sur un site internet, ces algorithmes vont prédire quels seront les prochains besoins d’un consommateur.
    • A partir de l’analyse des vibrations d’un moteur, un algorithme prédictif va diagnostiquer une panne avant qu’elle ne survienne.

    Qualité des données

    C’est l’un des problèmes clés du Big Data pour que les algorithmes fonctionnent correctement, ils doivent pouvoir s’appuyer sur des données fiables et cohérentes. Cela impose un gros travail de nettoyage en amont pour ne pas faire ce qu’on appelle du «Machine Learning on dirty data».

    Régression logistique

    Algorithme prédictif utilisé dans le scoring des clients.

    Scalabilité

    Capacité d’un système à pouvoir supporter l’augmentation de charge.
    On distingue :

    • Horizontale : ajout de serveurs
    • Verticale : augmentation des capacités du serveur.

    Scoring

    Note attribuée à un prospect pour évaluer son appétence à une offre, le risque de perte de son client (attrition) ou encore un risque d’impayé ou de faillite d’une entreprise.


    Smart Data

    Principe d’analyse et de valorisation de la donnée brute.
    Ce principe sous entend que les données brutes ne sont pas “smart” par défaut. Seule une analyse permettra d’en extraire les informations les plus pertinentes dans le contexte de l’entreprise.

    SOA (Service Oriented Architecture)

    L’architecture Orientée Service vise à transformer le Système d’Information en services unitaires et métiers.

  • ​Liens et références

    Survey finds Big Data experts spend up to 90% of their time preparing the data for analysis :

    Java on GPU vs CPU :

    Gartner : The Demise of Big Data, Its Lessons and the State of Things to Come

    Gartner Big Data Industry Insights : 

    Principles and best practices of scalable realtime data systems (Nathan Marz et James Warren) : 

    Articles Big Data Ippon :

    Algorithmes d’apprentissage : 

    Théorème CAP : 

    Pattern microservices : 

    La France et le cloud : 

    Techniques de modélisation :

ECRIVEZ NOUS SI VOUS AVEZ UNE QUESTION SUR CE CHAPITRE
TéléchArgez-gratuitement-le-liVre-blAncTéléchArgez-gratuitement-le-liVre-blAncTéléchArgez-gratuitement-le-liVre-blAnc
Pdf 11.39Mo
loading
POSEZ-NOUS VOTRE QUESTION
loading