Présentation    
  • ​Introduction

    Tout d’abord le Big Data n’est plus qu’une problématique de volume contrairement à ce que son nom laisse supposer.

    Même s’il est vrai que le Big Data est capable de traiter des volumétries conséquentes, l’enjeu principal est la valorisation de ces données quel que soit leur volume.

    Il y a des tentatives pour remplacer ce terme, soit par une dénomination technique : Fast Data, soit en mettant l’accent sur la valorisation des données : Smart Data.

    Les cas d'utilisation les plus répandus des technologies Big Data :

    • Analyse des logs des serveurs
    • Recoupement entre différentes sources de données
    • Analyse des informations produits, catalogue, …
    • Sécurité des accès (analyse des requêtes du SI)
    • Analyse de risque ou panne 
    • Détection de fraude
    • Détection de tendances (analyse sémantique / sentiment analysis)
    • Segmentation et ciblage (recommandations, Data Management Platform ...)
    • Recherche d’information dans des données non structurées
    • Analyse prédictive des comportements
    • Prédiction de l’attrition pour mise en place de campagnes ciblées de fidélisation ou de reconquête
    • Real-time marketing
    • Contrôle de l’image et de la communication par analyse sémantique
    • Optimisation opérationnelle de la chaîne d’approvisionnement
    • Parcours client type
    • Mesure de la performance des campagnes marketing
    • Click and collect
    • Click to chat
    • Moteur de recommandation
    • Contenu personnalisé 
    • Programme promotionnel personnalisé
    • Consolidation des données clients (360°)
    • ...

     

  • ​Chronologie du Big Data

    Les enjeux et les challenges du Big Data sont loin d’être nouveaux. Si l’on s’intéresse à la chronologie des événements qui ont créé le Big Data tel que nous le connaissons aujourd’hui, on s’aperçoit que cette genèse remonte assez loin dans le temps et qu’il a fallu que les idées convainquent et que les solutions mûrissent afin d’en arriver là.

    Date Événements
    1997 Première apparition du terme Big Data (NASA) pour désigner le challenge de travailler avec de larges volumes de données non structurées
    1998 Première base NoSQL (et utilisation du terme) par Carlo Strozzi
    2000 Neo4j (base NoSQL orientée graphes)
    2001 Première définition du Big Data (Volume/Variété/Vélocité) par Gartner
    2005 Naissance d’Hadoop
    2005 Naissance de CouchDB (base NoSQL orientée documents)
    2006 Publication Google BigTable
    2007 Naissance HBase (base orientée documents)
    2007 Publication base orientée colonnes Amazon Dynamo
    2007 Base MongoDB (base orientée documents)
    2007 Création société 10Gen (devenue MongoDB)
    2008 Naissance de Cassandra (base NoSQL partitionnée)
    2008 Création société Cloudera
    2008 Hadoop bat le record « Terabyte sort Benchmark »
    2009 Naissance de Flink
    2009 Base clé/valeur Redis
    2009 Création de la société MapR
    2009 Naissance de Mesos (gestion des ressources)
    2009 Naissance de Spark (analyse de données)
    2010 Création de la société DataStax (Cassandra)
    2011 Création de la société Hortonworks
    2012 YARN en remplacement de Hadoop v1
    2013 Création de la société DataBricks (Spark)
    2014 Spark bat le record « Terabyte sort Benchmark »

    Sources des données

    Voici une liste des sources de données les plus répandues dans le Big Data :

    • données métier,
    • historique d’utilisation de vos services par les utilisateurs,
    • fichiers clients (Customer Relationship Management (CRM)),
    • données fournies par les partenaires,
    • réseaux sociaux,
    • centres d’appels, ...

    LES SOURCES DES DONNÉES

    Nature des données

    Voici une liste du type de données les plus répandues dans le Big Data :

    • transactions (e-commerce),
    • log,
    • géolocalisation,
    • social media,
    • emails/documents,
    • Internet of Things (capteurs, ...),
    • images,
    • audio,
    • vidéo, ...

     

  • ​Les 5 V du Big Data

    DÉFINITION LA PLUS RÉPANDUE DU BIG DATA

    les 5 V du Big DataVolume

    Les entreprises font face à une augmentation exponentielle des données (jusqu’à plusieurs milliers de téra octets) :

    • logs,
    • réseaux sociaux,
    • e-commerce,
    • catalogue produit,
    • analyse des données,
    • monitoring, ...

    Les technologies traditionnelles (Business Intelligence, bases de données) n’ont pas été pensées pour de telles volumétries.

    DATA DÉLUGEData deluge

     

    Variabilité/Variété

    Les données à traiter dans une entreprise sont de natures multiples.

    Exemple de données structurées :

    • flux,
    • RSS,
    • XML,
    • JSON,
    • bases de données.

    Ce à quoi peuvent s’ajouter des données non structurées :

    • mails,
    • pages web,
    • multimédia (son, image, vidéo, etc.).

    Ces données non structurées peuvent faire l’objet d’une analyse sémantique permettant de mieux les structurer et les classer, entraînant une augmentation du volume de données à stocker. La solution doit être évolutive car les formats de données ne sont pas tous actuellement connus (voir par exemple comment le format JSON a supplanté XML très rapidement).

    VARIABILITÉ/VARIÉTÉMosaiques de mots

     

     

    Vélocité

    Dans certains cas l’accès et le partage des données doivent se faire en temps réel (on verra par la suite que la notion de temps réel varie selon les entreprises).

    La vitesse de traitement élevée permet d’offrir des capacités temps réel d’analyse et de traitements des données.

    VÉLOCITÉvélovité

     

     

    Valeur

    C’est un point essentiel du Big Data car il va permettre de monétiser les données d’une entreprise.

    Ce point n’est pas une notion technique mais économique.

    On va mesurer le retour sur investissements de la mise en œuvre du Big Data et sa capacité à s’autofinancer par les gains attendus pour l’entreprise.

    Plus on souhaite apporter de la valeur aux données, plus le coût et la complexité de la chaîne augmente :

    VALEUR

    Chaîne de valorisation des données

    Véracité

    C’est la capacité à disposer de données fiables pour le traitement.

    On va s’intéresser à la provenance des données afin de déterminer s’il s’agit de données de confiance.

    En fonction du critère de confiance, on accordera plus ou moins d’importance à la donnée dans les chaînes de traitement.

    Parmi les données dont il faut éventuellement se méfier on trouve les données des réseaux sociaux dont la provenance et l’objectivité est difficile à évaluer.

    De plus même pour des données dont on connaît la provenance, la pondération n’est pas constante.

    Par exemple il peut s’agir de données incomplètes, dont l’anonymisation a enlevé une partie de la valeur statistique ou encore de données trop anciennes.

    DATA QUALITYdata Quality

  • ​Les acteurs du Big Data

    Le Big Data a besoin de nouvelles compétences, il est donc normal de voir apparaître de nouveaux rôles :

    • Data Engineer : c’est l’informaticien, spécialiste du Big Data, qui va mettre en oeuvre tous les outils et solutions à destination des utilisateurs  utilisateur final, data scientist, ...). Un Data Architect est un Data Engineer expérimenté apte à concevoir une architecture complète.
    • Data Scientist : poste à double compétence car il est capable d’utiliser les outils informatiques du Big Data (voire de coder en Python, R, ...) et de comprendre les enjeux business de ses analyses.
    • Data Analyst (Statisticien) : lorsque les analyses sur les données sont plus complexes il faut alors faire appel à des statisticiens qui sont  capables d’implémenter de nouveaux algorithmes et définir de nouveau modèles. Ses outils sont plus les modèles mathématiques que les outils de Data Mining.
    • Chief Data Officer : dans les grandes entreprises on nomme parfois un directeur des données. Il est en charge des données de l’entreprise qu'elles soient internes ou externes :
      • gouvernance des données.
      • acquisition de nouvelles sources de données.

    Mais son rôle principal est de monétiser les données de l’entreprise.

ECRIVEZ NOUS SI VOUS AVEZ UNE QUESTION SUR CE CHAPITRE
TéléchArgez-gratuitement-le-liVre-blAncTéléchArgez-gratuitement-le-liVre-blAncTéléchArgez-gratuitement-le-liVre-blAnc
Pdf 11.39Mo
loading
POSEZ-NOUS VOTRE QUESTION
loading