Contacter le RP

Pour utiliser cette fonctionnalité, vous devez bénéficier d'un compte Babbler.

arrow_back

Babbler permet aux journalistes et communicants de collaborer plus simplement.

En vous connectant, vous pourrez accéder gratuitement aux espaces presse des centaines d'entreprises de vos secteurs qui sont sur Babbler, entrer en contact direct avec leurs équipes RP mais aussi y partager vos prochains sujets !

Leurs espaces presse sont sur Babbler :

Vous êtes à 1 clic de l'inscription !

Précédent

Content de vous revoir !

Communiqué de presse

Jedha Bootcamp : Convaincre grâce aux données
timer minutes de lecture minute de lecture

Copier le lien
Savoir analyser des données et en tirer des résultats n'est qu'une partie du travail du Data Scientist. Présenter des résultats de manière synthétique et pertinente entre aussi dans l'arsenal des compétences nécessaires pour exceller dans le métier. C'est ce qu'on appelle la Data Visualisation.
jedha-bootcamp-convaincre-grace-aux-donnees

Cliquez sur l'image pour obtenir le format original

PHASES PRÉLIMINAIRES D'UN PROJET DE MACHINE LEARNING


Avant même de commencer un projet en Data Science, il est important de comprendre le besoin-métier de l’entreprise car c’est le meilleur moyen de savoir comment préparer nos données et de choisir les variables qui vont avoir un impact sur ce que l’on cherche à prédire.

Une fois que le besoin est compris, on va tenter de bien définir la variable que l’on essaie de prédire. Cela peut être l’attrition, un revenu ou encore une catégorie par exemple.

Enfin, tentons de savoir ce pourquoi nous faisons du Machine Learning. Est ce qu’on cherche à prédire un phénomène ou expliquer les causes d’un phénomène ou les deux ? En fonction de la réponse, l’utilisation que nous allons faire d’un modèle va être différente.

En effet, il se peut que vous ayez des corrélations qui n’aient rien à voir entre elles. Par exemple, on a trouvé une corrélation entre le taux de suicide aux US et les dépenses budgétaires des américains dans les sciences, les technologies et l’astronomie. Cependant cette corrélation est fallacieuse car le taux de suicide et les dépenses budgétaires n’ont rien à voir entre elles.

Dans un modèle de Machine Learning, on pourrait inclure ces deux variables et le modèle serait tout à fait capable de faire des prédictions. En revanche, on aurait beaucoup plus de mal à donner une explication à tout ceci. C’est pour cela qu’il faudra trouver des variables qui peuvent expliquer d’une meilleure manière la chose que l’on veut prédire.


LES GRANDES ÉTAPES D'UN PROJET MACHINE LEARNING

Voici comment on pourrait classer les étapes d’un projet de Machine Learning :

  1. Récupération des données brutes
  2. Prétraitement des données
  3. Feature Engineering
  4. Découpage de la base de données en des données tests et des données d’entrainement
  5. Choix de l’algorithme
  6. Apprentissage de l’algorithme
  7. Prédiction des données test
  8. Prédiction sur les données réelles
  9. Restitution des résultats


La récupération des données brutes peut se faire de n’importe quelles sources de données : Il y a, par exemple, des API qui permettent d’obtenir des données web, des données CRM ou encore des données sur des fichiers excel.

Le prétraitement de données permet de « nettoyer » cette base de données. En effet, il se peut qu’il y ait des données manquantes ou incohérentes. Vous allez donc tout faire pour améliorer la « qualité » de vos données car c’est ce qui va permettre à votre modèle d’augmenter ses performances prédictives.

Feature Engineering est, en français, le choix des variables qui vont effectivement avoir une influence sur ce que vous voulez prédire. Le but est de raffiner les données prétraitées et ne garder uniquement ce qu’il y aura vraiment d’utile pour le modèle. La data visualisation intervient dans cette partie du projet car on a besoin d’explorer les différentes variables pour déterminer ce qui aura une influence ou non.

Dans la quatrième partie, on découpe les données en une base d’entraînement et une base de test. La raison pour laquelle on fait cela est pour voir tout de suite si notre modèle est effectivement performant ou non.

On va ensuite choisir l’algorithme que l’on va utiliser. Ce modèle dépend de votre problématique et des capacités de votre ordinateur. Si vous souhaitez en savoir plus sur les modèles de Machine Learning, n’hésitez pas à regarder notre article d’introduction au Machine Learning

Une fois que votre modèle est prêt et entrainé, vous allez l’utiliser pour prédire vos données réelles et restituer les résultats. C’est dans cette partie aussi que la data visualisation va entrer en jeu.


BEST PRACTICES EN DATA VISUALISATION


Définissons tout d’abord ce qu’est la Data Visualisation :

La DataViz consiste à transformer les données brutes en information visuelle afin de communiquer un message

Le but de la data visualisation est de mettre en lumière une partie de vos résulats au lieu de faire une présentation exhaustive des données. Il n’est en effet pas rare d’avoir travaillé pendant plusieurs jours sur un projet de Machine Learning mais n’avoir que quelques minutes pour présenter vos résultats. C’est pour cela qu’il faut pouvoir sortir les points les plus importants et d’être synthétique.

En termes de bonnes pratiques, il est important tout d’abord de ne pas vouloir faire des graphiques à tout bout de champ si une phrase peut suffire.

Lorsque vous construisez un graphique, gardez toujours en tête qu’ils peuvent être facilement trompeurs. Même si vous pensez que votre message est clair, il peut parfois être mal interprété. Cela peut notamment arriver si vous tronquez les axes de vos graphiques. Par exemple, au lieu de commencer votre graphique à 0%, vous le commencez à 90% et alors vous voyez de grosses différences qui ne sont en fait que factices puisqu’il n’y a en fait pas forcément énormément de différence en 90% et 100%.

Evitez les graphiques à double axe dans les ordonnées car ils créent des corrélations fallacieuses. Le mieux est de faire deux graphiques avec l’ordonnée correspondante dans chacun d’eux.

Les couleurs ont une importance. Privilégiez les couleurs franchement différentes les unes des autres et ne mettez pas plus de 6 couleurs différentes par graphique. Les couleurs ont aussi un code. Par exemple, le rouge exprime le danger, le vert exprime la sérénité. Il est important que vous soyez conscient de ces codes pour ne pas mettre des couleurs qui peuvent être interprétées de la mauvaise façon par votre audience.

Les graduations ne sont pas forcément utiles si votre but est de simplement voir une tendance plutôt qu’un chiffre précis. Enfin, triez vos données. Il est vraiment plus simple de comprendre des données triées que des données non-triées.


N'hésitez pas à me contacter si vous souhaitez

Myriam Emilion

Marketing Manager - Jedha, Data Science Bootcamp

07.71.80.53.59

  • Applications
  • Big Data
  • Budget
  • Business
  • + 24
  • Com - Média
  • Communication
  • Corporate
  • Économie - Finances
  • Éducation
  • Éducation - RH
  • Emploi
  • Enseignement
  • Événements - lieux
  • Geek
  • Innovation
  • Innovation - R&D
  • Jeux vidéos
  • Levée de fonds
  • Marketing
  • Mobile
  • Nomination - Awards
  • Objects connectés
  • Portraits
  • Presse
  • Réseaux sociaux
  • Startup
  • Tech
  • Web

Autres actualités de la marque

inscrit avec succès

Félicitations, vous êtes inscrit sur BABBLER !

Pour découvrir dès maintenant toutes les actualités qui vous attendent sur Babbler, consultez votre newsfeed !

Vos domaines ont été préselectionnés. Vous pouvez les compléter en cliquant ici

  • Applications
  • Big Data
  • Budget