Stage Data Science

  • Temps complet

Description de l'entreprise

EPSILON accompagne la transformation business des entreprises grâce à la data. Nous sommes le plus grand acteur datamarketing en France, avec 750 talents Adtech et Martech qui aident les entreprises à stimuler leur croissance et améliorer leur efficacité opérationnelle grâce et autour de la data.

Vous intégrerez le Pôle Data Science, constituée de 90 personnes, qui réalisent des études et conçoivent des solutions data science (intervention directe chez le client ou au siège) afin d’apporter des réponses opérationnelles data driven aux problématiques métiers de nos clients : connaissance client, CRM, expérience client, satisfaction et fidélisation, marketing digital, media marketing, développement de valeur et efficacité commerciale, efficacité opérationnelle …

Description du poste

Que fait un stagiaire Data Science

Au sein du Campus Bastille (Paris 11e) et dans le cadre d'un stage de pré-embauche, vous aurez pour mission un des projets de recherche ci-dessous, et participerez également à la vie de pôle et aux projets opérationnels.

Vous serez encadré par un maître de stage et serez également suivi, pour votre projet de recherche, par un manager avec plus de 10 ans d’expériences.

Voici des exemples de sujets de stages que nous avons traités dans le passé ou qui le seront en 2022 :

 

1. Traitement automatique de documents par Computer Vision

Les techniques de traitement et d’analyse d’image conjuguées avec des modèles de deep learning peuvent permettre de constituer une solution permettant d’automatiser certains processus opérationnels dans les entreprises. Notre objectif sera ici de prolonger des travaux entrepris en 2021 en termes d’état de l’art et de réalisation d’un cas d’usage permettant d’automatiser un processus tel que le traitement comptable des factures fournisseurs par exemple. Les données seront issues soit d’un processus interne à Epsilon soit négocié dans le cadre d’un projet de recherche avec un de nos clients. Il sera attendu d’améliorer un processus data science en capacité de lire, filtrer les images pour ensuite appliquer des modèles prédictifs tels que par exemple une capture de zones de texte dans les images (« region based »). Le développement d’un démonstrateur qui à partir d’une image appliquera le processus prédictif sera demandé pour illustrer le concept.

Les grandes étapes du projet de recherche consisteront à :

  • Etablir un état de l’art
  • Assurer la collecte des données
  • Construire le périmètre de l’étude
  • Construire la matrice de travail et des indicateurs à intégrer (feature engineering)
  • Définir une méthodologie permettant de répondre à la problématique demandée
  • A l’aide de techniques data science et de modèles ML, construire un processus prédictif
  • Concevoir une solution à travers un démonstrateur par exemple un dashboard pour visualiser les résultats (sous R Shiny par exemple) ou le développement d’une API
  • Rédiger et présenter démarche et résultats 

Les travaux seront majoritairement réalisés avec Python ou R et pourront être exécutés selon les exigences sur notre propre plateforme Big Data ou sur des instances Cloud provisionnés pour l’occasion (GCP ou Azure).

 

2. Modélisation de la Customer LifeTime Value

La Customer Lifetime Value ou CLV est la valeur de vie d’un client. Cette métrique permet de mesurer le profit que va générer un client tout au long de sa relation commerciale avec l’entreprise. Elle permet un pilotage stratégique de son portefeuille de clients puisque cet indicateur va permettre à l’entreprise de mieux calibrer ses coûts d’acquisition, de fidélisation et de rétention : il ne faudrait pas, par exemple, dépenser plus pour acquérir un client que ce qu’il ne rapporterait sur toute la durée de sa relation avec l’entreprise.

L’objectif du stage est de modéliser :

  • La durée de vie du client, c’est-à-dire le lapse de temps durant lequel il sera fidèle à l’entreprise
  • Le chiffre d’affaire moyen du client, c’est-à-dire ce que rapporte le client durant son cycle de vie
  • La CLV est obtenue par la combinaison de ces indicateurs.

Ce stage sera la mise en application des techniques de modélisation de la CLV dans le cadre d’un Use Case qui sera défini en amont.

Les grandes étapes du projet de recherche consisteront à :

  • Cadrage du projet et panorama des différentes méthodes de modélisation de la CLV
  • Récupération des données
  • Import des données sur la plateforme Big Data
  • Construction de la plateforme d’étude
  • Analyse exploratoire 
  • Modélisation de la CLV & tests des meilleures méthodologies
  • Optionnel : calcul du point mort (instant où la rentabilité est atteinte)
  • Restitution des résultats

 

3. Construire une solution de prévision automatique

La prévision consiste à partir d’une série d’observations à travers le temps portant sur une variable y quelconque, de l’instant 1 jusqu’à l’instant T ; il s’agit d’une série chronologique ou encore d’une série temporelle. Nous cherchons à prévoir la valeur qui sera atteinte par y à un instant futur T+h, ou encore à l’horizon h.

Il existe plusieurs cas d'usage où la prévision s'avère pertinente :

  • pour les industriels, la gestion de leurs stocks est un enjeu primordial. Et pour les piloter au mieux, ils ont besoin d’anticiper le plus possible leurs ventes.
  • pour les organisations, les ressources peuvent être optimisées par la prévision des activités. 

Dans ce cadre, notre objectif est de développer une solution de prévision automatique qui puisse fonctionner à différentes mailles et s'adapter à plusieurs types de séries.

Pour cela, il sera nécessaire de sélectionner et d’implémenter différents modèles sur des séries chronologiques, basés notamment sur du machine Learning.

Une attention particulière sera portée sur l’horizon de fiabilité du modèle, l’analyse des erreurs de prévision, l’intervalle de confiance associé à la prévision, l'automatisme de l'apprentissage et de la prévision, ainsi que la flexibilité de la solution.

Les grandes étapes du projet de recherche consisteront à :

  • Etablir un état de l’art
  • Assurer la collecte des données
  • Construire le périmètre de l’étude
  • Construire la matrice de travail et des indicateurs à intégrer (feature engineering)
  • Définir une méthodologie permettant de répondre à la problématique demandée
  • A l’aide de techniques data science et de modèles ML, construire un processus prédictif
  • Concevoir une solution à travers un démonstrateur par exemple un dashboard pour visualiser les résultats (sous R Shiny par exemple) ou le développement d’une API
  • Rédiger et présenter démarche et résultats 

Les travaux seront majoritairement réalisés avec Python ou R et pourront être exécutés selon les exigences sur notre propre plateforme Big Data ou sur des instances Cloud provisionnés pour l’occasion (GCP ou Azure).

 

4. Construire une solution d’anonymisation automatique de texte grâce au NLP

Le Natural Language Processing (NLP) regroupe plusieurs techniques liées au traitement et à la compréhension du langage humain par les machines. Ce sous-domaine de l'Intelligence Artificielle a pour vocation de structurer, d’interpréter et de comprendre des données textuelles à travers différentes approches pour en automatiser le traitement. 

Ce stage sera la mise en application des techniques de NLP afin de pouvoir aider les entreprises à respecter le RGPD dans l’analyse des données textuelles de leurs clients. 

Plus concrètement le but sera d’utiliser des règles linguistiques, des modèles de Reconnaissance d’Entités Nommées (NER) et de Deep Learning pour « anonymiser » automatiquement le contenu de données  textuelles (e-mails, documents, tweets).

Par « anonymiser » on entend remplacer les données à caractères personnels (DCP) par un terme générique (ex: Mr Dupond par Mr _PERSONNE_ ). Ceci rendra possible la réalisation d’analyses sur des données textuelles anonymisées afin de respecter le RGPD et la vie privée des clients. 

Le développement d’une application / démonstrateur qui appliquera le processus d’anonymisation sur un texte brut sera demandé pour illustrer le concept.

Lien d’illustration : https://medium.com/swlh/gdpr-anonymization-testing-e4525f29cf8e

Les grandes étapes du projet de recherche consisteront à :

  • Etat de l’art sur les différentes méthodes et modèles de NLP 
  • Construction du périmètre et définition des entités à anonymiser (ex : personne, localisation, numéro de téléphone, adresse email, etc…)
  • Assurer la collecte et le nettoyage des données
  • Construction et application de règles linguistiques pour identifier une partie des entités (ex : n° de téléphone, adresse email)
  • Construction de modèles de reconnaissance d’entités nommées pour identifier le reste des entités (méthodes : NER / Deep Learning) 
  • Analyse des performances et choix des meilleurs modèles
  • Industrialisation des modèles prédictifs industrialisés
  • Construction d’un démonstrateur (plusieurs itérations)

5. Marketing Mix Modeling – Nouvelle méthodologie & Outil de simulation

Le Marketing Mix Modeling permet de mesurer, à l’aide d’une modélisation, l’effet des investissements marketing sur les performances commerciales.

Cette approche économétrique permet d’optimiser l’allocation des budgets marketing.

En intégrant dans la modélisation différents facteurs comme la concurrence, la conjoncture, la saisonnalité, on va chercher à déterminer la contribution et le ROAS (Return On Advertising Spend) propres à chacun des leviers activés.

Notre objectif est de pouvoir mener cette modélisation sur un cas d’usage dans un premier temps puis de construire un simulateur permettant, en jouant sur les investissements média, de mesurer l’impact sur les ventes.

  • Les données : Média, CRM, Branding, Digital, Données exogènes etc
  • Les modèles : régression linéaire, PLS-PM, RF, XGBoost etc

Qualifications

Vous marquez des points si : 

Vous êtes de formation supérieure en statistiques et mathématiques appliquées et vous maîtrisez les outils data science tels que : Python et R.

Vous êtes intéressé(e) par la résolution de problématiques métiers et êtes attiré(e) particulièrement par les problématiques marketing, media et digitales.

Enfin, vous appréciez le travail en équipe et souhaitez évoluer dans un contexte stimulant.

Informations complémentaires

Localisation : Paris, 11ème 

Début de stage : février/avril 2022

Durée du stage : 6 mois

Vos avantages :

  • Votre indemnité mensuelle brute de stage sera de 1.300 €
  • Remboursement de 50 % de votre titre de transport
  • Possibilité d'embauche à l'issue du stage

Choisissez…

  • Une opportunité d’embauche,
  • Notre management de proximité,
  • Notre centre de compétence spécialisé en Data Science,
  • Un parcours collaborateur dédié et de nombreuses possibilités d’évolutions,
  • Notre diversité de projets et de clients (Accor hôtels, Orange, SNCF, Engie, Carrefour, Fnac…),
  • Notre fort investissement dans l’innovation (20 projets par an).
Politique de confidentialité