EDGE-ML : contextes d'usage et performances

icones fusee

Afin que vous puissiez évaluer la facilité d'utilisation et les performances de EDGE-ML dans des conditions d'usage réelles, nous mettons à disposition les jeux de données bruts accompagnés de scripts qui vous permettrons d'apprendre les modèles automatiquement. Si vous n'avez pas le temps de reproduire ces expérimentations, retrouverez pour chaque cas d'usage un bref descriptif des données utilisées, des ressources mobilisées et des performances obtenues. 

Caractéristiques des expérimentations
  • Taille du jeu de données (lines x colonnes)
  • Nombre de classes à prévoir
  • Temps consacré à la préparation des données
  • Temps de calcul nécessaire à l'apprentissage du modèle
  • Moyens matériels utilisés
  • Performance obtenue (AUC moyenne sur toutes les classes)
  • Robustesse du modèle (AUC Train vs AUC Test)
Logo casusage 2

Assurance : Ciblage marketing

Le but du projet est de prédire l'appétence des clients à contracter une police d’assurance pour caravane (sans savoir quels clients possèdent effectivement une caravane). Trois types de variables sont utilisés pour décrire les clients: i) leur usage des autres produits d’assurance; ii) des informations socio-démographiques; iii) des informations relatives à leur région d’habitation. Le ROI d’une campagne de télémarketing peut être optimisé en utilisant le modèle pour cibler les clients les plus appétents.

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 12 000 X 10
  • Nombre de classes à prévoir : 2
  • Temps de préparation des données : 1 minute
  • Durée de production du modèle : 1 seconde
  • Matériel utilisé : Laptop, Core i7 2014 - 8go RAM
  • Performance (AUC) : Train = 0.969 / Test = 0.971
  • Robustesse (Delta AUC) : 0.02

Commentaires sur les résultats obtenus

L'apprentissage est quasi-instantané pour cette taille de jeu de données. Le modèle appris est à la fois très précis (AUC proche de 1) et très robuste (il n'y a pas de différence significative entre l'AUC calculée sur l'ensemble d'apprentissage et sur l'ensemble de test).

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 1

Sécurité : Détection d’intrusion sur un réseau informatique

Le but du projet est d'entraîner un modèle capable de détecter les connexions frauduleuses sur un réseau informatique. 22 types d’attaques connues ont été simulés dans le cadre d’un réseau informatique militaire. Les variables d’entrée décrivent techniquement les connexions au réseau (ex: protocole utilisé, durée de connexion, etc.). Ce cas d’usage montre que la sécurité des réseaux peut être améliorée en continue grâce aux techniques d’Auto ML.

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 3 millions X 42
  • Nombre de classes à prévoir : 23
  • Temps de préparation des données : 1 minute
  • Durée de production du modèle : 2h35
  • Matériel utilisé : Laptop, Core i7 2014 - 8go RAM
  • Performance (AUC) : Train = 0.999 / Test = 0.999
  • Robustesse (Delta AUC) : 0.0001

Commentaires sur les résultats obtenus

Edge ML est optimisé pour traiter de gros volumes de données en utilisant des ressources matérielles minimales. Ici, le modèle est appris sur 3 millions de lignes en 2h35, en utilisant un ordinateur portable ordinaire.

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 3

Environnement : Gestion des forêts

Le but du projet est d’optimiser le choix des essences d’arbre lors d’une reforestation à partir de données cartographiques. Ce jeu de données contient des parcelles de forêts décrites par l’altitude, la pente, l’exposition, la distance au point d’eau le plus proche, le type de sol... La variable à prédire est l’un des 7 types de forêt présents sur les parcelles. Edge ML parvient à résoudre ce problème avec une très bonne précision.

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 465 000 X 54
  • Nombre de classes à prévoir : 7
  • Temps de préparation des données : 1 minute
  • Durée de production du modèle : 13 minutes
  • Matériel utilisé : Laptop, Core i7 2014 - 8go RAM
  • Performance (AUC) : Train = 0.935 / Test = 0.934
  • Robustesse (Delta AUC) : 0.001

Commentaires sur les résultats obtenus

Le modèle doit prédire l'un des 7 types de forêt : il s'agit d'un problème multi-classe. Edge ML apprend nativement un classifieur multi-classe (basé sur l'approche MODL) sans avoir recours à l'heuristique habituelle qui consiste à apprendre un classifieur par classe (one versus all). L'apprentissage du modèle est donc plus rapide et son utilisation plus aisée.

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 4

IOT et Capteurs : Détection d’activité

Le but du projet est de détecter le type d’activité (course à pied ou marche) à partir de données de capteurs. Ce jeu de données contient des mesures collectées toutes les 10 secondes grâce au gyroscope et à l’accéléromètre d’un iPhone 5s. L’apprentissage du modèle à été réalisé en exploitant des ressources matérielles minimalistes : un Raspberry Pi 2 (ressources inférieures à celles d’un smartphone actuel). Le modèle appris est précis et très robuste. Edge-ML ouvre la voie à l’apprentissage de modèles sécurisés directement sur les “devices” !

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 71 000 X 8
  • Nombre de classes à prévoir : 2
  • Temps de préparation des données : 1 minute
  • Durée de production du modèle : 30 secondes
  • Matériel utilisé : Raspberry Pi 2, Model B
  • Performance (AUC) : Train = 0.995 / Test = 0.904
  • Robustesse (Delta AUC) : 0.001

Commentaires sur les résultats obtenus

Le modèle est appris en 30 secondes en utilisant un Raspberry Pi 2. Il est donc possible d'apprendre les modèles directement sur les "devices", c'est-à-dire, sans externaliser les données collectées par les mobiles et l'IOT. Edge ML ouvre la voie à de nouveaux usages 100% respectueux de la vie privée!

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 5

Publicités en ligne : Re-ciblage d’annonces publicitaires

Le but est de prédire le taux de clic d’une publicité en ligne lorsqu’elle est présentée à un internaute particulier. Le volume des données collectées lors du re-ciblage de publicités en ligne est très importants, il est donc nécessaire d’utiliser des algorithmes de Machine Learning qui passent à l’échelle. Edge ML repousse les limites en traitant plusieurs dizaines de millions de ligne sur un serveur standard (i.e. Xeon 8 coeur / 64 Go de RAM).

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 10 millions X 40
  • Nombre de classes à prévoir : 2
  • Temps de préparation des données : 3 minute
  • Durée de production du modèle : 14h
  • Matériel utilisé : Serveur, Xeon 4 cores 64go RAM
  • Performance (AUC) : Train = 0.763 / Test = 0.755
  • Robustesse (Delta AUC) : 0.008

Commentaires sur les résultats obtenus

Ce cas d'usage permet de tester le passage à l'échelle d'Edge ML en utilisant plusieurs ensembles d'apprentissage de tailles différentes. En utilisant un serveur standard, le modèle est appris en 13 min sur 1 million d'exemples, en 44 min sur 2 millions d'exemples, 1h30 sur 3 millions d'exemples et en 14h sur 10 millions d'exemples. Edge ML repousse les limites de votre matériel :-)

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 6

Productivité : Catégorisation d’e-mail

Le but du projet est de classer automatiquement des e-mails en 10 catégories. Dans ce cas, les e-mails sont caractérisés par plusieurs variables de type “séquence”. L’objet et le corps du mail sont considérés comme des séquences de mots. Les informations liées à l’expéditeur et aux destinataires (organisations, pays … etc.) sont codées comme des ensembles. Edge ML automatise la préparation de ces données complexes en extrayant des sous-séquences et des sous-ensembles à la fois pertinents et robustes.

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 17 000 X 6 sequences
  • Nombre de classes à prévoir : 10
  • Temps de préparation des données : 10 minute
  • Durée de production du modèle : 18 minutes
  • Matériel utilisé : Laptop, Core i7 2014 - 8go RAM
  • Performance (AUC) : Train = 0.979 / Test = 0.959
  • Robustesse (Delta AUC) : 0.02

Commentaires sur les résultats obtenus

Edge ML traite les variables séquentielles de manière transparente : une seule ligne de commande suffit à extraire les règles séquentielles pertinentes et à apprendre un classifieur ensembliste. La légère baisse de robustesse est due aux fait que les règles extraites de données textuelles ne sont généralement pas indépendantes (l'option '-lessRule' est recommandée dans ce cas).

Télécharger le script et les données pour reproduire l'expérience : lien

Logo casusage 7

Analyse de sentiments : Avis client sur un catalogue de produits

Le but du projet est de prédire la notation de produits vendus sur un site de e-commerce à partir des avis écrits par les clients. Ces données textuelles sont traitées dans leur état brut, comme des séquences de mots (aucun prétraitement n’est réalisé - ex : lemmatisation). Edge ML extrait automatiquement des sous-séquences qui sont à la fois pertinentes et robustes, puis apprend automatiquement un modèle. Edge ML parvient à résoudre ce problème avec une grande précision en fournissant un modèle et des règles facilement interprétables.

Résultats de l'expérimentation

Caractéristiques du projet

  • Taille du jeu de données : 100 000 X 1 sequence
  • Nombre de classes à prévoir : 2
  • Temps de préparation des données : 5 minutes
  • Durée de production du modèle : 1h45 minutes
  • Matériel utilisé : Laptop, Core i7 2014 - 8go RAM
  • Performance (AUC) : Train = 0.911 / Test = 0.909
  • Robustesse (Delta AUC) : 0.0023

Commentaires sur les résultats obtenus

Les règles extraites sont très facilement interprétables et constituent une aide préciseuse pour l'étape de Features Engineering. Par exemple Edge ML extrait les régles suivantes:

  • "I + highly + recommend"
  • "dont + waste + your + money"
  • "This + is + a + great"

Télécharger le script et les données pour reproduire l'expérience : lien