Un cas de big data domestique


L'indicateur n'est pas l'objectif

J'ai croisé très récemment un cas concret où un indicateur que l'on croyait être l'objectif disparait et qu'il faille en reconstruire d'autres mais que l'abondance des données de base rende la tâche ... challenging: il s'agit de la facture de téléphone d'adolescents.

Il y a encore pas longtemps, l'indicateur de pilotage utilisé par les parents était: le coût mensuel en €. Le montant du forfait de base ayant été âprement négocié et ne changeant pas d'un mois sur l'autre, c'était l'éventuel dépassement en € qui servait d'indicateur. Ou la fréquence d'achat de cartes prépayées pour les plus prudents.

L'arrivée des forfaits Free à 2€ incluant 2 heures de voix et sms illimités vient perturber les habitudes. L'indicateur mensuel de coût des dépassements reste valable pour la voix. Pour les sms gratuits, il faut dé scotcher de l'ancien indicateur, le véritable objectif paternaliste qui pourrait être quelque chose comme: "Encourager l'usage raisonné du portable".

Les factures mensuelles contiennent la liste chronologique des sms, le numéro destinataire (sans les quatre derniers chiffres) et l'heure d'émission. Seul problème, trois mois de factures représentent plus de 5500 lignes sur 98 pages. Chaque ligne est parfaitement lisible mais le schéma global est complétement invisible. Un cas de Big Data domestique en quelque sorte.





Convertir les factures pdf en excel

De nombreux services web gratuits offrent la conversion de pdf en xls. La conversion est parfois déficiente et nécessite des ajustements manuels de mise en page, mais il suffit de quelques minutes pour avoir toutes les lignes dans excel. En plaçant des noms de colonnes appropriés, un tri sur la date et l'heure permet de regrouper les lignes utiles et d'éliminer les hauts et pieds de page.


Quels indicateurs ?

Les indicateurs se déduisent des questions que tout parent se posent, la plus globale est : «L'utilisation journalière est elle raisonnable ?»

D'abord en quantité. Le nombre est indiqué en haut de la facture (plusieurs milliers pour un mois) reste une grandeur vaguement abstraite que l'on divise mentalement par 30 jours pour se faire une idée concrète. Mais il faudrait connaitre les valeurs par jour de la semaine. La tolérance en semaine et en weeend n'est pas la même.

Le deuxième indicateur à bâtir doit répondre à la partie qualitative de la question: «Les moments d'utilisation sont ils compatibles avec la scolarité ?»


Quelle visualisation ?

Pour la quantité d'utilisation journalière, un diagramme en barres chronologique sera parfait. Une couleur pour les jours de la semaine, une autre pour les weekends. L'axe des Y peut être en nombre émis ou en équivalent durée de composition. Prenons par exemple 15 secondes par sms (les ados sont rapides mais il faut aussi tenir compte du temps de lecture des sms reçus qui sont invisibles sur la facture mais forcement présents dans un ordre de grandeur similaire). On obtient tout de même un pic à 60 minutes pour la journée du 23 mars.

Pour les instants d'émission, l'idée la plus simple est de visualiser chaque sms par un point sur un axe vertical de 24h. Une subtilité toutefois, pour éviter que les sms après minuit passent au jour d'après et brouillent la lecture des soirées tardives, il faut créer une ligne de changement de jour, j'ai choisi ici 03:00. On constate de nombreux envois au delà de la barre des 22:30 et même une émission à 5:30 du matin le dimanche 31 mars.