Un cas de big data domestique


L'indicateur n'est pas l'objectif

J'ai croisé très récemment un cas concret où un indicateur que l'on croyait être l'objectif disparait et qu'il faille en reconstruire d'autres mais que l'abondance des données de base rende la tâche ... challenging: il s'agit de la facture de téléphone d'adolescents.

Il y a encore pas longtemps, l'indicateur de pilotage utilisé par les parents était: le coût mensuel en €. Le montant du forfait de base ayant été âprement négocié et ne changeant pas d'un mois sur l'autre, c'était l'éventuel dépassement en € qui servait d'indicateur. Ou la fréquence d'achat de cartes prépayées pour les plus prudents.

L'arrivée des forfaits Free à 2€ incluant 2 heures de voix et sms illimités vient perturber les habitudes. L'indicateur mensuel de coût des dépassements reste valable pour la voix. Pour les sms gratuits, il faut dé scotcher de l'ancien indicateur, le véritable objectif paternaliste qui pourrait être quelque chose comme: "Encourager l'usage raisonné du portable".

Les factures mensuelles contiennent la liste chronologique des sms, le numéro destinataire (sans les quatre derniers chiffres) et l'heure d'émission. Seul problème, trois mois de factures représentent plus de 5500 lignes sur 98 pages. Chaque ligne est parfaitement lisible mais le schéma global est complétement invisible. Un cas de Big Data domestique en quelque sorte.





Convertir les factures pdf en excel

De nombreux services web gratuits offrent la conversion de pdf en xls. La conversion est parfois déficiente et nécessite des ajustements manuels de mise en page, mais il suffit de quelques minutes pour avoir toutes les lignes dans excel. En plaçant des noms de colonnes appropriés, un tri sur la date et l'heure permet de regrouper les lignes utiles et d'éliminer les hauts et pieds de page.


Quels indicateurs ?

Les indicateurs se déduisent des questions que tout parent se posent, la plus globale est : «L'utilisation journalière est elle raisonnable ?»

D'abord en quantité. Le nombre est indiqué en haut de la facture (plusieurs milliers pour un mois) reste une grandeur vaguement abstraite que l'on divise mentalement par 30 jours pour se faire une idée concrète. Mais il faudrait connaitre les valeurs par jour de la semaine. La tolérance en semaine et en weeend n'est pas la même.

Le deuxième indicateur à bâtir doit répondre à la partie qualitative de la question: «Les moments d'utilisation sont ils compatibles avec la scolarité ?»


Quelle visualisation ?

Pour la quantité d'utilisation journalière, un diagramme en barres chronologique sera parfait. Une couleur pour les jours de la semaine, une autre pour les weekends. L'axe des Y peut être en nombre émis ou en équivalent durée de composition. Prenons par exemple 15 secondes par sms (les ados sont rapides mais il faut aussi tenir compte du temps de lecture des sms reçus qui sont invisibles sur la facture mais forcement présents dans un ordre de grandeur similaire). On obtient tout de même un pic à 60 minutes pour la journée du 23 mars.

Pour les instants d'émission, l'idée la plus simple est de visualiser chaque sms par un point sur un axe vertical de 24h. Une subtilité toutefois, pour éviter que les sms après minuit passent au jour d'après et brouillent la lecture des soirées tardives, il faut créer une ligne de changement de jour, j'ai choisi ici 03:00. On constate de nombreux envois au delà de la barre des 22:30 et même une émission à 5:30 du matin le dimanche 31 mars.

La présentation de données en tables


Le yin et le yang de la visualisation

Il est souvent dit que les tables et les diagrammes sont les deux piliers de la visualisation de données:

  • le diagramme = la vue d'avion: la population, la tendance, la valeur relative, ...
  • la table = la suite des valeurs exactes: la donnée individuelle, les décimales, le sous-total, ...

Le diagramme en premier plan attire le chaland, lui communique les messages généraux et la table en arrière plan est toujours prête à répondre aux questions pointues des curieux.

Sur un écran, il existe un troisième comparse très efficace: la bulle qui apparait quand le curseur survole un point du graphe et qui fournit tous les détails.


Quelques bons principes

Beaucoup d'énergie et de créativité sont consacrées aux diagrammes et peu en comparaison aux tables. Il n'est pas facile de trouver des contributions marquantes sur le format des tables. Une d'entre elles est le livre de Stephen Few
Quelques recommendations de bon sens:

  • cadrage et alignement: nombre à droite, texte à gauche
  • pas de répétition de symbole dans chaque cellule (€, %)
  • il est plus facile de lire les mots horizontaux qu'inclinés ou verticaux
  • ...

Et aussi des conseils plus avancés:

  • les espacements inter-ligne et inter-colonne sont les premiers responsables du confort de lecture
  • les bordures doivent ajouter de l'information, sinon elles dégradent la lisibiité


La table structurée

La table structurée a pour objectif de présenter ... des structures composées de champs textuels et de valeurs numériques. Les exemples sont nombreux:

  • Carte restaurant: Entrée/Plat/Dessert x Ingrédients x recette x Prix de vente
  • Backlog Scrum: Story/Tâche/ (A faire, A finir, Fini) x Evaluation
  • Portefeuille projets: Client/Projet/Tâche x (Début, Fin) x Effort x Avancement
  • Matrice de tracabilité: Syst/ss-Syst x (criticité)

Ces tables sont des listes de champs dans une base de données. L'idée est d'interpréter ces champs comme une hiérarchie de gauche à droite. Les champs qui se repètent d'une ligne à la suivante sont visuellement mis en facteur. Les tableaux croisées dynamique Excel ou les tables de Tableau utilisent cette convention visuelle très naturelle.





Pour une même table de données, plusieurs représentations peuvent être également utiles.

Soit une liste de projets: Client/Projet/Tâche/Début/Fin. Deux manières utiles de trier ces données sans changer l'ordre des colonnes:

  • les travaux organisés par clients et projets,
  • la vision globale des tâches: de haut en bas par date de début et date de fin croissante




    Changer l'ordre des colonnes est un moyen de renverser la hiérarchie des données. Soit le livre de recette de la carte d'un restaurant:

    • pour chaque plat, les ingrédients et la quantité nécessaires,
    • pour chaque ingrédient, les plats qui l'utilisent


    Une table structurée en Excel

    Les principes utilisés pour cette réalisation:

    • formatage par factorisation visuelle de gauche à droite
    • tri à l'intérieur des colonnes
    • déplacement, changement de l'ordre des colonnes

    Le formatage est obtenu grace à des formats conditionnels qui masquent les champs redondants et tracent les bordures. Les données sont toujours là. La table est éditable et la modification de champs provoque l'adaptation de la présentation.

    Chaque colonne peut être triée par double clic. Un premier double clic trie de haut en bas et un deuxième dans l'ordre inverse en alternance. Deux variantes:

    • total, toute la table est triée: double clic sur le titre de la colonne
    • partiel, l'ordre des champs à la gauche de la colonne est preservé: double clic sur un élément de la colonne.

    C'est l'ordre des colonnes (de gauche à droite) qui détermine la structuration des données qui est mise en avant par le formatage. C'est une capacité très méconnue d'Excel qui permet de changer cet ordre: le déplacement d'une zone de données. Il faut après la sélection de la colonne, maintenir shift, prendre la sélection avec le bouton gauche maintenu appuyé, glisser déposer et relacher shift.


    Volontaire pour une beta test ?

    Un classeur Excel qui réalise la présentation de tables structurées est actuellement en beta test. C'est un outil qui permet d'analyser les données et de les présenter joliment de façon non intrusive: les données ne sont pas affectées, elles restent librement modifiables. Et c'est aussi un grand plaisir que de pouvoir classer des colonnes par double clic dans Excel comme ... presque partout ailleurs...
    Vous pouvez vous porter volontaire à essayer ce classeur sur vos propres données et faire part de vos impressions.


  • Attention au vert...

    D'innombrables échelles vert, orange, rouge peuplent les tableaux de bord de toutes origines ?

    La symbolique des couleurs du feu de croisement profite de l'universalité du code de la route: vert=ok, orange=alerte, rouge=problème. Tellement utilisé que l'on n'y pense même plus.

    Une minute, ... Est ce une bonne visualisation ?



    La route

    Revenons à l'origine. Le premier feu de croisement (bicolore) est installé à Salt Lake City en 1912. Il fut progressivement enrichi d'états supplémentaires: orange, clignotements, combinaisons, ... L'objectif global restant d'organiser le partage harmonieux d'une ressource exclusive: le carrefour.

    • vert = passez, l'autre voie est rouge
    • rouge = arrêtez vous, l'autre voie est vert
    • orange = attention, le feu va passer au rouge


    Le rail

    Un autre exemple vénérable de partage d'une section critique est le passage à niveau. Vu de loin il s'agit du même problème que la route: l'accès raisonné à cette petite portion d'espace à cheval entre le bitume et les rails.
    Sauf qu'il y a une différence majeure (autre que la priorité du train qui impose le rouge à la route): La voiture peut passer sans danger 99,9% du temps, il serait donc stupide (et écologiquement irresponsable) d'allumer un feu vert tout ce temps. Quand il existe, le signal lumineux (rouge clignotant) du passage à niveau se déclenche quelques instants avant le passage du train et ... s'éteint après.
    C'est vrai après tout, le vert n'est pas nécessaire, on pourrait aussi au carrefour routier n'utiliser que le rouge: le feu monocolore... Rouge = stop, Rien = passez. Le vert n'apporte aucune information supplémentaire.

    A y réfléchir de plus près, le feu vert offre un discret bénéfice qui, à lui seul, rend souhaitable de le conserver à nos carrefours: la redondance de sécurité - en l'absence de feu vert une ampoule rouge en panne serait catastrophique...


    Le tableau de bord

    Quel est donc le rapport entre les indicateurs de suivi, de pilotage d'une activité et ... un feu tricolore? Pas grand chose !!

    Ce qui ne va pas dans le feu tricolore pour les tableaux de bord, c'est le vert. Il est:

    • redondant: l'information utile est la présence d'alertes ou de problèmes. Je vois bien que ce n'est pas rouge !
    • nuisible: de nombreux indicateurs sont simultanément présents sur le tableau de bord. Le rouge est dilué dans le vert !



    Sur un tableau de bord le vert le plus efficace c'est ... le blanc...




    Une meilleure étiquette énergie


    Indicateurs hétérogènes, visualisation unique

    A partir de 1992 l'Europe a introduit une échelle colorée d'efficacité énergétique sur l'étiquette de chaque appareil électroménager: réfrigérateur, lave-linge, four, climatiseur, ampoule, ... et étendu plus récemment à l'automobile et à l'immobilier.








    Bien entendu les échelles et niveaux sont propres à chaque catégorie d'appareil. Les voitures sont évaluées en niveau de CO2/km, les grille pain en efficacité énergétique ainsi que les climatiseurs mais sur d'autres échelles.

    Toutes choses égales par ailleurs, le résultat est livré au consommateur sur la même échelle à 7 niveaux pour éclairer son choix (ou plus récemment 10 avec des A+, A++ et A+++).

    Critique de la visualisation

    Plusieurs remarques:

    • l'échelle est représentée par plusieurs grandeurs redondantes: la lettre, la couleur, la taille des barres horizontales, la position. La redondance n'est pas forcément une mauvaise chose, mais là c'est beaucoup. Tutfe dirait que le rapport quantité donnée/quantité encre est faible.
    • la direction de l'échelle: Les étiquettes des catégories A, B, ... donne une indication sur le sens de lecture: A c'est mieux que B qui est mieux que C, ... La couleur vient confirmer cet implicite. Tout le monde sait que vert c'est mieux que rouge.
    • malgré les barres horizontales qui s'agrandissent, l'échelle n'est pas graduée. Il n'est pas possible de savoir «Combien de fois plus d'énergie pour G que pour A ?»
    • l'aiguille qui indique la valeur est un curseur noir lui même redondant: 1) il est positionné en face du niveau de l'échelle. 2) il indique la valeur par une lettre en blanc sur noir
    • la valeur est paradoxalement moins visible que l'échelle multicolore. Cette faiblesse éclate au grand jour face à plusieurs étiquettes simultanément. Sur la vitrine d'une agence immobilière l'œil aperçoit très bien le petit arc en ciel vert-rouge répété à l'identique sur toutes les annonces sans aucune valeur ajoutée. Mais il faut s'approcher plus près pour lire le petit curseur noir et sa lettre blanche.


    Proposition pour une meilleure visualisation

    Essayons de formuler une version plus efficace de la vénérable étiquette. Le fil des idées serait le suivant

    1. effacer/atténuer l'intensité de la couleur des niveaux de l'échelle qui brouillent la lecture de loin
    2. colorer l'aiguille dans la couleur du niveau
    3. et ainsi ... utiliser l'échelle comme aiguille !!!





      Bien plus visible de loin.
      Et surgit une autre idée. Pourquoi ne pas utiliser la longueur des barres pour ajouter l'information des proportions entre niveaux ?
      Dans le cas de l'échelle des bâtiments, la représentation serait:



      Un logement de niveau G peut être plus de 10 fois plus énergivore qu'un logement de niveau A !!!!
      Sources: wikipedia

      Proposition pour un meilleur indicateur

      Le bon indicateur est conçu pour répondre directement aux questions que se pose le lecteur quand il examine les données.
      Dans le cas du logement, les questions brulantes de l'acheteur potentiel sont: «Combien coûte le chauffage annuel ?», «Sera t il possible de gagner en ajoutant de l'isolation ?»

      Pour 100 m2 si le coût est 300€/an pour un niveau A alors c'est 3000€ pour un niveau G. Sources: l'expansion
      Pour un appareil electroménager, la question clé est: «A partir de combien de temps d'utilisation, l'appareil de niveau A est-il économiquement rentable ?». Il faudrait que l'échelle indique le surcoût (ou l'économie) annuel à utiliser un appareil de chaque catégorie. Charge au consommateur de le comparer aux prix de vente.

      Conclusion

      Quel est le rapport entre les étiquettes énergie et les tableaux de bord de pilotage d'une organisation ?

      Deux transpositions directes:

      • Les échelles ne doivent pas masquer la lecture des valeurs. Face à un tableau de bord présentant de multiples indicateurs, il est bien plus facile de voir que tout est vert, plutôt que de vérifier que toutes les aiguilles noires se trouvent dans les zones vertes
      • La démarche comment répondre aux questions que se posent le lecteur est plus efficace que comment présenter au mieux les données



    Indicateurs d'avancement de projets

    Tout projet devrait être suivi simultanément sur 3 dimensions:

    • le temps
    • le coût
    • l'avancement

    Arrêtons nous sur la troisième, et examinons les indicateurs visuels pouvant être utiles.


    Morceler et Compter

    Le plus robuste consiste à morceler l'objectif global d'un projet en éléments concrets observables (le nombre de parpaings posés sur le mur) indépendamment des tâches, du coût, des efforts et du temps passé.

    Il est alors possible de construire des indicateurs très efficaces qui vont simplement compter.

    Quand le projet consiste à appliquer une succession d'étapes à des objets que l'on peut énumérer (stories Scrum, todo list, ..) il suffit de compter le nombre d'objets présents dans chaque état:

    • A faire, Fini
    • A faire, En cours, Fini
    • Créé, Accepté, Estimé, Planifié, En cours, Fini, Livré

    Et de représenter ces comptages visuellement:





    Même principe s'il s'agit de propriétés que l'on peut énumérer, par exemple sur un projet de rédaction d'un document de spécification:





    Sont ajoutés ici:

    • l'évolution du périmètre en cours de projet qui évidemment change la valeur de l'avancement
    • l'historique de la progression de l'avancement qui apporte une information dynamique: est ce que ça avance ? depuis combien de temps est ce bloqué ? Et prévient même si on revient en arrière.


    Burndown Chart

    Le burndown chart très utilisé par les méthodes agiles est un outil très pertinent pour prédire la date de terminaison d'une tâche ou du projet. Ou pour estimer le contenu qui sera disponible à une date future. Il suffit de prolonger visuellement le rythme actuel pour évaluer la date où les courbes se croisent.

    La version la plus complète est le Burnup Chart (la version ascendante) avec la visualisation des évolutions de périmètre.




    Groupe de projets

    Passons au niveau du groupe de projets partageant le même processus, les mêmes activités. Par exemple:

    • spécification, codage, tests unitaires, tests fonctionnel ... dans un domaine logiciel
    • terrassement, maçonnerie, plomberie, électricité, peinture, ... dans le bâtiment

    Il est très facile de représenter l'avancement global à partir d'indicateurs d'avancement par activité et sans forcement avoir besoin d'en dire beaucoup sur l'ordonnancement de ces activités: séquentiel, parallèle ou plus complexe. Cette tolérance/flexibilité n'est pas éliminatoire car l'œil humain ajoute automatiquement un contexte d'interprétation: tout le monde sait bien qu'il est souhaitable que le terrassement et la maçonnerie soient terminées avant que la peinture ne démarre. Ou qu'il ne sert à rien d'essayer de terminer le test fonctionnel alors que les spécifications ne sont pas achevées. Mais que l'électricité et la plomberie peuvent très bien avancer en parallèle...





    Il y a trois façons de lire ce diagramme:
    • horizontal: l'avancement de chaque projet et le reste à faire par activité
    • vertical: l'avancement de chaque activité et le reste à faire par projet
    • à l'intersection: le reste à faire pour un projet x activité


    Un billet médiatisé

    Data Publica a publié un billet qui promeut la disponibilité de données 'open' de la RATP qui jusqu'à pas longtemps pratiquait plutôt l'inverse.
    Ce billet a eu une large résonance dans les médias aussi divers que: lemonde.fr, Bus & Car, Francetv.info, lefigaro.fr, DirectMatin.fr, La Tribune.fr, Liberation.fr ou SudRadio.fr. La RATP à la fois familière et secrète intéresse beaucoup.
    L'exploitation des données qu'en font les médias est variable. Chacun picore les données qui lui parait faire sens: la ligne la plus longue est la 8, 14 la plus rapide, le nombre de suicides et de tentatives en diminution, le nombre de violences voyageurs a presque doublé en 6 ans, ... D'autres vont chercher des données détaillées non visualisées dans le billet initial, les connectent à des informations de contexte et en tirent des enseignements ou confirmations de convictions préexistantes.
    Concevoir un tableau de bord démarre avec les buts à atteindre. Mais essayons de faire l'inverse. Partir des même données et esquisser une conception de tableau de bord à destination des voyageurs.

    D'abord un point de vue

    Chaque tableau de bord réussi a un point de vue. Qui est le destinataire, d'où regarde t-il ? Son intérêt, ses questions, sa connaissance préalable, son vocabulaire, ... C'est ça qui décide ce qui doit être: au premier plan, au second et à l'arrière plan. Et tant pis si certains éléments deviennent invisibles, c'est la loi de la perspective et ... une très bonne chose pour les tableaux de bord.
    De cette position il faut faire la liste des objectifs et des questions intéressantes:

    • mieux connaitre le métro: où se situe(nt) ma(es) ligne(s) préférée(s) ? ponctualité, débit, ...
    • le métro est il dangereux ?
    • le métro et le RER sont ils en train de s'adapter aux handicapés ?
    • ...


    Les données et leurs contextes

    La donnée apporte du sens quand elle est mise en contexte: culturel, temporel, localisation, causal,... C'est elle qui permet de répondre aux questions précédentes.
    Les nombres de blessés et de morts sont de parfaits exemples de données qui ne disent rien à elles seules. On peut bien sûr se rassurer en découvrant qu'en moyenne l'agression n'arrive que tous les 300.000 voyages... Mais pour en apprécier l'importance il faut les mettre en relation avec d'autres données de contexte non disponibles dans le rapport:

    • quel est le niveau normal ? Combien de blessés/décès observe t-on dans un groupe témoin durant l'équivalent d'un temps de transport ?
    • quels sont les niveaux d'autres moyens de transport ? la voiture, l'avion, ... Normalisés au kilomètre parcouru ou au temps de voyage ?
    • quelle est la répartition des causes (chute, agression, suicide, malaise, ...) ?
    • quel est le calendrier ? Observe t-on des cycles (horaire, hebdomadaire, saisonnier) ? Des corrélations avec la fréquentation, des événements particuliers, ... ?

    Les informations de trafic, nombre de trains, de départs ou vitesse de pointe sont un parfait exemple inverse. Ces données ne prennent leur signification qu'agglomérées les unes aux autres:

    • à quoi sert un train à 50km/h qui ne passe que toutes les heures ?
    • le nombre de trains par ligne n'a aucun sens pour le voyageur. C'est la fréquence apparente des trains qui compte.

    L'indicateur utile au voyageur c'est le temps d'attente d'un train et un prédicteur de son temps de transport.

    • le temps d'attente moyen est estimé par le nombre de départs journalier ramenés à la plage horaire de service (18 heures ?).
    • le temps de transport entre 2 stations à la vitesse commerciale maximale est un moyen simple de calibrer toutes les lignes sur une échelle unique.


    ... et une représentation visuelle adaptée

    Les données des lignes: longueur, nombre et densité de stations sont présentées simultanément sur un diagramme à barres qui communique une vision globale de la grande variabilité des caractéristiques des lignes. Dans un tableau de bord finalisé il faudrait ajouter une visualisation/sélection des lignes sur le plan de métro.

    Les détails numériques peuvent être utiles comme références, ils restent sous forme de table filtrable et triable (cliquer sur les colonnes).
    Sur cette nouvelle échelle de vitesse, la ligne 14 n'est plus la plus rapide, car sa distance inter-station est la plus grande. Et la 4 n'est plus la plus lente bien au contraire.
    La donnée n'est rien sans son contexte, il lui est fourni par un observateur qui fixe la hierarchie d'une perspective et ... d'autres données.

    Pages

    Subscribe to RSS - alain's blog