Un billet médiatisé

Data Publica a publié un billet qui promeut la disponibilité de données 'open' de la RATP qui jusqu'à pas longtemps pratiquait plutôt l'inverse.
Ce billet a eu une large résonance dans les médias aussi divers que: lemonde.fr, Bus & Car, Francetv.info, lefigaro.fr, DirectMatin.fr, La Tribune.fr, Liberation.fr ou SudRadio.fr. La RATP à la fois familière et secrète intéresse beaucoup.
L'exploitation des données qu'en font les médias est variable. Chacun picore les données qui lui parait faire sens: la ligne la plus longue est la 8, 14 la plus rapide, le nombre de suicides et de tentatives en diminution, le nombre de violences voyageurs a presque doublé en 6 ans, ... D'autres vont chercher des données détaillées non visualisées dans le billet initial, les connectent à des informations de contexte et en tirent des enseignements ou confirmations de convictions préexistantes.
Concevoir un tableau de bord démarre avec les buts à atteindre. Mais essayons de faire l'inverse. Partir des même données et esquisser une conception de tableau de bord à destination des voyageurs.

D'abord un point de vue

Chaque tableau de bord réussi a un point de vue. Qui est le destinataire, d'où regarde t-il ? Son intérêt, ses questions, sa connaissance préalable, son vocabulaire, ... C'est ça qui décide ce qui doit être: au premier plan, au second et à l'arrière plan. Et tant pis si certains éléments deviennent invisibles, c'est la loi de la perspective et ... une très bonne chose pour les tableaux de bord.
De cette position il faut faire la liste des objectifs et des questions intéressantes:

  • mieux connaitre le métro: où se situe(nt) ma(es) ligne(s) préférée(s) ? ponctualité, débit, ...
  • le métro est il dangereux ?
  • le métro et le RER sont ils en train de s'adapter aux handicapés ?
  • ...


Les données et leurs contextes

La donnée apporte du sens quand elle est mise en contexte: culturel, temporel, localisation, causal,... C'est elle qui permet de répondre aux questions précédentes.
Les nombres de blessés et de morts sont de parfaits exemples de données qui ne disent rien à elles seules. On peut bien sûr se rassurer en découvrant qu'en moyenne l'agression n'arrive que tous les 300.000 voyages... Mais pour en apprécier l'importance il faut les mettre en relation avec d'autres données de contexte non disponibles dans le rapport:

  • quel est le niveau normal ? Combien de blessés/décès observe t-on dans un groupe témoin durant l'équivalent d'un temps de transport ?
  • quels sont les niveaux d'autres moyens de transport ? la voiture, l'avion, ... Normalisés au kilomètre parcouru ou au temps de voyage ?
  • quelle est la répartition des causes (chute, agression, suicide, malaise, ...) ?
  • quel est le calendrier ? Observe t-on des cycles (horaire, hebdomadaire, saisonnier) ? Des corrélations avec la fréquentation, des événements particuliers, ... ?

Les informations de trafic, nombre de trains, de départs ou vitesse de pointe sont un parfait exemple inverse. Ces données ne prennent leur signification qu'agglomérées les unes aux autres:

  • à quoi sert un train à 50km/h qui ne passe que toutes les heures ?
  • le nombre de trains par ligne n'a aucun sens pour le voyageur. C'est la fréquence apparente des trains qui compte.

L'indicateur utile au voyageur c'est le temps d'attente d'un train et un prédicteur de son temps de transport.

  • le temps d'attente moyen est estimé par le nombre de départs journalier ramenés à la plage horaire de service (18 heures ?).
  • le temps de transport entre 2 stations à la vitesse commerciale maximale est un moyen simple de calibrer toutes les lignes sur une échelle unique.


... et une représentation visuelle adaptée

Les données des lignes: longueur, nombre et densité de stations sont présentées simultanément sur un diagramme à barres qui communique une vision globale de la grande variabilité des caractéristiques des lignes. Dans un tableau de bord finalisé il faudrait ajouter une visualisation/sélection des lignes sur le plan de métro.

Les détails numériques peuvent être utiles comme références, ils restent sous forme de table filtrable et triable (cliquer sur les colonnes).
Sur cette nouvelle échelle de vitesse, la ligne 14 n'est plus la plus rapide, car sa distance inter-station est la plus grande. Et la 4 n'est plus la plus lente bien au contraire.
La donnée n'est rien sans son contexte, il lui est fourni par un observateur qui fixe la hierarchie d'une perspective et ... d'autres données.