Les data en 120 points et 0 prérequis
Ce livre clair, sobre et complet fait en 120 pages le tour du monde des données. Il sera utile aux étudiants, aux experts et à ceux qu’intéresse l’« or noir du XXIe siècle ».
« La data science sans science des données, c’est l’agriculture sans botanique » : or les données sont quantitatives ou qualitatives, ponctuelles ou périodiques, pertinentes ou inadéquates, exactes ou biaisées, etc.
Il faut redresser les données biaisées, corriger les aberrantes, interpréter les extrêmes, estimer les manquantes, accepter des approximations, extraire des tendances, et le « singe dactylographe » qui tape les commandes au hasard obtiendra des « résultats » dépourvus de sens.
Frédéric Lefebvre-Naré évoque rarement les mauvaises pratiques. Mais, si la qualité des données fait défaut, le processus de production sera coûteux, les produits de mauvaise qualité, la part de marché compromise.
Certaines données sont malsaines : les concepts comptables diffèrent des concepts économiques. D’autres sont empoisonnées : la comptabilité analytique suscite des conflits. Les tableaux de bord qui accumulent moyennes mobiles et cumuls, « R / P » (réalisé sur prévu) et « m / (m – 12) » (mois sur mois de l’année précédente) sont illisibles.
Les data scientists rencontreront l’illogisme des habitudes et le particularisme des corporations. Il ne leur suffira pas d’être « bons en maths » pour se tirer d’affaire…