Données, tableaux : attention à la noyade !
Abonnez-vous pour pouvoir commenter !
si vous êtes déjà abonné Connectez-vous Connectez-vous
Commentaires préférés des abonnés
Ouais…
Mais faut pas confondre données et informations.
La masse des données n’induit en rien que les informations croissent en proportion.
Et ça, c’est vieux comme le monde, comme le montre cet exemple :
La question des forces tombantes a été disc(...)
Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphique(...)
Je découvre Jean-Lou Fourquet. Très talentueux!
Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est da(...)
Derniers commentaires
Bonjour,
Je ne sais pas si ça correspond à la demande, mais ce dont vous parlez m'évoque tout simplement les méthodes d'analyse par correspondances multiples : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples
En sociologie, les travaux de Bourdieu s'appuient largement sur cette méthode. Le schémas suivant est un exemple simplifié de : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples#/media/Fichier:ACM_fig1.jpg
Je découvre Jean-Lou Fourquet. Très talentueux!
Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est dangereuse d'ailleurs. Elle induit en erreur.
"Tous les modèles sont faux, mais certains sont utiles". J'aime l'humilité de cette phrase que j'ai apprise en me formant à l'apprentissage automatique.
Christophe Barbier l'illustre à ses dépens à travers ce récent tweet où il met côte à côte deux graphiques qui montrent une corrélation apparente entre deux données observées. Il pousse la malhonnêteté jusqu'à laisser le soin aux autres utilisateurs de tirer la conclusion par eux-mêmes. Soit dit en passant : y a-t-il plus malhonnête intellectuellement que ce type?
Merci beaucoup Amoklaüfer :),
Oui, je pense que vous avez raison, on peut pas avoir d'infographie "absolue" qui nous explique le monde simplement. Je pense par contre qu'on peut tenter des faire des infographies, des illustrions, des visualisations qui croisent plus les domaines. Par exemple, je trouve les graphiques de jancovici qui font le lien entre croissance du PIB et croissance de la consommation énergétique mondiale très éclairants.
Mais ils ne sont éclairants qu'à partir du moment il y a un lien entre les deux domaines et à partir du moment où on peut expliciter ce lien sinon on tombe dans l'exemple hallucinant que vous mettez ...
J'avoue que là ... Déjà que j'ai beaucoup de mal à être neutre par rapport à Christophe Barbier, là, ça commence à frôler le trumpisme un peu ... Que veux il dire en les mettant côte à côte ?
La seule réponse à faire, c'est celle qu'il y a un peu en dessous :
Jean-Lou, puisque vous mentionnez Jancovici, j'attire votre attention que le Shift Project a publié son dernier rapport "Crise(s), climat : vers un Plan de transformation de l’économie française" qui comprends un diagramme de flux cherchant à relier ensemble les N sujets abordés. Ce n'est pas le modèle de "toute la complexité du Monde", mais c'est déjà pas mal !
J'ai vu !!! C'est là où selon moi le shift project est un projet extrêmement intéressant (j'en avais parlé dans le dernier pendantLaBiere) et c'est exactement le type de schéma que des infographistes pro doivent s'approprier !
On peut aussi choisir de s'arrêter sur quelques chiffres .
Un quart sont décédés à l'hôpital (3091) et trois-quart dans leur établissement ( 8876)
Près de 17000 personnes travaillant en Ehpad ont contracté ce coronavirus ( confirmé par test) .
Début Mars 2020 les stocks de masques ont été réquisitionnés par décret . y compris ceux détenus par les Ehpad qui pour certains avaient des FFP2 .
Puis des masques ont été redistribués aux EHPAD, mais pas les FFP2 .
Et quand des médecins de patients résidant en EHPAD ont demandé à ce qu'ils soient hospitalisés pour cause de suspicion de contamination au Covid, certains hôpitaux ont refusé : c'est ce que disait une invitée dans l'émission consacrée aux Ehpad la semaine dernière .
Et ces chiffres semblent confirmer ce qu'elle disait :
D'où ces deux questions :
- des hôpitaux ont-ils refusé des malades du covid parce qu'elles vivaient en EHPAD ?
- pourquoi a-t-on réquisitionné le matériel de protection du personnel travaillant en EHPAD puisque l'exposition au virus y est la même qu'à l'hôpital ?
Merci pour la rubrique en général.
Une petite suggestion à Jean-Lou qui a dit chercher des façons de rendre graphique la perception d'un monde complexe: Il y a longtemps, quand j'enseignais encore, j'avais (en partie à la main !) fait des graphiques associant empreinte écologique et Indice de Développement Humain. Ceux-là datent de 2003 et mériteraient une actualisation, mais je laisse ça à d'autres plus exercés en traitement des données.
Un peu rapide le débit, Jean-Lou....
Pour répondre à la question posée par Jean-Lou Fourquet sur l'erreur... Je trouve moi aussi plutôt 0,17 MBytes/seconde/humain
* 40 zettabyte = 40 × 10^21 bytes. (10 puissance N est noté 10^N)
* Une année = 365 jours de 24 heures
= 8 760 [365 × 24] heures de 3 600 secondes (60 minutes × 60 secondes / minute)
= 31 536 000 [8 760 × 3 600] secondes, soit 31,536 × 10^6 secondes.
* La division de 40 zettabyte par une année donne donc:
(40 × 10^21 bytes) / (31,536 × 10^6 secondes) = 40 / 31,536 × 10^15
= 1,27 × 10^15 bytes/seconde.
* A diviser par le nombre d'humains sur Terre, soit d'après Wikipedia 7,55 milliards (7,55×10^9) :
=> (1,27 × 10^15 bytes/seconde) / (7,55 × 10^9 humain) = 1,27 / 7,55 × 10^6
= 0,168 × 10^6
= environ 168 000 bytes (soit 168 kbytes ou 0,168 Mbytes) par seconde par humain.
Ouais…
Mais faut pas confondre données et informations.
La masse des données n’induit en rien que les informations croissent en proportion.
Et ça, c’est vieux comme le monde, comme le montre cet exemple :
La question des forces tombantes a été discutée pendant des siècles, voire des millénaires, dans des quantités d’ouvrages constituant une masse de données importante, même si elle semble ridicule comparée à nos masses de données actuelles.
Il n’empêche que toutes ces données se résument en une seule et unique information, tenant en une seule et unique phrase :
Les corps s’attirent en proportion inverse du carré de leur distance.
C’est tout…
Pour moi, qui ai eu l’occasion de professionnellement travailler sur des données de très gros volumes, je sais combien malgré les moyens mis en œuvre, les résultats peuvent être décevant, très souvent en deçà de ce que l’on pouvait en espérer.
Pour exemple, la connaissance de sa clientèle locale par un commercial sera toujours très supérieure à tout ce que pourra produire n’importe quel moteur d’extraction de Big Data, peu importe la taille des bases, même avec traitement en IA. Pour la raison toute simple, que le cerveau de notre commercial saura croiser des informations totalement inaccessibles aux machines, même en traitements informels par réseaux de neurones.
Comme par exemple une tâche d’œuf sur la cravate de l’ami du client, induisant un rejet de la femme du gars qui a vu l’ours, modulant un affectif inconscient chez le frère du père du capitaine, propre à modifier les conditions de signature du contrat…
… Sans compter qu’il est strictement impossible d’effacer les fameuses données RGPD dans la tête de notre brave commercial, sauf à le lobotomiser.
Bref, la règle est la suivante :
- Pour pouvoir traiter de grandes masses de données, il faut pouvoir les systématiser.
- Pour les systématiser, il faut pouvoir concevoir le système au préalable.
- Or, pour concevoir le système, il faut déjà avoir une idée du résultat que l’on en attend.
- Ce qui signifie que ce que l’on va demander au système, c'est de nous conforter dans nos préjugés.
Et ça, c’est très dangereux…
Pour résumer :
On ne peut voir ou entendre que ce qui nous confirme dans ce que l'on a déjà conçu.
Ce qui fait que les informations véritablement nouvelles sont extrêmement rares, peu importe la masse des données.
Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphiques" Covid19. C'est moi qui l'ai fait ;)... (humour). Blague à part aller voir à la fin de cet article : https://guillaumerozier.fr/le-simulateur-epidemiologique-du-covid-19-developpe-par-covidtracker-est-finalise/ . Le graphique pourrait être amélioré, mais disons que pour le moment il raconte ce que pourrait être une histoire du covid19 en France. Si on le lit attentivement, on pourra en déduire ce que serait le taux de mortalité final. On pourra voir que probablement la moitié des personnes ayant reçu un test PCR positif seraient passées par l'hôpital. Aussi qu'environ 1/3 des personnes guériraient toutes seules à la maison. Ce graphique est le résultat d'un travail de projection de données grâce à un simulateur entrainé sur les données de Santé publique France. Attention, il ne dit pas la réalité à venir! C'est une hypothèse. Il permet de voir loin (comme vous le suggériez) dans les conditions où la situation en cours se stabiliserait. Bonne lecture et au plaisir de partager plus sur le sujet si vous le souhaitez.