Sondages Le Pen et Mélenchon : pourquoi le bug ?
400 sondages politiques ont été publiés avant le premier tour de l'élection présidentielle. En 2007, il n'y en avait eu qu'environ 300, et 200 en 2002. Cette profusion d'enquêtes d'opinion n'a pas permis aux sondeurs d'anticiper avec beaucoup plus de justesse que les années précédentes les scores obtenus par certains candidats dimanche, 22 avril. Le résultat de Marine le Pen a été largement sous-estimé par la plupart des sondages les plus récents, et celui de Jean-Luc Mélenchon clairement surestimé. Pourquoi ? Les sondeurs, interrogés par @si, sont partagés.
Abonnez-vous pour pouvoir commenter !
si vous êtes déjà abonné Connectez-vous Connectez-vous
Derniers commentaires
BVA travaillait pour le Parisien sur un échantillon de 2161 personnes, ce qui était censé restreindre la marge d'erreur: celle-ci devait, selon eux (cf document que je donne en lien) être réduite à 1,8 (au lieu de 2,5 sur des échantillons de 1000 personnes).
Or leur dernier sondage avant le 1er tour indiquait ceci: Hollande: 30 Sarkozy: 26,5 Le Pen : 14 Mélenchon: 14
Bref, plantage assez manifeste. Alors que la Sofres, dans le document montré par Dan, était plus proche de la réalité finale: Hollande: 27 Sarkozy: 27 Le Pen : 17 Mélenchon: 13
Est-ce à dire que pour BVA la méthode de constitution de l'échantillon, de "cuisiner" le sondé, de redresser les chiffres était pourrie?
De plus, est-ce que leurs calculs en fonction des catégories sociales ne sont pas désuets (cf post de Cécile Clozet)
Comment se fait-il aussi que le même institut pour le 2e tour passe de FH 57/NS 43% la semaine dernière à FH 53/NS 47% cette semaine, alors que les prévisions pour le 2e tour sont censées être plus béton et plus fiables?
La mobilité interne des français a explosé : les pauvres sont rejetés au delà des banlieues, vers des zones périurbaines récemment encore considérées comme des zones "rurales"... la composition socio-économique de ces communes est bouleversée, et donc la structure des votes. Les petits bureaux qui ferment à 18:00 heures ne votent plus du tout comme il y a 5 ou 10 ans, et faussent les estimations à partir des premiers résultats.
A l'arrivée, le score de Mélenchon est de " x-n " %. Et les journalistes, les analystes politiques, les présentateurs etc disent que c'est lui qui s'est planté.
Beaucoup savent que, grâce à cette loi de la gravité, on a pu perfectionner un grand nombre d'objet mécanique. A commencer par les voitures, les avions, etc etc.
Et puis, on connaît un peu moins les lois des la relativité.
Certains en ont entendu parler, assez vaguement. C'est, pour beaucoup, l'histoire d'un homme qui tire la langue, et guère plus. Bref, une histoire de farfelus...
Mais, pour ceux qui travaillent ou ont construit des centrales nucléaires, cette loi a plus de sens. Dit autrement : un/une ingénieur(e) qui construirait des réacteurs nucléaires en appliquant les lois de Newton aux processus atomiques seraient pris pour un/une grand(e) farfelu(e) ; voire un(e) danger publique.
Maintenant, qui connaâit la loi des grands nombres ? Vous savez, l'une de ces lois qui s'appliquent en probabilité - branche des mathématique. Mais, comme toute loi, elle a son champ d'application.
Elle postule la vérité suivante : si on lance un dé à six faces, bien équilibré, bien sous toutes ses formes, si on le lance, disais-je, 1000 fois, on pourrait mesurer certaines fréquences d'apparitions. Si on le lance à nouveau 1000 fois, on aurait d'autres mesures de fréquences. Mais, comme on aurait le temps, on le lancerait 10 000 fois ; puis 50 000 fois, puis 5 000 000 de fois. Et là, on observerait que ces fréquences semblent s'équilibrer... vers une valeur théorique : la fameuse "Une chance sur six".
Mais maintenant, si on observe une situation et que - cela peut arriver, n'est-ce pas - il n'y a pas de valeur de stabilisation, eh ben, il faut l'admettre : la loi des grands nombres ne peut pas s'appliquer.
Ainsi, le regretté Benoît Mandelbrot avait conclu cela au sujet des analyses financières : les cours de la bourses n'obéissent pas à la loi des grands nombres. Le livre "Fractales, hasard et finance (1959-1997)" décrit tout cela très bien.
Alors voilà : les sondeurs ont, sur la base de leur obersation, déduit un certain nombre de mesure... Les extrapolations sont totalement erronées. Ainsi - mais on le sait depuis longtemps, la loi des grands nombres ne peut pas s'appliquer.
Mais plutôt que de les décrire comme des ingénieurs farfelus, on préfère les garder près de nous : leur poésie des nombres est sans limite...
Marc Olive
Mathématicien - Avignon
Un sondage constitue la mesure d'un paramètre sur un ECHANTILLON de la population. Cette mesure diffère en général de la mesure sur la population totale. Si l'on considérait tous les échantillons possibles de 1000 personnes, on aurait un très grand nombre de mesures différentes.
Les probabilités nous enseignent, grosso modo, que la variabilité de toutes ces mesures dépend quasi uniquement de la taille de l'échantillon. Et que pour un échantillon de 1000 personnes, on a environ 95 chances sur 100 de trouver une valeur pour notre échantillon située à + ou - trois points de la valeur qu'on aurait trouvé pour la population tout entière.
Autrement dit, il reste encore 5% des échantillons qui donnent un résultat éloigné de plus de 3 points de la valeur attendue.
Il suffit qu'un institut de sondage tombe sur un de ces 5% d'échantillon pour que son erreur d'évaluation des intentions de vote de la population soit de plus que 3 points.
Il est à noter que pour une population assez grande, la taille de la population entière n'importe pas : On aurait la même incertitude pour un échantillon de 1000 personne d'un sondage fait sur la Chine, ou un échantillon de 1000 personnes d'un sondage fait sur la France.
Kuk
Citoyen - Paris.
"Quand la variance et l'espérance sont bornées, la loi des grands nombres s'applique"
J'attends donc la preuve mathématique que dans le cas qui nous occupent ces deux quantités sont bornées... En précisant bien sûr l'ensemble du modèle : univers des possibles, loi de probabilité appliquée (discrète, continue ?).
Si l'idée est d'utiliser une approximation d'une loi binomiale par une loi normale, il y a un autre problème de taille : une loi binomiale ne peut s'appliquer que dans le cadre d'une répétition indépendante d'une même expérience aléatoire, c'est-à-dire un tirage avec remise. Or, le principe même d'un échantillon va à l'encontre d'un tirage indépendant étant donné que l'échantillon a été construit par des éléments dits représentatifs...
Bref, j'attends la véritable preuve mathématique de ce que vous avancez....
2) Si vous essayez de m'interroger sur le calcul des intervalles de confiance pour la méthode des quotas; c'est un peu gros. C'est une tambouille complexe dont la marge d'erreur est sujette à discussion, et l'on ne peut certainement pas appliquer les résultats que j'ai indiqués pour un sondage par tirage aléatoire. Dans la pratique, il paraît pourtant que les marges d'erreurs relatives à la méthode des quotas soit plus faible que celles données, pour un échantillon de même taille, par un sondage par tirage aléatoire. La méthode des quotas suppose qu'on peut restreindre l'ensemble des échantillons possibles aux échantillés composés manuellement par certaines catégories sociales, et que l'espérance coïncide avec celle de la population globale et que la variance est inférieure à celle d'un sondage par tirage aléatoire, si l'échantillon est bien "représentatif" (et c'est tout le problème).
3) Pour ce qui est du sondage classique par tirage aléatoire : le paramètre étudié est l'intention de vote pour un candidat donnée. Pour chaque personne interrogée, ce paramètre peut valoir 1 (avec la probabilité p) ou 0 avec la probabilité (1-p). p désigne l'intention de vote réelle de la population entière, exprimée en pourcentage. On associe à un échantillon de N personne la variable aléatoire X, qui suit soit une loi hypergéométrique discrète (pour un tirage sans remise) soit Binomiale (discrète) pour un tirage avec remise, ça n'a pas grande importance vu que la taille de la population est grande par rapport à celle de l'échantillon.
4) Quoiqu'il en soit, les lois sont discrètes sur des univers finis donc l'espérance et la variance sont finies, donc la loi des grands nombres s'applique. Même si en l'occurence, c'est plutôt le théorème limite central qui est utile. C'est pour ça que j'attends précisément que vous m'expliquiez où vous utilisez cette loi des grands nombres.
5) Dans la méthode des quotas, les univers sont aussi finis, et les valeurs prises par le paramètre étudié sont aussi bornées. Donc la loi des grands nombres s'applique. En espérant que vous serez aussi exhaustif dans votre réponse.
1 - le sondage, qui a été réalisé jusqu'à l'avant veille (je crois) de l'élection qui est l'interrogation de personnes (par différentes méthodes : téléphone, internet etc) et qui se base sur des intentions de vote déclarées ==> au-delà de l'erreur statistique (dont vous parlez et dont les instituts veulent bien parler... pourquoi ne parlent-ils que de cette erreur là? ce serait une question pertinente à se poser) il y a un risque d'erreur qui provient du 'déclaré' qui n'est pas forcément ce que la personne va réellement faire et c'est là-dessus (aussi) qu'il y a des redressements afin de limiter cet écart entre déclaratif et comportement effectif. Par exemple, avant, on savait que les électeurs du FN ne déclaraient pas facilement leurs votes donc on sur-estimait ces déclarations, le tout est de savoir dans quelle mesure, avec quel poids il faut les surestimer. Aujourd'hui les choses semblent avoir évoluées, mais dans quelle mesure et avec quel poids? je pense que c'est là la difficulté, on reste sur du mouvant...
2 - les 'sorties des urnes' qui sont en fait des estimations à partir de bureaux tests et sur des bulletins de vote dépouillés. , donc des votes réels : et ce sont ces estimations qui ont été fournies à 20h sur les différentes chaines ==> il s'agit ici de bien choisir ses bureaux de vote et d'avoir un 'modele' statistique qui permet d'extrapoler (cela est différent du point 1 même s'il y a un échantillon qui est aussi créé et donc aussi des risques d'erreur)
Mais si un sondeur m'interroge à un moment "m" : je dis soit l'un soit l'autre. Quand les chiffres pour Mélenchon sont hauts, ceux pour Hollande devraient être plus bas.
Il est par contre plus inquiétant d'entendre les commentateurs politiques dire que le FN entre 2002 et 2012 a progréssé de plus de 900 000 voix en oubliant de compter les voix de B.Megret qui en 2002 avait réalisé près de 400 000 voix!
Quand on remarque les bons scores du FN dans des communes rurales dont la population n'a certainement jamais vu un "arabe" ou un "noir" cela en dit long sur cette population rurale et son état d'esprit certes une population qui souffre et qui travaille plus que la moyenne dont les chômeurs de l'unité familiale sont certainement nombreux. On peut comprendre,leur rejet des politiques qui les gouvernent et leur vote FN .
Comme on peut comprendre le désarroi des ouvriers de la sidérurgie qui ne voient les "partis politiques" PS etUMP qu'au moment des élections!
mon coeur n'est pas à maman Parisot (qui est vice-présidente d'IFOP), mais en ces temps difficiles il est toujours bon de savoir qu'à droite, certains restent honnêtes.
Quoi le Pen, et ses 17,9%, ah bon? et alors vous ne saviez pas qu'il y a toujours eu des mecs comme çà, qui se réveillent quand on les existe,
Seulement voilà le drame, nos prédicateurs et leurs oies sauvages sont à leur tour perturbées par les changements climatiques, les madames soleil subissent les caprices de la météo., le phénomène twitter, le scoop qui tire plus vite que son ombre, et ceci et cela,
Que diable ! bâillonnez nos experts qui jactent en continu 24H/24H 365 jours sur 365 jours à tous les endroits de la planète, demandez à Pénélope qu'ils arrêtent de défaire ce qu'ils ont dit la veille? etc.
J'invite également les asinautes curieux a visionner l'émission "Ce soir ou jamais" du 17 avril.
=> http://ce-soir-ou-jamais.france3.fr/?page=emission&id_rubrique=1556
et la campagne éhonté des journaux (mélenchon buisson, melenchon bachar el assad etc ...)
sur le pen a partir du moment ou on disait que Sarkozy s'éssouflait dans les sondages, je n'osais le croire mais le sentait venir, en plus quand Sarkozy a apellé les électeurs modem et fn aux vote utile je me suis demandé s'il n'était pas plus bas que ça dans les sondages.
Pour moi, les journalistes préfèrent commenter "la course de petits chevaux" et regardent pas ou peu l'abstention. En conséquence, les sondeurs ne font pas franchement d'effort sur celle-ci, alors qu'elle est aujourd'hui une des composantes majeures d'une élection.
En réalité, il y a eu aucune surprise dans ce scrutin. Le Pen a principalement récupéré les électeurs qui étaient partis chez Sarko en 2007...
Est-ce trop demander aux journalistes qui nous abreuvent des sondages à longeur de journée d'avoir le niveau d'un élève de seconde sur le sujet?
Cela commencerait par ne plus citer de sondage sans citer aussi les marges d'erreurs.