Ils se sont trompés - encore. En dépit de la plupart des sondages d’opinion et des prévisions selon lesquelles Hilary Clinton battrait Donald Trump à l’élection présidentielle américaine, l’inverse est arrivé. Bien sûr, vous pourriez affirmer que les sondeurs étaient parfaitement corrects: les scrutins ont qualifié de "course serrée" avec Clinton, et c'est exactement ce qui s'est passé - Clinton a remporté le vote populaire, après tout - mais Trump l'a mise en déroute en termes de votes électoraux.

Mais des sondages approfondis ont également été effectués état par État, notamment par le gourou du sondeur Nate Silver, du FiveThirtyEight, qui a calculé que Trump n'avait que 29% de chances de gagner. Les électeurs conservateurs étaient énormément sous-estimés, mais comment?

Alors, les électeurs «timides» de Trump ont-ils menti aux sondeurs? Les prévisions sont-elles basées sur des données erronées? Et les nouvelles technologies, provenant en partie de la Silicon Valley aux prises avec un choc de coquillages, peuvent-elles donner un nouvel élan à une industrie actuellement menacée de discréditation?

Les sondeurs utilisent des questionnaires, des données démographiques et des algorithmes (Crédit image: Wikimedia)

Comment fonctionnent les sondages?

Les sondages d’opinion consistent à extrapoler les tendances à partir d’un échantillon de données relativement restreint. Le sondeur demande aux gens comment ils entendent voter ou comment ils viennent de voter, et des algorithmes sont appliqués pour créer une image nationale équilibrée du point de vue démographique..

Dans un pays de 231 millions d'électeurs potentiels - bien qu'environ 100 millions ne votent pas, le système reposera toujours autant sur des hypothèses que sur des données réelles. La participation électorale est très difficile à prédire. il n'y a tout simplement aucune donnée à ce sujet avant le jour des élections.

"Le fait de prévoir des données à partir de prévisions consiste à s'assurer que les données sont représentatives", explique Matt Jones, stratège en analyse chez Tessella, consultant en science des données. "L'analyse statistique traditionnelle des données de sondage et des enquêtes ne sera représentative que de ceux qui se sont donné la peine de participer, et cette partie de la population ayant le droit de vote n'est pas représentative."

Les médias accordent aux sondages une importance capitale dans la mesure où ils peuvent être décisifs pour déterminer si les gens se donnent la peine de voter ou non - afin de pouvoir faire basculer les élections..

Les sondeurs doivent-ils utiliser les médias sociaux??

Données limitées

L'apprentissage automatique est déjà utilisé lors de l'exécution de prévisions électorales. Cela fait partie de l'analyse statistique standard. "Comme pour toute analyse statistique, le facteur le plus critique est la quantité de données disponibles pour exécuter vos algorithmes et fonder vos prévisions", a déclaré Claus Jepson, architecte en chef chez Unit4. "À ce jour, l'ensemble de données disponibles est simplement trop limité pour offrir des prédictions précises, d'où la nécessité d'inclure des interprétations humaines - rendant ainsi les prédictions biaisées..”

Par exemple, les sondeurs décident du poids statistique à attribuer au nombre de résultats historiques des élections. “À un moment donné, les données disponibles seront suffisamment grandes pour que les algorithmes puissent prédire efficacement des résultats moins biaisés basés sur des sondages ", estime Jepson..

Analyse des médias sociaux et des sentiments

Certaines de ces «nouvelles» données proviennent des médias sociaux, qui devraient devenir un nouvel outil pour les enquêteurs cherchant à suivre l'évolution des opinions. "L'utilisation de" l'écoute sociale "des conversations et des comportements sur les réseaux sociaux peut avoir été un signe précurseur des contradictions possibles des sondages officiels", déclare Mark Skilton, professeur au Pratique du groupe Systèmes d'information et gestion de la Warwick Business School..

C'est la science de l'analyse des sentiments: lorsque des personnes écrivent des choses dans des publications sur Twitter et Facebook, il est possible d'extraire des attitudes positives, négatives ou neutres. Personne ne suggère que les sondeurs utilisent simplement Twitter pour prédire les élections, mais cela peut être utilisé pour améliorer un modèle purement statistique en ajoutant une dimension dynamique essentielle..

Par exemple, BJSS SPARCK a analysé 14 millions de tweets avant les élections et a correctement prédit le résultat, révélant que sept tweets sur dix envoyés au cours des quatre dernières semaines de la campagne étaient en faveur de Trump..

"Lorsqu'ils utilisent les médias sociaux, les gens sont moins surveillés quant à leurs véritables affiliations sociales et politiques", a déclaré Simon Sear, responsable de la pratique chez BJSS SPARCK. "Leur langage n'est plus filtré, ils" aiment "les contenus qui les intéressent et suivent les personnes et les organisations qui représentent leurs valeurs… contrastent avec le fait de devoir admettre des intentions et des intentions embarrassantes à un sondeur humain potentiellement critique."