La finale de la Ligue des champions n’était pas seulement un jeu passionnant, elle était aussi un changeur de jeu potentiel: l’attaquant de Liverpool Mo Salah, joueur de l’année, récipiendaire du Golden Boot et meilleur joueur égyptien, avait soudainement eu son billet pour la distribution de la Coupe du monde dans le doute après un défi agressif de Sergio Ramos l'a laissé blessé.

Les implications de ce tacle auraient pu être énormes: si Salah était incapable de jouer pour son pays (il s'est avéré qu'il a fait presque l'impossible et qu'il est en forme), cela aurait pu affecter les chances de l'Egypte à la Coupe du monde de football. Les performances de l’Égypte pourraient à leur tour avoir une incidence sur les performances des autres équipes de son groupe et, finalement, sur le pays qui soulèvera le défi. trophée.

Ceci dit, la chute potentielle de Salah ne représente que littéralement des millions de points de données. Un des millions de facteurs susceptibles d'influer sur le résultat de la compétition.

Comment pouvons-nous savoir à quoi s'attendre, alors? Existe-t-il un moyen de prédire la performance des équipes? Le Big Data, qui a déjà transformé d'innombrables autres industries, pourrait-il également permettre de mieux comprendre ce jeu magnifique? Pourrait-il prédire qui remportera la Coupe du monde??

Points de données

Opta Sports et STATS sont deux sociétés qui tentent de répondre à des questions comme celle-ci. En tant que sociétés de données sportives, leurs missions consistent à collecter des données et à leur donner un sens pour leurs clients, y compris les équipes et fédérations sportives, ainsi que les médias avides de données (ahem)..

“Il est très facile de penser que plus de données sont bonnes, mais jusqu'à ce que vous sachiez comment vous allez les utiliser et ce que vous pouvez en apprendre, il peut parfois s'agir de données pour des raisons de données.”

Paul Power, STATS.com

Qu'est-ce qu'ils collectent réellement, alors? Le directeur du marketing d'Opta, Peter Deeley, a expliqué que pour chaque match de football, son entreprise collectait environ 2 000 points de données individuels, principalement axés sur: “sur la balle” actes. Une équipe de trois analystes - un pour chaque équipe et une autre personne chargée de vérifier les moments difficiles - se rendra dans le centre de données de la société à Leeds et enregistrera essentiellement tout ce qui se passe sur le terrain: chaque passe, chaque passe et chaque tir. les positions sur le terrain où chaque interaction a eu lieu.

Les données sont livrées aux clients en direct. C'est pourquoi, par exemple, le pundit britannique (et ancien joueur anglais), Gary Lineker, est en mesure de renseigner les téléspectateurs sur des statistiques telles que la possession de balle et les tirs au but à la mi-temps..

Stats.com fait la même chose - et Paul Power, informaticien de la société, a voulu me dire que ce ne sont pas seulement les humains qui sont utilisés pour la collecte de données, mais les nouvelles technologies de vision par ordinateur..

Lorsqu'il s'agit d'enregistrer avec précision la position de chaque joueur sur le terrain, sa société utilise des caméras placées sur le bord pour s'en rendre compte, évitant ainsi aux joueurs de devoir porter des balises de suivi sous leur chemise, comme ce fut le cas dans des sports tels que le Rugby Union..

Mais pourquoi s'en tenir aux humains? La vision par ordinateur ne peut-elle pas être utilisée pour se connecter tout de ce genre de données? “Les gens sont toujours les meilleurs à cause de nuances que les ordinateurs ne pourront pas comprendre,” soutient Paul.

Il donne l'exemple, par exemple, si un joueur est pris dans un coin et tire le ballon loin de désespoir, mais heureusement, le ballon est ensuite reçu par un joueur de la même équipe. Pour une machine, cela peut ressembler simplement à un long passage, car les machines ne peuvent pas comprendre le contexte de ce qui se passe, ni l'apparence de panique sur le visage du joueur - cela enregistrerait un long passage, alors que techniquement l'événement est quelque chose de technique. sinon: un dégagement. Ce qui signifie que sans un humain pour faire ces appels, les données enregistrées pourraient être moins précises.

L'approche Opta

Nous savons que les deux sociétés disposent de nombreuses données, mais selon elles, qui remportera réellement la Coupe du monde? Bien que les deux sociétés génèrent beaucoup de données détaillées pour leurs clients, il est intéressant de noter que STATS et Opta ont divergé en ce qui concerne la modélisation du tournoi de cet été..

Dans le cas d'Opta, Peter m'a expliqué que leur modèle de Coupe du Monde ne prend pas en compte la myriade de données de joueurs individuels. Au lieu de cela, Opta a uniquement choisi de regarder la performance des équipes nationales spécifiques au niveau des équipes. Par exemple, évaluer les chances de l'Égypte sur la base des performances de son équipe dans le passé et sans prendre en compte la situation de blessure de Mo Salah.

“Les scientifiques de données pour la Coupe du monde ont examiné les performances historiques de différents pays, quelle différence cela fait-il si vous jouez en tant que pays hôte, quelle différence cela fait-il que vous jouiez sur votre continent d'origine. "

Peter Deeley, Opta

“Les experts en données de la Coupe du monde ont examiné les performances historiques de différents pays, quelle différence cela fait-il si vous jouez en tant que pays hôte, quelle différence cela fait-il que vous jouiez sur votre continent d'origine [et] quelle différence fait-il? ça fait si vous avez gagné les dernières coupes du monde,” Peter explique.

Les scientifiques ont ensuite pu peaufiner le modèle en l'exécutant des centaines de milliers de fois pour apporter des améliorations itératives, en ajustant le poids relatif de chaque facteur dans l'algorithme..

C'est une surprise, car vous supposez que plus il y a de données, mieux c'est, mais Peter pense que ce modèle peut toujours fournir de bonnes prévisions..

“Une coupe du monde n'ayant lieu que tous les quatre ans, vous constaterez souvent qu'un joueur de qualité décente, jouant pour un pays qui joue souvent en coupe du monde, ne participera qu'à deux tournois de la coupe du monde - vous n'aurez pas beaucoup de données sur que les joueurs ont un impact sur l’ensemble de l’équipe, dans le cadre international.” il dit.

Et il croit que ces données au niveau de l'équipe sont suffisantes: “L’Italie a gagné en 2006 - ils n’étaient pas favoris et la qualité de leur équipe était bonne, mais ce n’était pas une équipe qui avait une superstar de niveau Cristiano Ronaldo.”

Il poursuit en expliquant: “C'est vraiment intéressant, avec les Coupes du Monde, il est vrai que les équipes qui réussissent historiquement continuent de bien se porter. L'Allemagne, au moins dans les trois dernières Coupes du monde, s'est au moins qualifiée pour les demi-finales.

"Même si vous pouvez affirmer que leur équipe n’est pas aussi performante que la dernière fois, ils ont toujours la réputation d’être des champions du monde actuels, d’être une équipe généralement performante, et ce, sur leur continent national. signifie qu'ils ont une bonne chance en général, peu importe leur équipe, mais qu'ils ont toujours été performants dans les tournois.”

“Il est très facile de penser que plus de données sont bonnes, mais jusqu'à ce que vous sachiez comment vous allez les utiliser et ce que vous pouvez en apprendre, il peut parfois s'agir de données pour des raisons de données.”, il dit.

Le modèle STATS

STATS a modelé la Coupe du Monde d'une manière assez différente. Contrairement à son rival, il prend en compte les données des joueurs individuels pour ce qu'il appelle “Et qu'est-ce qui se passerait si?” Analytique.

Selon Paul, cela signifie que STATS peut utiliser efficacement les données de chaque joueur pour déterminer non seulement les performances d’une équipe, mais également quantifier l’impact de l’échange de joueurs. Dans le cas de Mo Salah, STATS affirme que son système serait en mesure de déterminer l’impact sur l’Égypte de sa capacité à jouer ou non..

“Vous pouvez vous connecter à ces différentes situations et cela pourrait générer un résultat et cette mesure serait soit le nombre de buts marqués ou encaissés, soit simplement la probabilité de gagner: comment ce joueur augmente-t-il ou diminue-t-il les chances? "Explique Paul.

“Nous pouvons regarder cela, lancer les simulations et cela nous dira: Mo Salah pourrait valoir 0,3 but, ou s'il ne joue pas et qu'un autre joueur entre, cela réduit la probabilité de victoire de 3% ou 10% ou il pourrait effectivement augmenter en fonction de l'équipe qu'ils jouent réellement contre.”

(Image: © Getty Images)

Pourquoi STATS pense-t-il que l'approche individuelle fonctionne mieux que de regarder les équipes??

“Tout le monde sait que si vos joueurs vedettes manquent, cela aura une incidence sur les performances. Vous n'avez pas besoin d'un réseau de neurones complexe pour vous dire que,” dit Paul. “Si cela manque dans votre jeu de données, cela va vraiment fausser vos probabilités et vos prédictions”.

“Nous savons qu'en ajoutant ces fonctionnalités supplémentaires aux joueurs, nous obtenons de meilleurs impacts, car nous sommes en mesure de faire mieux, c'est de modéliser les relations directes entre individus. Bien que ce soit un sport d'équipe, nous savons que certains individus ont une plus grande influence. sur le résultat que certains autres.

"Si vous ratez un défenseur par exemple, cela risque de poser moins de problèmes que de manquer un milieu de terrain central. Vous devez donc en tenir compte et, par conséquent, nous sommes vraiment confiants dans le modèle." que nous avons généré.”

Dis-moi qui va gagner, bon sang

Nous arrivons maintenant à la question primordiale: quel pays les deux modèles prédisent-ils? Dans les deux cas, en tant que véritables connaisseurs de statistiques, ils ont fourni des prévisions probabilistes qui contiennent un peu plus de nuance que votre compagnon Dave, qui jure à l’aveuglette que l’Allemagne va gagner à nouveau car il a un bon pressentiment..

J'ai demandé à STATS ses prévisions, et malheureusement, malgré le fait que la société soit disposée à me parler de toutes les données auxquelles elle a accès et de la manière dont elles ont été fournies. aurait en fait faire une prédiction, on m'a dit qu'ils ne publieront pas leurs prédictions cette année. Pourquoi? Par peur de se tromper? Non, la réponse est beaucoup plus simple: il s'agit d'informations précieuses, et ils ne veulent que céder le flambeau aux clients qui paient.

Nous avons cependant une prédiction d'Opta. Le Brésil (sans compter 2014), vainqueur de la Coupe du Monde, est considéré comme le champion le plus probable, ce qui leur confère une chance de gagner de 14,2%. Cela signifie que si vous courez 20 fois la Coupe du Monde avec exactement les mêmes équipes, vous ne vous attendez à ce que le Brésil gagne environ trois fois. Comme votre copain Dave, Opta adore également l'Allemagne, ce qui leur donne 11,4% de chances de remporter à nouveau le trophée..

EA Sports est une autre entreprise qui aime prédire et dont les résultats sont effrayants. Pour les trois dernières Coupes du Monde, il a bien prédit le futur vainqueur de la Coupe du Monde.

À l'aide des données détaillées dont il dispose sur les joueurs et le classement des équipes dans FIFA 2018 et son complément à la Coupe du monde, il a simulé le tournoi et la France était le vainqueur final, battant l'Allemagne en finale. Compte tenu des prévisions allemandes et espagnoles pour les Coupes du monde 2014 et 2010 respectivement, cela pourrait être un bon cri.

Ensuite, il y a Blue Yonder, une société célèbre pour avoir utilisé l'IA pour prédire les fluctuations de la gestion des stocks dans certains des plus grands supermarchés du monde. Il s'est récemment tourné la main pour prédire la Coupe du monde. Gauche, oui, mais sa technologie a analysé chaque match de football international disputé depuis 1872, réalisant plus d'un million de simulations de la Coupe du monde et estime que le Brésil est le favori pour gagner la Russie, avec 22,5% de chances de gagner..

Et qu'en est-il de l'Angleterre? La mauvaise nouvelle pour Gareth Southgate est qu'Opta donne à son équipe une modeste chance de 1,9%, tandis que Blue Yonder augmente légèrement ce pourcentage à 5,7%..

Si Opta et Blue Yonder ont raison, il est fort probable que nous puissions perdre un autre tir au but. Soupir.

La couverture de la Coupe du Monde TechRadar vous est proposée en association avec Honour.