S’il est bien un sujet qui divise et passionne, c’est celui de l’utilisation de la data dans le foot. Mais avant de commencer, testons le testeur comme dirait l’autre.
Pour ceux qui connaissent déjà notre media, vous savez peut-être que je suis dans ma vie hors foot dans les métiers de la data depuis bientôt 15 ans. Tout d’abord Statisticien, puis Consultant Data.
Cet article est un article d’opinion, avec mes connaissances, et j’apprends tous les jours, ne le prenez pas au pied de la lettre s’il vous plait, nous avons tous nos biais.
Je suis personnellement autant exaspéré par les gens qui détestent la data, que par ceux qui l’idolâtrent. Pour moi aucun de ces 2 camps ne comprend la data, mais ces 2 camps sont ceux qui s’expriment le plus, ou que l’on invite le plus à s’exprimer sur le sujet. D’où l’image détestable du débat aujourd’hui selon moi.
Aux origines de la data
Je considère aujourd’hui le mot « data », utilisé dans le foot, comme un abus de langage, que l’on devrait arrêter de mettre à toutes les sauces.
Le mot « data » est un mot anglais, qui en Français signifie « donnée », et qui englobe énormément de choses, poussé à l’extrême, on peut considérer que tout est de la data. La couleur de vos yeux, la taille de vos doigts, la couleur de vos cheveux, etc…
La question devient alors : Quand est-ce qu’une donnée est intéressante, et quand est-ce qu’elle ne l’est pas. Et la question sous-jacente ici : Comment comprendre la data en football, solution miracle pour les uns, arnaque du siècle pour d’autres.
Pour une banque, et pour globalement toute personne morale (entreprise), une donnée vous concernant devient intéressante des lors qu’elle lui permet de minimiser le risque, ou de maximiser une opportunité. Dans le cas d’une banque, le risque de vous voir dans l’impossibilité de rembourser votre prêt immobilier, l’opportunité de vous voir accepter un nouveau produit financier.
Pour le football, la data est souvent (majoritairement) utilisée dans le processus de recrutement et dans l’analyse des matchs, et je pense que le terme « data » est ici un abus de langage, et voici selon moi pourquoi : La data est une figure sans contexte, un chiffre / mot / fait sans analyse qui est collecté pour permettre par la suite l’utilisation du véritable terme que nous devrions utiliser (selon moi) : les statistiques. La statistique collecte, analyse, interprète, organise et présente la data. En d’autres termes, quand vous parlez d’un taux de possession du ballon ou d’un pourcentage de dribble réussi, vous parlez d’une statistique, pas de data pure.
Le hasard est logique - Johan Cruyff
Mais puisque c’est le terme à la mode, continuons le reste de cet article en parlant de « data ».
Comme je l’ai expliqué plus haut avec mon analogie faites avec la banque, la data (au sens large donc) est essentiellement utilisée pour 2 choses : limiter les risques, maximiser les opportunités (au sens - très - large).
En football, on peut penser évidemment à plusieurs usages : Minimiser les risques de défaite, maximiser les opportunités de victoire, minimiser les risques d’un mauvais recrutement, maximiser les opportunités de recruter un joueur peu connu qui changera la face de votre club, et bien d’autres usages…
Brighton / Toulouse / Wisła Krakow, fers de lance de l'utilisation de la data
Cet outil (retenez bien ce mot) exceptionnel que j’utilise depuis bientôt 15ans, est de plus en plus à la mode donc, les exemples les plus connus étant les clubs de Brighton en Angleterre, Toulouse en France ou le Wisła Krakow en Pologne (nous restons tout de même un media qui parle de foot Polonais !). Brighton et Toulouse enchainent les recrutements « exotiques » dits « masterclass » (autre terme à la mode), Toulouse a même viré son coach la saison dernière car la data disait qu’il sous performait, le Wisła Krakow a quant à lui choisi son nouvel entraineur grâce à la data. Le point commun entre ces 3 clubs ? Le succès, et le succès attribué à la data. Brighton est un club qui enchante les foules en Angleterre en proposant un football chatoyant, Toulouse a récemment gagne une coupe de France et participe à la coupe d’Europe, et le Wisła Krakow vient de se qualifier pour la finale de la coupe de Pologne.
Mais alors, devant un tel succès, pourquoi ne pas passer au tout data ?
Eh bien, je vais proposer ici une seconde lecture aux succès de Brighton, Toulouse et du Wisła Krakow, en prenant le temps de les comparer ou de les creuser.
Commençons par le dernier cité, le Wisła Krakow, sur le papier, cette qualification en finale de la coupe est extraordinaire. Dans les faits, si l’on regarde les résultats en championnat, depuis l’arrivée du nouvel entraineur, le Wisła, qui était à 3 points des places de promotion direct en Ekstraklasa, a glissé hors de la zone des barrages, récoltant la 8e place de la phase retour pour l’instant. Très insuffisant.
Premièrement, une personne construit des statistiques/modèles basés sur sa connaissance du domaine du football, son expérience et des hypothèses clairement définies. - Piotr Wawrzynów (Data Scientist du Wisła Krakow)
Pour Toulouse, regardons de plus prêt le palmarès des derniers vainqueurs de la coupe de France : Sur les cinq derniers vainqueurs, deux fois le PSG a été gagnant, ainsi que Rennes, Nantes et donc Toulouse. Rennes et Nantes sont-ils connus pour utiliser la data ? Non. L’utilisent t’ils ? Je l’espère. Cela les a-t-il empêchés de produire la même performance que Toulouse ? Absolument pas.
Toulouse est également connu pour son recrutement « 100% data » selon certains. Alors, allons regarder de plus près. Cette saison, Toulouse a recruté 9 joueurs. Leur 2e plus gros transfert n’a disputé que 9% des minutes cette saison, leur 3e plus gros transfert n’a disputé que 32% des minutes possibles, et le 4e en a disputé 43%, ce qui signifie que prêt de la moitié de l’argent dépensé sur les transferts cette saison l’a été sur des joueurs qui ne s’imposent pas.
On peut également noter que cet été a vu le départ en prêts de 5 joueurs, 1 an après leur arrivée, car ils ne s’imposaient pas, représentant au passage un investissement total « non fructueux » de 9.1 millions d’euros, soit prêt de 70% de l’argent investi alors.
Concernant Philippe Montanier, viré l’an dernier au motif de résultats insuffisants selon la data, sa moyenne de point par match était de 1.26. La moyenne de son remplaçant est de… 1.18.
©Icon Sport
Pour Brighton, également cité en exemple (à raison selon moi) pour son recrutement génial via la data, saviez vous que des 8 joueurs recrutés au mercato 2023, aucun ne cumule plus de la moitié des minutes de jeu possibles en championnat ? Et ce malgré le départ dans le même temps de 3 titulaires. Malgré un recrutement de plus de 100 millions d’euros cet été.
Par ailleurs, 2 des 3 joueurs ayant disputés le plus de match cette saison sont Gross, au club depuis… 2017, et Dunk, au club depuis… 2013 ! Bien loin de l’époque data donc.
Aujourd’hui, 4 points derrière Brighton se trouve Fulham, club Londonien au recrutement presque exclusivement made in Premier League et aux dépenses 40% inférieures à Brighton. Ce ne serait donc que ça l’effet data ? 4 points en une trentaine de journées de championnat ?
J’espère avoir réussi ici à illustrer les 2 points capitaux pour la suite de l’article : L’interprétation, et le manque de données (ou la donnée cachée).
L’interprétation, élément central de la data dans le foot.
Selon moi, s’il est bien un élément qui différencie la data telle que je la connais dans ma vie de tous les jours, et la data dans le foot, c’est l’interprétation.
Pour revenir à mon exemple de la Banque, une Banque n’est pas là pour interpréter les résultats de la data. Si le modèle utilisé pour le prêt immobilier dit que pour un tel montant, il y a 98% de chances que vous ne puissiez pas repayer, et donc qu’à terme vous perdiez votre maison, la Banque n’est pas là pour se poser des questions sur ce résultat, elle refusera votre demande de prêt (je simplifie à l’extrême le processus, bien évidemment).
Dans le foot, pour moi, c’est extrêmement différent.
Je discutais récemment avec un recruteur qui me disait qu’il pense qu’à terme, la data remplacera le scouting, car elle permet en un claquement de doigt de pouvoir comparer / évaluer / découvrir des centaines de joueurs, lorsqu’un scout mettra des mois à en connaitre quelques dizaines. Cette discussion était assez drôle, car lui pensait cela, et moi qui suit dans ce métier depuis 15ans pensait l’inverse ! Et voilà pourquoi : l’interprétation de la data dans le foot ne peut se faire que par des connaisseurs, qui vont sur le terrain, qui connaissent le foot et les joueurs, qui apportent une dimension humaine aux résultats de la machine, selon moi le scouting « traditionnel » et la data pour le recrutement sont les deux faces d’une même pièce.
Le projet technologique et de modernisation du TFC doit être au-dessus de tout
La data seule en foot, pour le recrutement, est utile, mais elle ne dit pas tout. Si deux joueurs ont un nombre de dribbles moyens réussis par match équivalent, cela veut-il dire que ces chiffres sont équivalents ? Que se passe t’il si l’un des deux joueurs a tenté deux fois plus de dribbles que l’autre ? A quel endroit du terrain les a-t-il tentés ? Quelle était la distance de marquage quand il les a tentés ? Quel était le score ? Qui était l’adversaire ? Ces dribbles étaient-ils utiles ou non ? Quel a été le résultat de l’action globale ? Quelle a été l’attitude du joueur une fois le dribble réussi ? Avait-il d’autres solutions mis à part le dribble ? Ces joueurs jouent-ils dans des championnats de niveau équivalent ?
Certaines de ces questions peuvent être répondues via la data. D’autres seront (beaucoup) plus compliquées, et il ne s’agit que d’un seul point de données, il en existe des centaines pour évaluer la performance des joueurs.
C’est pour ça qu'ont été créé des algorithmes (et des modèles de Machine Learning) pour permettre d’agréger la data et simplifier le plus possible la prise de décision. Néanmoins, on s’expose alors au premier risque : qui a créé l’algorithme / le modèle, quelle compréhension a-t-il / elle du Football, et quelle interprétation faire du résultat. Je reprends ici l’exemple de Toulouse, connu pour se servir d’un algorithme pour trouver les joueurs, ce qui explique le cote « exotique » de leur recrutement : si 5 des 10 joueurs arrivés en 2022/2023 sont déjà repartis en 2023/2024, l’algorithme est il si bon que ça ? L’interprétation des résultats de cet algorithme ne mériterait-elle pas une seconde évaluation, avec… Une vision humaine (le scout) des joueurs découverts via l’algorithme ?
Le manque de donnée / la donnée cachée, vrai risque de la data
La data (donnée) est infaillible, vous pourrez toujours penser au sortir d’un match qu’un joueur est un excellent dribbleur, si les chiffres disent que le joueur n’a réussi que 5% de ses dribbles, vous devrez revoir votre jugement. La data est infaillible… Quand elle existe, et / ou quand elle est prise en compte dans l’analyse.
Prenons un exemple simple de la vie réelle: regardons ensemble ce qui peut définir les dépenses des assurés d’une mutuelle concernant une paire de lunettes. Le prix d’une paire de lunettes se compose de 2 facteurs : Les verres, et la monture. Le prix des verres dépend du default visuel, de la matière, de la marque, pour citer les plus évidents. Maintenant que nous connaissons le prix des verres, définissons ensemble le montant dépensé par les assurés pour la monture. On peut penser à la marque, la matière, les customisations éventuelles… Le raisonnement tient, et l’on pourrait créer un modèle pour définir un prix global que vont dépenser les assures en fonction de ces critères. Il y a néanmoins une donnée manquante ici, d’extrême importance : Le plafond de remboursement de l’assuré, si une fois que les verres sont payés, le plafond permet à l’assuré de dépenser 400 euros supplémentaires, il y a fort à parier que peu importe le type de monture, la dépense se rapprochera fortement de ces 400 euros. Les gens en veulent pour leur argent.
Alors en Football, quelles pourraient être ces données cachées ? Elles sont multiples, et celle qui me parait la plus évidente en termes de recrutement est l’adaptation. Adaptation à un nouvel environnement, à un nouveau club, à un nouveau championnat. Le recrutement étant pour la majorité des clubs de cibler des jeunes joueurs à fort potentiel pour pouvoir ensuite les revendre et faire une plus-value (le fameux « trading »), la faculté d’adaptation est d’autant plus inconnue que le joueur est jeune. Mais ce n’est pas tout, on pourrait également parler de l’attitude du joueur sur et en dehors du terrain, comment se comporte-t-il avec ses partenaires / adversaires / dans la vie de groupe ? Le mental est une partie extrêmement importante du sport de haut niveau, et la data telle qu’on l’entend (les statistiques) ne peuvent pas délivrer une telle information.
Alors, je persiste et signe : La data n’est pas une solution miracle, bien utilisée et comprise, elle vous permettra de réduire le risque d’erreur et maximiser vos performances, mais il ne faudra pas minimiser le rôle de ceux qui étaient déjà la avant : Les entraineurs, formateurs, recruteurs… Et devinez quoi: Les connaissances de ces gardiens du temple... sont également de la data, une data précieuse qu'il convient de valoriser autant que ce qui vient de la machine. On appréciera le travail d'une machine capable de couper 1000 vêtements en une journée, on admirera le travail d'un tailleur qui fera votre vêtement à la main.
Revenons au tout début de l’article. Je parlais d’un article d’opinion, et voilà pourquoi: Chaque chiffre, chaque donnée que j’ai cité dans cet article existe, en revanche, ma compréhension et l’utilisation que j’en ai fait sont très personnelles, et probablement qu’en utilisant les mêmes données de manière différente ou en utilisant d’autres données, vous vous forgeriez une opinion différente de la mienne. Par exemple, quelqu’un utilisant les données de Brighton aurait pu déclarer que grâce à la data, l’effectif de Brighton est aujourd’hui si riche et regorge de si bons joueurs que l’entraineur partage le temps de jeu entre tous, ce qui donne la sensation qu’aucune nouvelle recrue ne s’impose réellement.
La data est un outil, un formidable outil, mais reste un outil.
Non, la data ne vous sauvera pas, elle ne vous sauvera pas d’un manque de travail en amont, d’un manque de compréhension du football, ou d’un manque de compréhension de la data elle-même.
コメント