mercredi 21 novembre 2012

La formule magique de BAYES


Alors que la science a toujours prôné une vision objective du monde, le théorème de Bayes réintègre une dimension subjective : il ne nous parle pas du monde, mais de ce que nous en savons. D’ailleurs c’est exactement ce qu’ont postulé les fondateurs de la mécanique quantique, en l’occurrence : Bohr et Heisenberg.
En statistiques, on sait calculer la probabilité qu’une cause ait tel ou tel effet.
Thomas Bayes (1702 - 1761), mathématicien britannique et pasteur de l'Église presbytérienne, s’est attaqué au problème inverse, celui du raisonnement par induction: connaissant les effets, quelles en sont les causes probables? Un peu comme Sherlock Holmes, qui observant des gouttes d’eau sur la veste de quelqu’un, en conclut qu’il vient probablement de rentrer d’une averse.
Le théorème de Bayes est le suivant :
Si on désigne par A un évènement et par B un autre évènement, ce théorème se traduit par l’égalité suivante :                                      P(A|B)=[P(B|A) x P(A)]/P(B)
-      Le terme P(A) est la probabilité a priori de A. Elle est « antérieure » au sens qu’elle précède toute information sur B. P(A) est aussi appelée la probabilité marginale de A.
-      Le terme P(A|B) est appelée la probabilité a posteriori de A sachant B (ou encore de A sous condition de B). Elle est « postérieure », au sens qu’elle dépend directement de B.
-      Le terme P(B|A), est la probabilité de B sachant A.
-      Le terme P(B) est appelé la probabilité marginale ou a priori de B.
Ainsi confrontant deux évènements l’un à l’autre, la formule quantifie la probabilité pour l’un d’induire l’autre, remontant ainsi des conséquences vers les causes pour comprendre les phénomènes de la nature.

Cette formule élémentaire  a des applications considérables.  

Au cours des siècles qui suivent, l’intérêt pour cette équation de l’apprentissage statistique semble tomber en sommeil dans le monde académique, malgré un grand nombre d’applications remarquables en ingénierie et en recherche opérationnelle. Sait-on que la plaidoirie de Poincaré pour témoigner de l’innocence de Dreyfus reposait sur la formule de Bayes ? Que celle-ci fut la clé qui permit à Alan Turing de percer le chiffrement des messages cryptés de la machine Enigma  employée par l’Allemagne nazie dans ses communications militaires ? Que le Bureau d’Enquêtes et d’Analyses pour la sécurité de l’aviation civile s’est appuyé sur la formule de Bayes pour orienter les recherches de l’épave de l’Airbus AF447 du vol Rio-Paris abîmé en mer le premier juin 2009 ? Chaque jour, dans les PC et les Mac du monde entier, elle permet de débusquer les messages publicitaires (spams) parmi les flots d’e-mails reçus ; on la retrouve aussi à la racine de programmes informatiques qui traquent les fraudes bancaires.
S’appliquant à n’importe quel phénomène, elle produit des résultats, livre des découvertes, établit des vérités. Elle reste pourtant largement méconnue du grand public. Dans le cercle des mathématiciens, elle a donné lieu à des débats violents au point de marginaliser, pendant une bonne partie du 20ème siècle, les bayésiens.
Exemple1. Réchauffement de la terre
Considérons  l’hypothèse H : « le réchauffement moyen de notre planète dépassera les deux degrés d’ici 2070 ». Supposons que sans autre information la probabilité de cette hypothèse est évaluée à 40%. P(H) = 0,4.
Que si cette hypothèse est vérifiée, l’évènement O «  la fonte de la calotte glaciaire » a une  probabilité de 60% de se réaliser. P(OǀH) = 0,6.
Que la probabilité de l’évènement O est estimée à 30% en l’absence d’information externe. P(O) = 0,3
La petite formule de Tom Bayes permet d’évaluer la pertinence de ce qu’on croit savoir (H) à l’aune de l’information apportée par une observation (O). P(H|O) = P(H)*P(O|H) / P(O)
P(H|O) = 0,4 * 0,6 / 0,3 = 0,8.
Ce résultat veut dire que,  si l’on constate que la calotte glaciaire a fondu, alors il y a 80% de chances que le réchauffement moyen de notre planète dépasse les deux degrés d’ici 2070.
Exemple-2. D’où provient l’ivoire de contrebande ?
Sur le site www.mpt2013.fr, Gilles Guillot, de l’Université technique du Danemark, décrit une application originale: les statistiques bayésiennes sont utilisées pour identifier l’origine des ivoires d’Afrique saisis par la douane aux aéroports. L’ADN prélevé sur les ivoires est comparé à celui d’éléphants dont l’origine géographique est bien identifiée; la formule de Bayes utilise ces informations pour calculer la probabilité que l’échantillon provienne d’une certaine latitude et longitude, et identifier ainsi son origine probable. A l’échelle du continent africain, la moitié des échantillons peuvent ainsi être localisés avec une erreur inférieure à 500 km.

Exemple-3. Les élections américaines

Six jours avant les élections présidentielles américaines du 6 novembre 2012, les sondages donnaient les deux candidats à égalité. Le jour même de l’élection, ils enregistraient un écart de 0,7% en faveur de Barak Obama sur Mitt Romney. Dans le monde entier, le suspense est alors à son comble. On craint une élection très serrée, comme en 2004 entre Georges W Bush et John Kerry ou sur le fil du rasoir, comme en 2000 entre Georges W. Bush et Al Gore. Pourtant, ce même jour, un statisticien américain, Nate Silver, 34 ans, donne Barak Obama vainqueur à 92%…Sur son blog, FiveThirtyEight, il se paye même le luxe d’enregistrer 100% de bonnes prédictions concernant les résultats État par État, Floride comprise alors que le décompte final n’a été connu que le 10 novembre, plusieurs jours après les prédictions de ce blogueur : Nate Silver, lui, donnait 50,3% de chance de victoire à Barak Obama. Ce dernier l’a finalement emporté avec 50% des voix contre 49,1% à Mitt Romney. Dans tous les États, le blogueur a vu juste. Quant au nombre de votes électoraux obtenus par chaque candidat, il avait prédit 313 pour Barak Obama et 225 pour Mitt Romney pour un résultat réel de 332 contre 206. Nate Silver a utilisé la démarche logique basée sur le théorème de Bayes.(*).

Exemple-4 : La justice française se trompe

Éric Zemmour , écrivaillon crypto sioniste et journaliste politique français, est connu du public pour ses positions xénophobes à l'égard des immigrés arabes ou noirs, oubliant qu'il est lui-même d'origine immigrée.
Il a été condamné par un tribunal français pour avoir  déclaré : "la plupart des trafiquants sont noirs et arabes". Cependant, le tribunal qui l’a condamné pour ce « propos raciste » s’est trompé. Car constater, que,  statistiquement ,  "la plupart des trafiquants sont noirs et arabes" est différent de dire que "la plupart des Noirs et des Arabes sont des trafiquants", ce qui serait raciste et donc condamnable.
En appliquant le théorème de Bayes, Jean-Michel Claverie démontre que le premier énoncé n'implique absolument pas le second : il démontre que la proportion (techniquement la "probabilité conditionnelle") des émigrés parmi les délinquants peut largement dépasser 50 % (propos de Zemmour) sans que la proportion des délinquants parmi les immigrés (le propos raciste) soit beaucoup plus élevée qu'elle ne l'est parmi la population « gauloise ». Et si l'on introduit, en plus, le fait avéré que le taux de délinquance est plus fort parmi les tranches de population à bas revenus, là où se situe la majorité des immigrés, on peut même trouver  des situations où les immigrés sont simplement plus vertueux que les franchouillards !
La formule (de Bayes) qui aurait dû relaxer immédiatement Zemmour, est :
P(trafiquants|émigrés) = P(immigrés|trafiquants) x P(trafiquants) / P(émigrés)
A  =   B  x   C   /   D
Nous allons nous baser sur les statistiques officielles françaises. Le dernier volume publié (2008) par la statistique judiciaire, dans la série « Les condamnations », donne 2 187 personnes condamnées pour trafic (import, export) de drogues, dont 37 % d'étrangers. Parmi ces étrangers condamnés, 167 sont des ressortissants d'un des trois pays du Maghreb mais surtout 137 sont Marocains (soit 20,5 % des étrangers et 7,6 % de l'ensemble des condamnés), ce qui n'a rien de surprenant puisque le Maroc est le principal producteur de Cannabis alimentant le marché français. En 2008, la France compte 64 millions d’habitants. Donc la probabilité de trouver un trafiquant de drogue dans cette population est de 2187/64000000, soit 0,0034%. Donc C=0,0034%.
-        En 2008, les immigrés représentaient 8,4% de la population. Parmi ces immigrés, 43% sont noirs ou Maghrébins. Donc D=8,4% x 43% = 3,6%.
-        B=37%.
Ce qui donne A = 0,035%, c'est-à-dire que, sur 20.000 immigrés noirs et arabes, il y aurait en moyenne 7 trafiquants, les 19.993 autres ne le sont pas.
En prenant l’affirmation de Zemmour au pied de la lettre « Plus de la moitié des trafiquants sont noirs ou arabes », et bien qu’elle soit fausse d’après les statistiques officielles ci-dessus, on aurait  avec B = 60%, en moyenne 10 trafiquants pour 20.000 immigrés, ou bien 1 sur 2.000 !! Pas de quoi justifier  de renvoyer  chez eux les 1.999 autres qui ne font rien de répréhensible. Une autre chose que montre ce calcul, c'est l'influence terriblement négative que peut avoir  une infime fraction de délinquants sur la perception de la minorité dont ils sont issus.
"La formule de Bayes est la loi qui régit toute connaissance, toute information". Ce n'est pas un neurologue qui scande cette affirmation mais un chercheur du Perimeter Institute for Theorical Physics, au Canada, Christopher Fuchs, spécialiste de mécanique quantique ! La coïncidence est saisissante. Comme leurs confrères des sciences de la cognition, certains physiciens crient à la révolution. Ils pensent avoir trouvé le moyen de remédier à tous les maux de leur discipline en identifiant le même remède : la statistique bayésienne.
Voilà près d'un siècle, à force de s'approcher au plus près de l'essence de la matière, les physiciens ont abouti aux lois de la physique quantique. Et devant leur efficacité, ils ont dû admettre l'inadmissible : la lumière peut prendre à la fois les atours d'une onde et d'une particule ; un électron peut être simultanément à deux endroits ; l'état d'une particule ne peut être décrit que sous la forme de probabilités... Bref, en voulant caractériser exactement le comportement des électrons, des photons et autres particules, la physique a accouché d'un brouillard probabiliste. Et si la majorité des physiciens a pris le parti d'ignorer cette "maladie" fondamentale, certains proposent une solution radicale : considérer que la mécanique quantique ne parle pas de la matière elle-même, mais seulement... de ce que l'on en sait. Selon Christopher Fuchs, mais aussi John Baez de l'université de Californie, ou Carlton Caves de l'université du Nouveau-Mexique, la physique se serait égarée. Elle aurait commencé, sans que personne s'en aperçoive, à décrire rien d'autre que les états d'information - et donc d'ignorance - de l'observateur. Le comportement des particules n'aurait rien d'extravagant, il serait simplement le reflet de notre incapacité à accéder à la totalité des informations (nous disons qu'une particule est ici à 36 % et là-bas à 64 %, simplement parce que nous manquons d'informations sur sa position réelle). Soit du pur bayésianisme !
Et justement, pointant, équation après équation, les ressemblances troublantes entre la mécanique quantique et la statistique bayésienne, Christopher Fuchs est parvenu, pour partie, à démontrer un lien entre les deux théories ! Ainsi, les lois fondamentales de la matière découleraient naturellement de la statistique bayésienne. La petite formule du XVIIIè siècle, via la mécanique quantique, régirait non pas la matière, mais les informations : des sortes de médiateurs entre le matériel et l'abstrait, entre l'objet et l'idée. Tout ce que nous croyons réel ne serait qu'un magma de 0 et de 1 commandés par la statistique de Bayes ! L'idée, qui prend à revers les principes de réalisme et d'objectivité de la physique traditionnelle, donne le vertige. Elle révèle que notre compréhension de la matière qui nous entoure se fonde, in fine, sur du virtuel et du subjectif. La formule magique de Bayes a encore frappé.

Une formule adaptée au troisième millénaire

Voici donc l’interprétation qui est attribuée à cette formule, quand on a compris qu’il était possible de mettre la formule en réseau c'est-à-dire comme l’a fait le mathématicien Judea Pearl (spécialiste en intelligence artificielle, prix Turing en 2011) en montrant qu’en alignant des centaines de formules de Bayes, il devait être possible de rendre compte des multiples causes d’un phénomène complexe. Grâce à l’informatique on a établi, dans de nombreux domaines, des réseaux bayésiens où chaque nœud est relié à un autre via la formule de Bayes. C’est ainsi que l’on construit des modèles de phénomènes complexes, même lorsque les observations sont insuffisantes ou noyées dans le bruit parasite.
L’exploitation de plus en plus importante de ces réseaux bayésiens amène à considérer qu’ils modélisent au plus près la façon dont les savoirs, chez l’être humain, s’actualisent ou plus précisément rendent compte des mouvements incessants de pensée entre les phénomènes observés et la dynamique du savoir emmagasiné.
Remontant inlassablement des événements jusqu'à leurs causes, le réseau de formules de Bayes construit des modèles de phénomènes complexes, même lorsque les observations sont insuffisantes ou noyées dans du bruit parasite. Leur grande force, c'est de faire la synthèse entre le dire des experts et les données brutes de l'observation quand celles-ci sont insuffisantes : la connaissance a priori comble la lacune des mesures. Plus grande est l'ignorance, plus la formule montre de sa puissance...
En faisant appel aux connaissances préalables de l'observateur, détachées des faits eux-mêmes et qui ont un aspect personnel, cette formule donne une image de la réalité extérieure tout en exprimant également la méconnaissance de l'observateur face à cette réalité. De cette petite formule ré-émerge ainsi une idée philosophique depuis longtemps débattue. "Elle nous oblige à penser que les théories et modèles scientifiques reflètent notre représentation de la réalité plutôt que la réalité elle-même. Cette dernière se chargeant de nous fournir des données qui garantissent que notre représentation n'est pas trop éloignée de la vérité", résume Christian Robert, professeur au Centre de recherche en mathématiques de la décision de l’université Paris-Dauphine.
Cette formule, qui est l'expression même de l'humilité scientifique, l'essence d'une science qui se reconnaît comme dépassée par son objet, est faite sur mesure pour le troisième millénaire. Qu'il s'agisse de génétique, de climatologie, d'astrophysique ou de biologie cellulaire... tous les problèmes qui occupent actuellement les chercheurs mettent en jeu des paramètres corrélés, des réseaux de causes entremêlés. Voilà pourquoi le raz de marée bayésien déferle aujourd'hui. Voilà pourquoi la formule de Bayes n'a commencé à envahir la science qu'il y a dix ans. Et voilà pourquoi aujourd'hui, elle dévoile les mécanismes qui régissent la naissance des étoiles ; évalue la hausse des températures pour les décennies à venir ; retrouve les causes génétiques des maladies ; retrace l'évolution des espèces....
Hannibal GENSERIC
(*) Aujourd’hui, ses applications sont extrêmement diverses, comme le mentionne le numéro de la revue Science et vie de Novembre 2012. Au point de se demander pourquoi elle n’est pas ouvertement exploitée par les instituts de sondage. La réponse est peut-être purement économique. Le maintien d’un suspense intense stimule la demande de nouveaux sondages. Avec Bayes, les jeux seraient sans doute faits plus vite. D’où un considérable manque à gagner pour les instituts de sondage.