Alors que la science a toujours prôné une vision
objective du monde, le théorème de Bayes réintègre une dimension
subjective : il ne nous parle pas du monde, mais de ce que nous en savons.
D’ailleurs c’est exactement ce qu’ont postulé les fondateurs de la mécanique
quantique, en l’occurrence : Bohr et Heisenberg.
En statistiques, on sait calculer la probabilité qu’une
cause ait tel ou tel effet.
Thomas Bayes (1702 - 1761), mathématicien britannique et
pasteur de l'Église presbytérienne, s’est attaqué au problème inverse, celui du
raisonnement par induction: connaissant les effets, quelles en sont les
causes probables? Un peu comme Sherlock Holmes, qui observant des
gouttes d’eau sur la veste de quelqu’un, en conclut qu’il vient probablement de
rentrer d’une averse.
Le théorème de Bayes est le suivant :
Si on désigne par A un évènement et par B un autre évènement,
ce théorème se traduit par l’égalité suivante : P(A|B)=[P(B|A)
x P(A)]/P(B)
- Le terme P(A) est la probabilité a priori de A.
Elle est « antérieure » au sens qu’elle précède toute information sur
B. P(A) est aussi
appelée la probabilité marginale
de A.
- Le terme P(A|B) est appelée la probabilité
a posteriori de A
sachant B (ou encore de A sous condition de B). Elle est
« postérieure », au sens qu’elle dépend directement de B.
- Le terme P(B|A), est la probabilité de B sachant A.
- Le terme P(B) est appelé la probabilité marginale ou a priori de B.
Ainsi confrontant deux évènements l’un à l’autre, la
formule quantifie la probabilité pour l’un d’induire l’autre, remontant ainsi
des conséquences vers les causes pour comprendre les phénomènes de la nature.
Au cours des siècles qui suivent,
l’intérêt pour cette équation de l’apprentissage statistique semble tomber en
sommeil dans le monde académique, malgré un grand nombre d’applications
remarquables en ingénierie et en recherche opérationnelle. Sait-on que la
plaidoirie de Poincaré
pour témoigner de l’innocence de Dreyfus reposait sur
la formule de Bayes ? Que celle-ci fut la clé qui permit à Alan Turing de
percer le chiffrement des messages cryptés de la machine Enigma employée par l’Allemagne nazie dans ses communications militaires ? Que le Bureau d’Enquêtes et d’Analyses pour la sécurité
de l’aviation civile s’est appuyé sur la formule de Bayes pour orienter les recherches
de l’épave de l’Airbus AF447 du vol Rio-Paris abîmé en mer le premier
juin 2009 ? Chaque jour, dans les PC et les Mac du monde entier,
elle permet de débusquer les messages publicitaires (spams) parmi les flots
d’e-mails reçus ; on la retrouve aussi à la racine de programmes
informatiques qui traquent les fraudes bancaires.
S’appliquant à n’importe quel phénomène, elle produit des résultats, livre
des découvertes, établit des vérités. Elle reste pourtant largement méconnue du
grand public. Dans le cercle des mathématiciens, elle a donné lieu à des débats
violents au point de marginaliser, pendant une bonne partie du 20ème
siècle, les bayésiens.
Exemple1. Réchauffement de la terre
Considérons l’hypothèse
H : « le réchauffement moyen de notre planète dépassera les deux
degrés d’ici 2070 ». Supposons que sans autre information la probabilité
de cette hypothèse est évaluée à 40%. P(H) = 0,4.
Que si cette hypothèse est
vérifiée, l’évènement O « la fonte de la calotte glaciaire » a
une probabilité de 60% de se réaliser. P(OǀH) = 0,6.
Que la probabilité de l’évènement
O est estimée à 30% en l’absence d’information externe. P(O) = 0,3
La petite formule de Tom Bayes
permet d’évaluer la pertinence de ce qu’on croit savoir (H) à l’aune de
l’information apportée par une observation (O). P(H|O) = P(H)*P(O|H) / P(O)
P(H|O) = 0,4 * 0,6 / 0,3 = 0,8.
Ce résultat veut dire que, si l’on constate que la calotte glaciaire a fondu, alors il y a 80% de chances que le réchauffement moyen de notre planète dépasse les deux degrés
d’ici 2070.
Exemple-2. D’où provient l’ivoire
de contrebande ?
Sur
le site www.mpt2013.fr, Gilles Guillot, de l’Université technique du
Danemark, décrit une application originale: les statistiques bayésiennes sont
utilisées pour identifier l’origine des ivoires d’Afrique saisis par la douane
aux aéroports. L’ADN prélevé sur les ivoires est comparé à celui d’éléphants
dont l’origine géographique est bien identifiée; la formule de Bayes utilise
ces informations pour calculer la probabilité que l’échantillon provienne d’une
certaine latitude et longitude, et identifier ainsi son origine probable.
A l’échelle du continent africain, la moitié des échantillons peuvent ainsi
être localisés avec une erreur inférieure à 500 km.
Exemple-3. Les élections américaines
Six jours avant les élections présidentielles américaines
du 6 novembre 2012, les sondages donnaient les deux candidats à égalité. Le
jour même de l’élection, ils enregistraient un écart de 0,7% en faveur de Barak
Obama sur Mitt Romney. Dans le monde entier, le suspense est alors à son
comble. On craint une élection très serrée, comme en 2004 entre Georges W Bush
et John Kerry ou sur le fil du rasoir, comme en 2000 entre Georges W. Bush et
Al Gore. Pourtant, ce même jour, un statisticien américain, Nate
Silver, 34 ans, donne Barak Obama vainqueur à 92%…Sur son
blog, FiveThirtyEight, il se paye même le luxe d’enregistrer
100% de bonnes prédictions concernant les résultats État par État, Floride
comprise alors que le décompte final n’a été connu que le 10 novembre,
plusieurs jours après les prédictions de ce blogueur : Nate Silver, lui,
donnait 50,3% de chance de victoire à Barak Obama. Ce dernier l’a finalement
emporté avec 50% des voix contre 49,1% à Mitt Romney. Dans tous les États, le blogueur a vu juste. Quant au nombre de
votes électoraux obtenus par chaque candidat, il avait prédit 313 pour Barak
Obama et 225 pour Mitt Romney pour un résultat réel de 332 contre 206. Nate Silver a utilisé la démarche logique basée sur
le théorème de Bayes.(*).
Exemple-4 : La justice française se trompe
Éric Zemmour ,
écrivaillon crypto sioniste et journaliste politique français, est connu du
public pour ses positions xénophobes à l'égard des immigrés arabes ou noirs, oubliant qu'il est lui-même d'origine immigrée.
Il a été condamné par un tribunal français
pour avoir déclaré : "la plupart des trafiquants
sont noirs et arabes". Cependant, le tribunal qui l’a condamné pour ce
« propos raciste » s’est trompé. Car constater, que,
statistiquement , "la plupart des trafiquants sont noirs et
arabes" est différent de dire que "la plupart des Noirs et des
Arabes sont des trafiquants", ce qui serait raciste et donc
condamnable.
En appliquant le théorème de Bayes, Jean-Michel Claverie démontre que le premier énoncé n'implique absolument pas le second : il
démontre que la proportion (techniquement la "probabilité
conditionnelle") des émigrés parmi les délinquants peut largement dépasser
50 % (propos de Zemmour) sans que la proportion des délinquants parmi les
immigrés (le propos raciste) soit beaucoup plus élevée qu'elle ne l'est parmi
la population « gauloise ». Et si l'on introduit, en plus, le
fait avéré que le taux de délinquance est plus fort parmi les tranches de
population à bas revenus, là où se situe la majorité des immigrés, on peut
même trouver des situations où les immigrés sont simplement
plus vertueux que les franchouillards !
La formule (de Bayes) qui aurait dû relaxer immédiatement
Zemmour, est :
P(trafiquants|émigrés) = P(immigrés|trafiquants) x P(trafiquants) /
P(émigrés)
A = B x C / D
Nous allons nous baser sur les statistiques officielles
françaises. Le dernier volume publié (2008) par la statistique judiciaire, dans
la série « Les condamnations », donne 2 187 personnes condamnées pour
trafic (import, export) de drogues, dont 37 % d'étrangers. Parmi ces étrangers
condamnés, 167 sont des ressortissants d'un des trois pays du Maghreb mais
surtout 137 sont Marocains (soit 20,5 % des étrangers et 7,6 % de l'ensemble
des condamnés), ce qui n'a rien de surprenant puisque le Maroc est le principal
producteur de Cannabis alimentant le marché français. En 2008, la France compte
64 millions d’habitants. Donc la probabilité de trouver un trafiquant de drogue
dans cette population est de 2187/64000000, soit 0,0034%. Donc C=0,0034%.
-
En 2008, les
immigrés représentaient 8,4% de la population. Parmi ces immigrés, 43% sont
noirs ou Maghrébins. Donc D=8,4% x 43% = 3,6%.
-
B=37%.
Ce qui donne A = 0,035%, c'est-à-dire que, sur 20.000
immigrés noirs et arabes, il y aurait en moyenne 7 trafiquants, les 19.993
autres ne le sont pas.
En prenant l’affirmation de Zemmour au pied de la lettre
« Plus de la moitié des trafiquants sont noirs ou arabes », et bien
qu’elle soit fausse d’après les statistiques officielles ci-dessus, on aurait
avec B = 60%, en moyenne 10 trafiquants pour 20.000 immigrés, ou bien 1
sur 2.000 !! Pas de
quoi justifier de renvoyer chez eux les 1.999
autres qui ne font rien de répréhensible. Une autre chose que montre ce calcul,
c'est l'influence terriblement négative que peut avoir une
infime fraction de délinquants sur la perception de la minorité dont ils sont
issus.
Exemple-5 : La
physique quantique remise sur de bons rails
"La formule de Bayes est la loi qui régit toute connaissance, toute
information". Ce n'est pas un neurologue qui scande cette affirmation mais
un chercheur du Perimeter Institute for Theorical Physics, au Canada, Christopher
Fuchs, spécialiste de mécanique quantique ! La coïncidence est saisissante.
Comme leurs confrères des sciences de la cognition, certains physiciens crient
à la révolution. Ils pensent avoir trouvé le moyen de remédier à tous les maux
de leur discipline en identifiant le même remède : la statistique bayésienne.
Voilà près d'un siècle, à force de s'approcher au plus près de l'essence de
la matière, les physiciens ont abouti aux lois de la physique quantique. Et
devant leur efficacité, ils ont dû admettre l'inadmissible : la lumière peut prendre
à la fois les atours d'une onde et d'une particule ; un électron peut être
simultanément à deux endroits ; l'état d'une particule ne peut être décrit que
sous la forme de probabilités... Bref, en voulant caractériser exactement le
comportement des électrons, des photons et autres particules, la physique a
accouché d'un brouillard probabiliste. Et si la majorité des physiciens a pris
le parti d'ignorer cette "maladie" fondamentale, certains proposent
une solution radicale : considérer que la mécanique quantique ne parle pas de
la matière elle-même, mais seulement... de ce que l'on en sait. Selon
Christopher Fuchs, mais aussi John Baez de l'université de Californie, ou
Carlton Caves de l'université du Nouveau-Mexique, la physique se serait égarée.
Elle aurait commencé, sans que personne s'en aperçoive, à décrire rien d'autre
que les états d'information - et donc d'ignorance - de l'observateur. Le
comportement des particules n'aurait rien d'extravagant, il serait simplement
le reflet de notre incapacité à accéder à la totalité des informations (nous
disons qu'une particule est ici à 36 % et là-bas à 64 %, simplement parce que
nous manquons d'informations sur sa position réelle). Soit du pur bayésianisme
!
Et justement, pointant, équation après équation, les ressemblances
troublantes entre la mécanique quantique et la statistique bayésienne,
Christopher Fuchs est parvenu, pour partie, à démontrer un lien entre les deux
théories ! Ainsi, les lois fondamentales de la matière découleraient
naturellement de la statistique bayésienne. La petite formule du XVIIIè
siècle, via la mécanique quantique, régirait non pas la matière, mais les
informations : des sortes de médiateurs entre le matériel et l'abstrait, entre
l'objet et l'idée. Tout ce que nous croyons réel ne serait qu'un magma de 0 et
de 1 commandés par la statistique de Bayes ! L'idée, qui prend à revers les
principes de réalisme et d'objectivité de la physique traditionnelle, donne le
vertige. Elle révèle que notre compréhension de la matière qui nous entoure se
fonde, in fine, sur du virtuel et du subjectif. La formule magique de
Bayes a encore frappé.
Une formule adaptée au troisième millénaire
Voici donc l’interprétation qui est attribuée à cette
formule, quand on a compris qu’il était possible de mettre la formule en réseau
c'est-à-dire comme l’a fait le mathématicien Judea Pearl (spécialiste en intelligence artificielle, prix Turing en 2011) en
montrant qu’en alignant des centaines de formules de Bayes, il devait être
possible de rendre compte des multiples causes d’un phénomène complexe. Grâce à
l’informatique on a établi, dans de nombreux domaines, des réseaux bayésiens où
chaque nœud est relié à un autre via la formule de Bayes. C’est ainsi que l’on
construit des modèles de phénomènes
complexes, même lorsque les observations sont insuffisantes ou noyées
dans le bruit parasite.
L’exploitation de plus en plus importante
de ces réseaux bayésiens amène à considérer qu’ils modélisent au plus près la
façon dont les savoirs, chez l’être humain, s’actualisent ou plus précisément
rendent compte des mouvements incessants de pensée entre les phénomènes
observés et la dynamique du savoir emmagasiné.
Remontant inlassablement des événements jusqu'à
leurs causes, le réseau de formules de Bayes construit des modèles de
phénomènes complexes, même lorsque les observations sont insuffisantes ou
noyées dans du bruit parasite. Leur grande force, c'est de faire la synthèse
entre le dire des experts et les données brutes de l'observation quand celles-ci
sont insuffisantes : la connaissance a priori comble la lacune des
mesures. Plus grande est l'ignorance, plus la formule montre de sa puissance...
En faisant appel aux connaissances préalables de
l'observateur, détachées des faits eux-mêmes et qui ont un aspect personnel, cette formule donne une image de la réalité
extérieure tout en exprimant également la méconnaissance de l'observateur face
à cette réalité. De cette petite formule ré-émerge ainsi une idée philosophique
depuis longtemps débattue. "Elle nous oblige à penser que les
théories et modèles scientifiques reflètent notre représentation de la réalité
plutôt que la réalité elle-même. Cette dernière se chargeant de nous fournir
des données qui garantissent que notre représentation n'est pas trop éloignée
de la vérité", résume Christian Robert, professeur au Centre de
recherche en mathématiques de la décision de l’université Paris-Dauphine.
Cette formule, qui est l'expression même de
l'humilité scientifique, l'essence d'une science qui se reconnaît comme
dépassée par son objet, est faite sur mesure pour le troisième millénaire.
Qu'il s'agisse de génétique, de climatologie, d'astrophysique ou de biologie
cellulaire... tous les problèmes qui occupent actuellement les chercheurs
mettent en jeu des paramètres corrélés, des réseaux de causes entremêlés. Voilà
pourquoi le raz de marée bayésien déferle aujourd'hui. Voilà pourquoi la
formule de Bayes n'a commencé à envahir la science qu'il y a dix ans. Et voilà
pourquoi aujourd'hui, elle dévoile les mécanismes qui régissent la naissance
des étoiles ; évalue la hausse des températures pour les décennies à venir ;
retrouve les causes génétiques des maladies ; retrace l'évolution des
espèces....
Hannibal GENSERIC
(*) Aujourd’hui, ses applications sont extrêmement
diverses, comme le mentionne le numéro de la revue Science et vie de Novembre
2012. Au point de se demander pourquoi elle n’est pas ouvertement exploitée par
les instituts de sondage. La réponse est peut-être purement économique. Le
maintien d’un suspense intense stimule la demande de nouveaux sondages. Avec
Bayes, les jeux seraient sans doute faits plus vite. D’où un considérable
manque à gagner pour les instituts de sondage.