IA & Causalité — De la corrélation à la causalité

Section 1

Corrélation et causalité : une confusion aux conséquences majeures

Le fondement de toute démarche statistique classique repose sur la corrélation : deux variables qui varient ensemble. Or, comme l'a formalisé Judea Pearl dès ses travaux des années 1980, la corrélation ne permet en aucun cas d'inférer une relation causale.

« La corrélation n'est pas causalité — et les machines d'apprentissage, aussi puissantes soient-elles, restent prisonnières de cette limite tant qu'elles ne disposent pas d'un modèle du monde. »

Judea Pearl — The Book of Why, 2018

L'exemple canonique est celui des ventes de glaces et les noyades : les deux variables sont corrélées positivement, non parce que les glaces causent les noyades, mais parce qu'une troisième variable — la chaleur estivale — explique les deux. C'est ce que Pearl appelle une variable confondante (confounder).

En entreprise, cette confusion génère des erreurs stratégiques répétées :

Un CRM corrèle l'ancienneté client avec le taux de rétention — mais est-ce l'ancienneté qui cause la fidélité, ou les deux sont-ils causés par la qualité du produit ?
Un modèle de scoring corrèle certains comportements digitaux avec la conversion — mais une campagne parallèle pourrait être la vraie cause.
Un système de recommandation corrèle la visualisation d'un contenu avec l'achat — sans distinguer l'effet causal d'un biais de sélection.

Pourquoi c'est critique pour l'IA en entreprise
Un modèle ML entraîné sur des corrélations historiques peut performer parfaitement en conditions stables — et s'effondrer dès que l'environnement change. C'est le problème du biais de distribution (distribution shift). L'inférence causale permet de construire des modèles qui comprennent les mécanismes, pas seulement les patterns.

Section 2

L'Échelle de Causalité : trois niveaux de raisonnement

Dans The Book of Why (2018), Pearl formalise une hiérarchie fondamentale qu'il nomme le Ladder of Causation — l'échelle de causalité. Cette structure en trois niveaux définit ce qu'un agent — humain ou artificiel — peut inférer selon le type de données dont il dispose.

Association — Voir

Question : Que se passe-t-il si j'observe X ?

Détecter des régularités statistiques dans les données observées. C'est le domaine de toute la statistique classique et du machine learning. La question posée est P(Y|X) : quelle est la probabilité de Y sachant qu'on observe X ?

Exemple : "Les clients qui achètent A tendent à acheter aussi B."

Intervention — Faire

Question : Que se passe-t-il si j'agis sur X ?

Prédire l'effet d'une action délibérée sur le système. C'est le domaine du do-calculus de Pearl. La question posée est P(Y|do(X)) — inaccessible à partir des seules données observationnelles.

Exemple : "Si j'envoie cette promotion, quel sera l'effet causal sur l'achat ?" (distinct de : quelle est la corrélation entre promotions et achats ?)

Contrefactuel — Imaginer

Question : Que se serait-il passé si j'avais fait autrement ?

Raisonner sur des mondes hypothétiques. Fondement de la responsabilité, de l'éthique algorithmique et de la causalité individuelle. Propre au raisonnement humain — et à l'IA causale avancée.

Exemple : "Ce client a churné après notre relance. Aurait-il churné si nous n'avions rien fait ?"

Le plafond de verre du Machine Learning
Tout le machine learning classique — deep learning, gradient boosting, réseaux de neurones — opère exclusivement au niveau 1 (association). Il ne peut pas, par construction, répondre à des questions d'intervention ou de contrefactuel sans modèle causal explicite. C'est la limite fondamentale qu'identifie Pearl.

Section 3

Le Do-Calculus : formaliser l'intervention

Le do-calculus est l'outil mathématique central développé par Pearl pour formaliser les raisonnements d'intervention. L'opérateur do(X = x) représente l'action de fixer la valeur d'une variable par intervention — en "coupant" toutes les influences entrantes sur X dans le graphe causal.

La distinction fondamentale

P(Y | X = x) ≠ P(Y | do(X = x))

La probabilité conditionnelle (observer X = x) est fondamentalement différente de la probabilité d'intervention (forcer X = x). Cette distinction est au cœur de toute inférence causale sérieuse.

Dans la probabilité conditionnelle P(Y|X=x), on sélectionne des observations où X vaut x — ce qui peut introduire des biais de sélection massifs. Dans le do-operator P(Y|do(X=x)), on imagine une expérience randomisée où l'on force X à valoir x indépendamment de toute autre cause.

La puissance du do-calculus est de permettre de calculer P(Y|do(X)) à partir de données purement observationnelles, sans mener d'expérience randomisée coûteuse — à condition de connaître la structure causale du problème (le DAG, voir section 4).

Trois règles suffisent

Règle 1 — Insertion/suppression d'observations : permise si Y est d-séparé de Z dans le graphe manipulé.
Règle 2 — Échange action/observation : possible sous certaines conditions de d-séparation après intervention.
Règle 3 — Insertion/suppression d'actions : applicable si Z n'a pas d'effet causal sur Y après intervention sur X.

Application data science
Le do-calculus permet de répondre à : "Quel serait l'effet d'une campagne marketing sur le CA, en contrôlant les biais d'allocation ?" — sans A/B test, si l'on dispose d'un modèle causal validé du domaine. C'est la promesse de l'inférence causale observationnelle.

Section 4

Les Graphes Causaux (DAG) : cartographier les mécanismes

Un Directed Acyclic Graph (DAG, graphe orienté acyclique) est la représentation visuelle et mathématique d'un modèle causal. Chaque nœud représente une variable, chaque arc orienté représente une relation causale directe.

Structures causales fondamentales

Structure	Notation	Rôle	Piège à éviter
Chaîne	X → M → Y	M est un médiateur entre X et Y	Conditionner sur M bloque l'effet de X — erreur fréquente
Fourche (Fork)	X ← C → Y	C est une cause commune (confondant)	Ne pas contrôler C induit une corrélation spurieuse entre X et Y
Collisionneur	X → C ← Y	C est causé par X et Y	Conditionner sur C crée une corrélation artificielle — piège classique
Variable instrumentale	Z → X → Y	Z n'affecte Y qu'à travers X	Permet d'identifier l'effet causal même avec des confondants non observés

La d-séparation

Le critère de d-séparation est l'algorithme clé pour lire les indépendances conditionnelles directement dans un DAG. Deux variables sont d-séparées par un ensemble Z si tous les chemins entre elles sont "bloqués" selon les règles des structures ci-dessus. C'est le fondement théorique de toute analyse de biais dans les modèles de données.

« Un graphe causal n'est pas une description des données. C'est une description du monde — de la façon dont les choses fonctionnent, indépendamment de ce que nous observons. »

Judea Pearl — Causality, 2000

Section 5

Raisonnement contrefactuel et causalité individuelle

Le raisonnement contrefactuel (counterfactual reasoning) représente le niveau 3 de l'échelle de Pearl. Il pose la question fondamentale : "Qu'aurait-il pu se passer autrement ?" — et constitue la base mathématique de la responsabilité causale, de l'attribution et de l'équité algorithmique.

Formalisation dans les SCM

Y_x(u) = y

Dans l'unité u (individu, client, observation), la valeur que Y aurait prise si X avait été fixé à x par intervention. C'est le contrefactuel de Pearl — formalisé dans le cadre des Structural Causal Models (SCM).

Applications concrètes

Attribution marketing : Ce client a converti après 3 publicités. Aurait-il converti sans la dernière ? La réponse contrefactuelle dépasse tous les modèles d'attribution classiques (last-click, linéaire, data-driven).
Équité algorithmique : Ce candidat a été rejeté. Aurait-il été accepté avec un genre différent, toutes choses égales par ailleurs ? Le raisonnement contrefactuel est au cœur des tests de discrimination algorithmique.
Churn et effet de traitement : Ce client a churné après notre intervention. Aurait-il churné sans elle ? L'Individual Treatment Effect (ITE) ne peut être calculé que via des modèles contrefactuels.

Lien avec l'IA explicable (XAI)
Les explications contrefactuelles sont aujourd'hui considérées comme la forme la plus naturelle d'explicabilité : "Votre prêt a été refusé. Il aurait été accepté si votre revenu avait été supérieur de 15%." Cette approche (Wachter et al., 2017) s'inscrit directement dans le cadre causal de Pearl et est désormais au cœur des exigences de l'AI Act européen.

Section 6

IA Causale vs IA classique : le fossé conceptuel

Pearl a formulé une critique structurée du paradigme dominant du machine learning. Si sa formule "Deep learning is just curve fitting" est provocatrice, elle pointe un problème réel et documenté.

Dimension	ML Classique	IA Causale
Données requises	Observations	Observations + structure causale
Question centrale	P(Y\|X) — Corrélation	P(Y\|do(X)) — Intervention
Niveau de l'échelle	Niveau 1 seulement	Niveaux 1, 2 et 3
Robustesse	Fragile hors distribution	Robuste si modèle valide
Interprétabilité	Corrélations statistiques	Mécanismes compréhensibles
Type de décision	Prédictive	Prescriptive et explicative

La convergence des Prix Turing

Des chercheurs comme Bernhard Schölkopf (MPI) et Yoshua Bengio (Prix Turing 2018) convergent avec Pearl : les prochaines avancées de l'IA passeront par l'intégration du raisonnement causal dans les architectures d'apprentissage. Bengio appelle ce passage l'évolution du System 1 (réflexe, associatif) vers le System 2 (délibéré, causal).

« Les LLM n'ont aucun modèle du monde. Ils ont un modèle du texte sur le monde. La différence est fondamentale pour toute décision d'entreprise. »

Judea Pearl — NeurIPS, 2022

Section 7

Applications de l'inférence causale en entreprise

L'inférence causale répond à des questions concrètes que les modèles prédictifs classiques ne peuvent pas traiter correctement — particulièrement dans les contextes où les décisions ont des effets et où la responsabilité est engagée.

Évaluation d'impact des actions commerciales

Question clé : "Notre campagne email a-t-elle causé les ventes, ou les clients auraient-ils acheté de toute façon ?" Les méthodes causales permettent d'estimer l'effet incrémental réel d'une action en séparant l'effet causal du biais de sélection.

Diagnostic des données CRM dégradées

Un CRM avec des données incomplètes génère des biais de sélection massifs. Avant de modéliser, il faut comprendre pourquoi les données sont incomplètes : MCAR (Missing Completely At Random), MAR (Missing At Random) ou MNAR (Missing Not At Random). Cette distinction — directement issue du cadre causal — détermine si une imputation est valide ou biaisée. C'est l'un des fondements de la méthode ROIA de Dataroia.

Scoring commercial actionnable (Uplift Modeling)

Un modèle classique prédit P(achat|features). Un modèle causal prédit P(achat|do(contacter)). La différence est fondamentale : cibler les clients susceptibles d'acheter est différent de cibler ceux dont l'achat serait causé par notre action. Ce sont les "persuadables" — et ils sont rarement les mêmes.

Attribution multi-touch causale

Les modèles d'attribution classiques (last-click, linéaire) sont des modèles d'association. L'attribution causale estime l'effet causal réel de chaque point de contact en contrôlant les confondants — profil client, timing, pression concurrentielle.

Dataroia & l'IA Causale
La méthode ROIA intègre les principes de l'inférence causale à chaque niveau de diagnostic : identification des variables confondantes dans le CRM, détection des biais de sélection dans les données de performance, construction de modèles d'impact qui distinguent corrélation et causalité. L'enjeu n'est pas de prédire — c'est de comprendre pourquoi, pour décider quoi faire.

Références bibliographiques

Pearl, J. (2000, 2009). Causality: Models, Reasoning and Inference. Cambridge University Press.
Pearl, J., Glymour, M., Jewell, N.P. (2016). Causal Inference in Statistics: A Primer. Wiley.
Pearl, J., Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
Peters, J., Janzing, D., Schölkopf, B. (2017). Elements of Causal Inference. MIT Press. (Open Access)
Hernán, M.A., Robins, J.M. (2020). Causal Inference: What If. Chapman & Hall/CRC.
Wachter, S., Mittelstadt, B., Russell, C. (2017). Counterfactual Explanations Without Opening the Black Box. Harvard Journal of Law & Technology, 31(2).
Schölkopf, B. et al. (2021). Toward Causal Representation Learning. Proceedings of the IEEE, 109(5).
Bengio, Y. (2019). From System 1 Deep Learning to System 2 Deep Learning. NeurIPS Keynote.
Imbens, G.W., Rubin, D.B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
Spirtes, P., Glymour, C., Scheines, R. (2000). Causation, Prediction and Search. MIT Press.