Pourquoi la déduplication est plus difficile qu'elle n'en a l'air
Le doublon parfait n'existe presque pas dans un CRM B2B. Quand deux fiches désignent la même personne, elles sont presque toujours différentes en surface : orthographe variante, casse différente, prénom abrégé, accent oublié, email professionnel changé après un changement de poste, téléphone mobile vs téléphone fixe.
C'est précisément cette divergence qui rend les doublons silencieux dangereux : ils ne sautent pas aux yeux, mais ils gonflent vos campagnes, brouillent vos rapports et font remonter deux opportunités là où il n'y a qu'un seul prospect.
Méthode 1 — Le match exact (à éviter en B2B)
Le match exact compare chaîne par chaîne : deux fiches sont considérées comme doublons si elles partagent strictement la même valeur sur un ou plusieurs champs clés (email, nom complet, téléphone).
Avantages
- Implémentation triviale : une requête SQL
GROUP BY email HAVING count(*)>1suffit. - Zéro faux positif : si ça matche exactement, c'est sûr.
- Coût compute négligeable.
Limites
- Rate plus de 80 % des doublons réels en B2B : une majuscule différente, un espace en trop, et le match exact passe à côté.
- Ne détecte rien sur les noms (les graphies varient toujours).
- Trompe sur les emails personnels vs pro pour la même personne.
Cas typique manqué : Jean Dupont — jean.dupont@orange.fr et J. DUPONT — j.dupont@orange.fr sont la même personne. Le match exact dit « non doublons ». Vous envoyez 2 emails, vous comptez 2 leads, vous mesurez 2 conversions à chiffre divisé par deux.
Méthode 2 — Le fuzzy matching (mieux, mais piégeux)
Le fuzzy matching utilise des algorithmes de distance entre chaînes : distance de Levenshtein, Jaro-Winkler, Soundex, Metaphone. Deux chaînes sont considérées proches si leur distance est en dessous d'un seuil paramétrable.
Avantages
- Détecte les variantes orthographiques (Dupont vs Dupond, Müller vs Muller).
- Détecte les fautes de frappe (Diphteros → Diphteros).
- Outils open source nombreux (rapidfuzz, dedupe.io, OpenRefine).
Limites
- Faux positifs sur les patronymes courts : « Lee » et « Lei » sont très proches mais ne désignent pas la même personne.
- Faux positifs sur les prénoms composés : « Marie-Claire » vs « Marie » — homonymie ou abréviation ? Sans contexte, impossible de trancher.
- Calibrage difficile : seuil trop strict = on rate les doublons; seuil trop laxiste = explosion des faux positifs.
Méthode 3 — La ressemblance contextuelle (B2B-grade)
La ressemblance contextuelle combine le fuzzy matching avec des signaux croisés : ressemblance phonétique sur le nom + même entreprise (SIREN) + même code postal + même secteur d'activité = même contact très probable. Ressemblance nom seule = pas suffisant.
Avantages
- Taux de faux positifs <0,5 % : les signaux croisés filtrent les homonymes nationaux.
- Détecte les doublons sur fiches partiellement renseignées : si l'email est absent mais que le SIREN + le nom + le téléphone matchent à 70 %, c'est suffisant pour la fusion.
- Gère les changements de poste : le contact change d'email pro, l'algo le re-rattache via SIREN/téléphone.
Limites
- Plus coûteux en compute : croisement multi-champs sur de gros volumes nécessite une infrastructure dédiée.
- Calibrage spécifique B2B : les seuils marketing/B2C diffèrent.
- Difficile à implémenter en interne sans expertise data.
Tableau comparatif
| Méthode | Taux détection | Faux positifs | Effort impl. |
|---|---|---|---|
| Match exact | ~20 % | 0 % | Trivial |
| Fuzzy matching | 60-75 % | 3-8 % | Moyen |
| Ressemblance contextuelle | 90-95 % | <0,5 % | Élevé (ou externalisé) |
Comment choisir ?
Le choix dépend du volume de la base et du coût d'un faux positif :
- Base <500 contacts, B2B simple : match exact suffit si vous nettoyez manuellement le résiduel.
- Base 500-5 000 contacts, B2C ou B2B avec emails personnels : fuzzy matching avec seuil prudent + revue humaine.
- Base >5 000 contacts, B2B avec enjeux commerciaux significatifs : ressemblance contextuelle, externalisée ou outillée. Le coût d'un faux positif (fusion de deux personnes différentes en une seule fiche) devient ingérable au-delà de cette taille.
Le nettoyage de base CRM Dataroia applique la méthode 3 par défaut, avec scoring de confiance par doublon détecté. Chaque fusion est révisable en cas de désaccord humain, et le log de décision est traçable pour audit.
dans votre CRM ?
Liste avec score de confiance, jamais de fusion automatique sans revue.