DGFIP — Data mining et croisement de données – Portfolio

Oubliez les contrôles aléatoires et les dossiers papier qui s’empilent. Aujourd’hui, la Direction Générale des Finances Publiques (DGFiP) ne se contente plus de vérifier vos déclarations : elle les confronte à une montagne de données numériques. Grâce au Data Mining (l’exploration de données) et au croisement à grande échelle, Bercy est entré dans l’ère de la surveillance prédictive. En 2024, plus d’un contrôle sur deux est désormais initié par une intelligence artificielle.

Le « lac de données » :

Pendant des décennies, les informations du fisc étaient compartimentées : le foncier d’un côté, les revenus de l’autre, et les comptes bancaires ailleurs. Ce temps est révolu. Le service CFVR (Ciblage de la Fraude et Valorisation des Requêtes) a mis en place un véritable Data Lake (lac de données).

Ce système ingère des milliards d’informations provenant de sources internes mais aussi externes : fichiers bancaires (FICOBA), transactions immobilières (Perval), et même des données fournies par les administrations étrangères. Le croisement de ces données permet à l’algorithme de dresser un portrait-robot financier ultra-précis de chaque contribuable. Lorsqu’un écart apparaît entre les flux financiers réels et les montants déclarés, l’alerte est donnée.

L’algorithme au service de la justice fiscale

Le cœur du réacteur réside dans l’apprentissage automatique (Machine Learning). Les algorithmes apprennent des fraudes passées pour identifier des comportements suspects avant même qu’un humain ne les remarque. C’est ce qu’on appelle le « scoring ». Chaque dossier reçoit une note de risque de fraude. Plus la note est élevée, plus la probabilité qu’un inspecteur vienne frapper à votre porte est grande.

Cette technologie s’est avérée redoutable pour traquer la fraude à la TVA, les carrousels financiers complexes et les comptes non déclarés à l’étranger. En croisant les données des transferts de fonds internationaux avec les déclarations de revenus, l’administration a pu récupérer des centaines de millions d’euros qui échappaient jusqu’alors à toute détection.

Les nouveaux défis : éthique et précision

Cependant, cette puissance de calcul soulève des questions de fond. Comment garantir que l’algorithme ne soit pas biaisé ? Pour parer aux critiques, la DGFiP insiste sur le principe de « l’humain dans la boucle ». L’IA ne sanctionne pas ; elle suggère. C’est ensuite à l’agent de vérifier la pertinence de l’alerte.

Le défi pour 2026 est désormais d’intégrer des données encore plus complexes, comme le croisement des consommations énergétiques (Linky) pour vérifier l’occupation réelle des résidences secondaires ou la validité des domiciliations fiscales. Une avancée qui place la France parmi les nations les plus en pointe, mais aussi les plus surveillées, en matière fiscale.

Sources et Références :

Rapport annuel de la DGFiP : Exploitation du Data Mining et résultats du ciblage (Édition 2025).
Cour des Comptes : La transformation numérique de l’État : enjeux et limites du datamining fiscal.
CNIL : Avis sur le traitement automatisé de lutte contre la fraude (Dossier CFVR).
Le Portail de l’Économie : Dossier de presse : Plan national de lutte contre la fraude aux finances publiques.