Document Classifier

Pipeline de classification à sept étapes avec stratégies pour ERP et DATEV

Le Document Classifier est le moteur de classification central d'ELONIQ. Il analyse les documents entrants, détecte leur type, extrait les métadonnées et — via des stratégies pluggables — propose des pièces comptables concrètes. Sept étapes pipeline (OCR, Regex, LLM, SmartDB, Apprentissage, Heuristique, E-Facture) fonctionnent en cascade et peuvent être activées ou ignorées individuellement.

Aperçu

Le Document Classifier traite les documents entrants via un pipeline multi-étapes. Chaque étape peut être configurée, activée ou désactivée individuellement — et produit des résultats avec une confiance que les étapes suivantes réutilisent.

Étapes du pipeline

OCR — reconnaissance de texte. Première étape, toujours obligatoire. Tesseract (local) ou Azure (cloud).
Regex — extraction déterministe de champs via motifs PCRE. Rapide et bon marché, idéal pour les champs structurés.
LLM — classification et extraction basées sur IA. Coûteux mais flexible pour le texte libre.
SmartDB — lookup de données de référence. Valide les champs extraits contre la base ERP et les enrichit (tenant, fournisseur, client).
Apprentissage — collecte les corrections manuelles et les propose comme règle d'apprentissage.
Heuristique — fallbacks basés sur règles pour les champs sans motif clair.
E-Facture — traitement spécifique pour documents ZUGFeRD/XRechnung (les données XML structurées remplacent les résultats OCR).

Système de stratégies

L'étape SmartDB délègue la logique de lookup à une stratégie. Trois stratégies sont disponibles :

default — lookup table simple sans logique comptable. Pour des jointures SQL personnalisées via les tables SmartDB.
erp — stratégie ERP générique. Trois tables logiques (Client/Vendor/Customer), single- ou multi-tenant. Fonctionne avec tout ERP dont le schéma peut s'y mapper.
datev — intégration DATEV avec logique tenant. Nécessite que l'intégration DATEV soit active.

Les stratégies peuvent être équipées d'un rendu dédié pour la page de test via l'interface StrategyWithUI (voir le rendu DATEV comme référence).

Triggers

La classification peut être lancée de deux manières : via watchfolders (scan du système de fichiers) ou via nœuds de workflow dans ELO. Les deux types de triggers peuvent fonctionner en parallèle.

Fonctionnalités

Pipeline à sept étapes — OCR · Regex · LLM · SmartDB · Apprentissage · Heuristique · Facture électronique. Chaque étape a sa propre page de configuration et son code couleur.
OCR multi-moteurs — Tesseract (local, gratuit), Azure Document Intelligence, Azure F1.
Étape Regex — extraction déterministe de champs via motifs PCRE, bien plus rapide et économique que LLM.
Classification LLM — OpenAI, Azure OpenAI, Ollama (local), Anthropic. Classification et extraction basées sur prompt.
Lookup SmartDB — connecter des bases arbitraires, faire correspondre les données de référence (exact, fuzzy, contains).
Système de stratégies — stratégies de classification pluggables : default (lookup standard), erp (stratégie ERP générique intégrée pour Client/Vendor/Customer), datev (intégration DATEV avec logique tenant).
Single- et multi-tenant — la stratégie ERP supporte à la fois les PME (un tenant) et les cabinets fiscaux (n tenants).
Système d'apprentissage — collecte les corrections manuelles et les réapplique automatiquement sur des documents similaires.
Triggers Watchfolder + Workflow — classification via scan du système de fichiers ou nœud de workflow ELO.
Page de test avec résultat modal — uploader n'importe quel fichier, exécuter toutes les étapes en direct, afficher le résultat de la stratégie dans un modal Bootstrap dédié.
Mode confidentialité — pipeline entièrement local sans appels cloud pour documents sensibles.
Page de diagnostic — N classifications récentes avec trace par étape, confiances, extrait OCR et réponse LLM.
Seuils de confiance par étape — globalement et par étape, finement réglables.

Utilisation

1. Planifier l'ordre du pipeline

Quelles étapes sont pertinentes pour mes documents ? Les factures structurées n'ont généralement besoin que d'OCR + Regex + SmartDB. Le texte libre (contrats, mails) nécessite LLM. Les factures ZUGFeRD bénéficient de l'étape E-Facture.

2. Connaître vos masques et entités

Sous Données → Masques, consulter les masques ELO ciblés par la classification. Sous Données → Entités, définir des regroupements logiques quand plusieurs masques représentent le même type de document.

3. Configurer l'OCR

Tesseract pour local/économique, Azure pour un taux de reconnaissance supérieur. Utiliser la page de test pour exécuter des documents individuels et vérifier le résultat OCR.

4. Écrire les motifs regex

Stocker des motifs PCRE pour les champs déterministes (numéro de facture, date, montant). Valider via la page de test et ajuster la confiance.

5. Connecter un fournisseur LLM (optionnel)

N'activer que si Regex et SmartDB ne suffisent pas. Activer stoponfirstsuccessful pour que le LLM soit ignoré en cas de correspondances Regex confiantes — économise le coût.

6. Choisir une stratégie SmartDB

Pour l'intégration de données de référence ERP : activer la stratégie ERP, mapper les tables Client/Vendor/Customer, valider via 'Tester la connexion'. Pour les cabinets DATEV, utiliser l'intégration DATEV à la place.

7. Configurer les triggers

Watchfolders pour les sources basées sur fichiers (scanner, importer de mail), triggers workflow pour les processus internes ELO.

8. Exécuter la page de test

Avant la mise en production, exécuter un jeu fixe de documents (5–10 documents typiques) via la page de test. Vérifier le modal du résultat de stratégie et ajuster les seuils de confiance.

9. Diagnostic en exploitation

Vérifier la page de diagnostic quotidiennement le premier mois, puis hebdomadairement. Avec le système d'apprentissage activé, les corrections d'opérateur alimentent automatiquement les profils d'apprentissage.

Bonnes pratiques

Penser l'ordre des étapes

L'OCR est toujours obligatoire — sans texte, aucune autre étape ne peut fonctionner. Ensuite, cet ordre s'est révélé robuste : Regex en premier pour les champs déterministes (numéro de facture, date, montants), LLM uniquement si Regex ne suffit pas (descriptions libres, classification souple), SmartDB tout à la fin comme validation contre les données de référence. Le LLM est l'étape la plus coûteuse, donc activez Stop on first successful — dès que Regex atteint une confiance élevée, le LLM est ignoré.

Calibrer les seuils de confiance

Deux seuils globaux sous Basis pilotent le pipeline :

maskconfidencethreshold (défaut 0.65) : en dessous, le masque détecté est signalé comme incertain. Rester conservateur — un masque mal identifié produit des champs erronés.
fieldconfidencethreshold (défaut 0.5) : en dessous, une valeur de champ extraite est rejetée. Baisser en cas de faux positifs, monter en cas de valeurs perdues.

Ajuster par paliers de 0.05 et valider via la page de test sur un jeu de documents fixe.

Mode confidentialité pour les documents sensibles

Activer privacysensitive pour les tenants avec des données particulièrement sensibles (RH, santé, NDA). L'OCR cloud et le LLM cloud sont alors totalement ignorés — seuls les fournisseurs locaux s'exécutent. La performance baisse, la conformité gagne.

Watchfolder vs. trigger de workflow

Les watchfolders conviennent aux scénarios 'push' (importer de mail, scanners, dépôts FTP). Les triggers de workflow conviennent aux processus internes à ELO (workflow de boîte de réception, validation). Les deux peuvent fonctionner en parallèle sans conflit — le logger d'ID de job empêche le double traitement.

Activer le système d'apprentissage dès le premier jour

Le système d'apprentissage ne porte ses fruits qu'après quelques semaines, car il collecte les corrections manuelles des opérateurs. Plus tôt il fonctionne, meilleures sont les propositions — même si les premières semaines montrent peu d'effet visible.

Les lookups SmartDB nécessitent une stratégie ERP ou DATEV

La SmartDB par défaut recherche des données de référence sans logique comptable. Pour des propositions de pièces comptables réelles, il faut une stratégie — soit la stratégie ERP intégrée (générique, trois tables Client/Vendor/Customer), soit l'intégration DATEV pour les cabinets DATEV. Sans stratégie, SmartDB ne renvoie que des champs isolés sans contexte tenant.

Utiliser le diagnostic, ne pas l'ignorer

La page de diagnostic liste les dernières classifications avec la trace par étape et les confiances par champ. Même quand 'tout fonctionne', regarder régulièrement — une dérive silencieuse des valeurs de confiance (p. ex. après un changement de modèle LLM) y devient immédiatement visible.

Exemples

Facture entrante — Regex + stratégie ERP

Une facture entrante est importée via watchfolder.

L'OCR lit le texte PDF.
Regex extrait InvoiceNo, Date, Montant et TVA-ID avec une confiance élevée.
Le masque FactureEntrante est détecté de manière fiable (confiance 0.92).
SmartDB avec stratégie ERP recherche le fournisseur dans la base ERP via TVA-ID et IBAN.
Tenant et fournisseur sont écrits dans le résultat (KREDITOR_GUID, KREDITOR_NAME, MANDANT_NR …).
Le trigger de workflow lance le processus de boîte de réception ELO avec tous les champs préremplis.

Contrat — classification LLM

Un contrat PDF depuis la boîte de réception.

L'OCR fournit le texte intégral.
Regex ne trouve aucun motif correspondant (les formats de contrats sont individuels).
Le LLM classifie en tant que Contrat et extrait les parties, durée, préavis.
SmartDB valide la contrepartie contre les données de référence.
Le système d'apprentissage enregistre la confirmation manuelle de l'opérateur — au prochain contrat similaire, la proposition est acceptée automatiquement.

Cabinet DATEV multi-tenant

Un cabinet fiscal DATEV traite des documents pour 50+ tenants dans une base partagée.

Le document arrive via l'importer de mail.
La stratégie DATEV identifie le tenant à partir des champs du document (adresse destinataire, TVA-ID).
Ensuite, le fournisseur est cherché sous ce tenant (scopé tenant).
Compte de comptabilisation et code TVA sont repris des données de référence.

PME single-tenant

Une PME a exactement un tenant.

Stratégie ERP configurée en mode single-tenant.
Le tenant est statique (MANDANT_NR 1000, MANDANT_NAME 'Acme GmbH').
Pour chaque document, le tenant statique est défini ; les lookups fournisseur/client ignorent la colonne tenant.