← Tous les projets
OD

ODERIS

mission menée chez IOD Solutions

IA

Classification IA de slides à l’échelle pour la due diligence

LLMRGPDArchitectureÉchelle

250 000+

slides (≈ 1 500 missions)

RGPD

embeddings calculés en local

cost-aware

arbitre LLM sur les cas ambigus

Problème

Capitaliser les rapports de Vendor Due Diligence en classant automatiquement les slides dans une taxonomie métier, à l’échelle de plus de 250 000 slides (environ 1 500 missions).

Contrainte

RGPD strict : le client refuse tout transfert de données hors UE. Coût des appels LLM à maîtriser sur une volumétrie massive.

Approche

  • Pipeline cost-aware en cascade : regex → embeddings → arbitre LLM appelé uniquement sur les cas ambigus.
  • Embeddings BGE-M3 exécutés en local et anonymisation systématique (spaCy + GLiNER) avant tout appel au LLM de vision (Mistral Pixtral, UE).
  • Architecture hexagonale ; parallélisation par pool borné avec retry/backoff.

Résultat

  • Classification automatique des slides dans la taxonomie métier, l’arbitre LLM n’étant sollicité que sur les cas ambigus pour garder le coût sous contrôle.
  • Conformité RGPD de bout en bout : embeddings calculés en local et anonymisation avant tout appel au LLM, aucune donnée client ne quitte l’UE.

Stack

Mistral PixtralBGE-M3 (local)PostgreSQLpgvectorArchi hexagonaleSigNoz

Projet suivant

IGAM · Détection NLP non supervisée de sujets récurrents