IA & Tech

RAG souverain : pourquoi nos embeddings tournent en local

Le RAG (Retrieval Augmented Generation) est partout. Mais quand vos donnees sont sensibles, l'embedding local devient un imperatif. Notre architecture technique.

SX
Stephane X.
Fondateur
5 mai 2026 10 min de lecture

Donner ses donnees a OpenAI pour faire du RAG ? Non. Pour les asset managers et les foncieres, la souverainete n'est pas une option. Voici comment nous avons construit un RAG 100% local sur Ollama + pgvector, avec des resultats comparables aux APIs SaaS.

Le probleme avec les APIs RAG SaaS

OpenAI Embeddings, Pinecone, Cohere... la stack RAG par defaut envoie vos documents a des serveurs hors UE. Pour un asset manager, c'est un non-categorique : les fiches immeubles, les baux, les conditions commerciales sont du secret d'affaires.

Les clauses contractuelles types et les promesses de zero-retention ne suffisent pas. Le RGPD, l'ISO 27001, la souverainete des donnees francaises imposent que ces informations ne sortent pas de l'infrastructure cliente.

Notre architecture

Embedding : Ollama + bge-m3

bge-m3 est un modele d'embedding multilingue 1024d open source, excellent en francais. Tourne localement via Ollama sur n'importe quel serveur Linux avec ou sans GPU. Vos donnees ne quittent jamais votre infrastructure.

Index : pgvector

Extension PostgreSQL pour vecteurs. Index HNSW cosinus. Recherche < 200ms sur 50 000 entites. Pas besoin de gerer un service vectoriel separe (Pinecone, Weaviate, Qdrant).

Reranking et filtres

Extraction ville/code postal de la requete + post-filtre strict. Top_k=500 quand filtre actif pour ne pas perdre de pertinence.

Synthese : Claude Haiku ou modele local

Pour la synthese (etape generation du RAG), nous proposons deux options : Claude Haiku 4.5 d'Anthropic (cloud, mais ZDR active et donnees non utilisees pour entrainement), ou un modele local comme Qwen2.5:3b sur Ollama (latence ~6s sur CPU, zero fuite).

Resultats mesures

Sur une base de 408 entites indexees, sur la requete 'immeuble haussmannien Paris' : les 2 vrais haussmanniens sortent en top 2 avec un score de similarite > 0.85. Equivalent ou superieur a OpenAI text-embedding-3-large sur le meme corpus.

Le cout marginal

Embeddings : 0 EUR (Ollama local). Synthese via Claude Haiku : ~0.0015 USD par appel. Pour 1000 requetes/mois, cela represente 1.5 USD. C'est marginal.

"On a transforme 18 consultants en 18 super-experts. Le RAG sur notre base, c'est comme avoir un senior qui connait les 8000 immeubles, et qui est disponible 24/7. Et tout reste chez nous."

Julien T. - Managing Partner, AssetMind
Tags : #ia #rag #ollama #souverainete
SX
Stephane X.
Fondateur chez Logimmo
En savoir plus sur l'equipe →

Pret a voir Logimmo en action ?

30 minutes en visio avec un expert metier, sans engagement.