Des vieux livres
au traducteur IA

Extraction automatique de corpus bilingues breton-français depuis des ouvrages historiques (1865–1944) par Vision Language Models, puis entraînement de modèles de traduction neuronale.

Illustration : d’un vieux livre vers des données numériques

Le Pipeline

Chaque ouvrage traverse 7 étapes, du PDF scanné jusqu’au corpus d’entraînement.

📄

Extract

PDF → PNG à 300 DPI via PyMuPDF

Enhance

CLAHE, DocRes (CVPR 2024), PreP-OCR

👁️

OCR

Extraction bilingue par VLM (GPT-5.2, Gemini, Claude)

🔍

Review

Contrôle qualité automatique + correction humaine

📊

Evaluate

WER & CER contre des références gold

📦

Corpus

Déduplication, fusion → JSONL final

🤖

m2m100

Fine-tuning du modèle de traduction

Le Corpus

10 ouvrages historiques numérisés, couvrant 80 ans de publications bretonnes. Accéder au corpus ↗

0 paires bilingues
0 ouvrages
0 pages traitées
1865–1944 période couverte
Ouvrage Auteur Année Type Pages PDF
Manuel Breton-FrançaisToullec1865Lexique87📄
Colloque Français et BretonLe Lourec1884Lexique72📄
Lexique Breton-FrançaisNormant1902Lexique71📄
Vocabulaire Français-BretonLe Gonidec1919Dictionnaire313📄
Geriadur Gallek ha BrezonekAnonyme1927Lexique22📄
Cours élémentaire de BretonRoparz1930Méthode31📄
Le Français par le BretonLe Bozec1933Méthode78📄
Yez hon TadoùSeite1940Cours96📄
Ker Vreiz — 1er Cours de BretonDaniel1944Méthode37📄
corpus/bozec_methode_1933.jsonl

📊 Métriques d’évaluation de la performance en cours

Taux d’erreur (CER / WER) par ouvrage et par langue, mesurés contre des références gold annotées manuellement.

Ouvrage Post-OCR — Breton Post-OCR — Français Post-correction IA
CER WER CER WER CER WER
Toullec — Lexique
Colloque Lourec1,1%1,3%1,1%1,1%
Normant — Lexique
Le Gonidec — Vocabulaire
Geriadur — Lexique médical5,2%7,6%5,9%6,8%
Roparz — Cours élémentaire
Bozec — Méthode6,6%13,3%4,8%9,6%
Yez hon Tadou
Daniel — Ker Vreiz

Typologie des erreurs

Répartition des erreurs entre silences (paires manquantes) et bruit (paires en trop).

Ouvrage Post-OCR Post-correction IA
Silences Bruit Silences Bruit
Toullec — Lexique
Colloque Lourec92,3%7,7%
Normant — Lexique
Le Gonidec — Vocabulaire
Geriadur — Lexique médical0,5%0,0%
Roparz — Cours élémentaire
Bozec — Méthode83,3%16,7%
Yez hon Tadou
Daniel — Ker Vreiz

Entraînement m2m100

Le corpus extrait alimente l’entraînement de modèles de traduction neuronale Breton↔Français.

🌍 m2m100 (Meta)

Modèle multilingue de base (418M paramètres) couvrant 100 langues. Fine-tuning sur notre corpus pour spécialiser la paire breton-français.

⚙️ m2m100_br_fr

Variante déjà pré-entraînée pour le breton par Loïc Grobol. Entraînement complémentaire avec nos données historiques.

📈 Objectif

Obtenir un traducteur performant pour le breton, capable de gérer les variations orthographiques historiques et le vocabulaire spécialisé.

Stack technique

🐍

Python 3.11

Pipeline modulaire, CLI unifiée

👁️

Vision LMs

GPT-5.2, Gemini 3.1, Claude Sonnet 4

🔥

PyTorch

DocRes, PreP-OCR

🤗

Hugging Face

m2m100, tokenizers, Trainer

📐

CVPR 2024

DocRes — restauration de documents

Batch API

Gemini Batch — 50% de coûts en moins

À propos

Morgane Bona-Pellissier est étudiante en master de traitement automatique des langues à l’Université Paris Nanterre après un doctorat en traductologie (Université de Genève, 2023). Ses recherches portent sur la traduction automatique neuronale et les langues peu dotées et minorisées ; elle parle notamment catalan et étudie le breton.