Breton-French OCR Pipeline — Des vieux livres au traducteur IA

Le Pipeline

Chaque ouvrage traverse 7 étapes, du PDF scanné jusqu’au corpus d’entraînement.

📄

Extract

PDF → PNG à 300 DPI via PyMuPDF

→

✨

Enhance

CLAHE, DocRes (CVPR 2024), PreP-OCR

→

👁️

OCR

Extraction bilingue par VLM (GPT-5.2, Gemini, Claude)

→

🔍

Review

Contrôle qualité automatique + correction humaine

→

📊

Evaluate

WER & CER contre des références gold

→

📦

Corpus

Déduplication, fusion → JSONL final

→

🤖

m2m100

Fine-tuning du modèle de traduction

Le Corpus

10 ouvrages historiques numérisés, couvrant 80 ans de publications bretonnes. Accéder au corpus ↗

0 paires bilingues

0 ouvrages

0 pages traitées

1865–1944 période couverte

Ouvrage	Auteur	Année	Type	Pages	PDF
Manuel Breton-Français	Toullec	1865	Lexique	87	📄
Colloque Français et Breton	Le Lourec	1884	Lexique	72	📄
Lexique Breton-Français	Normant	1902	Lexique	71	📄
Vocabulaire Français-Breton	Le Gonidec	1919	Dictionnaire	313	📄
Geriadur Gallek ha Brezonek	Anonyme	1927	Lexique	22	📄
Cours élémentaire de Breton	Roparz	1930	Méthode	31	📄
Le Français par le Breton	Le Bozec	1933	Méthode	78	📄
Yez hon Tadoù	Seite	1940	Cours	96	📄
Ker Vreiz — 1er Cours de Breton	Daniel	1944	Méthode	37	📄

corpus/bozec_methode_1933.jsonl

📊 Métriques d’évaluation de la performance en cours

Taux d’erreur (CER / WER) par ouvrage et par langue, mesurés contre des références gold annotées manuellement, avec une évaluation de traduction basée sur sacrebleu et chrF2.

Ouvrage	Post-OCR — Breton		Post-OCR — Français		Post-correction IA
Ouvrage	CER	WER	CER	WER	CER	WER
Toullec — Lexique	—	—	—	—	—	—
Colloque Lourec	1,1%	1,3%	1,1%	1,1%	—	—
Normant — Lexique	—	—	—	—	—	—
Le Gonidec — Vocabulaire	—	—	—	—	—	—
Geriadur — Lexique médical	5,2%	7,6%	5,9%	6,8%	—	—
Roparz — Cours élémentaire	—	—	—	—	—	—
Bozec — Méthode	6,6%	13,3%	4,8%	9,6%	—	—
Yez hon Tadou	—	—	—	—	—	—
Daniel — Ker Vreiz	—	—	—	—	—	—

Typologie des erreurs

Répartition des erreurs entre silences (paires manquantes) et bruit (paires en trop).

Ouvrage	Post-OCR		Post-correction IA
Ouvrage	Silences	Bruit	Silences	Bruit
Toullec — Lexique	—	—	—	—
Colloque Lourec	92,3%	7,7%	—	—
Normant — Lexique	—	—	—	—
Le Gonidec — Vocabulaire	—	—	—	—
Geriadur — Lexique médical	0,5%	0,0%	—	—
Roparz — Cours élémentaire	—	—	—	—
Bozec — Méthode	83,3%	16,7%	—	—
Yez hon Tadou	—	—	—	—
Daniel — Ker Vreiz	—	—	—	—

Entraînement m2m100

Le corpus extrait alimente l’entraînement de modèles de traduction neuronale breton > français.

🌍 m2m100 (Meta)

Modèle multilingue de base (418M paramètres) couvrant 100 langues

⚙️ madlad400 (QLoRa)

Architecture "encodeur-décodeur" de type T5

📈 Objectif

Fine-tuning sur notre corpus pour spécialiser la traduction breton > français.

Stack technique

🐍

Python 3.11

Pipeline modulaire, CLI unifiée

👁️

Vision LMs

GPT-5.2, Gemini 3.1, Claude Sonnet 4

🔥

PyTorch

DocRes, PreP-OCR

🤗

Hugging Face

m2m100, tokenizers, Trainer

📐

CVPR 2024

DocRes — restauration de documents

⚡

Batch API

Gemini Batch — 50% de coûts en moins

À propos

Morgane Bona-Pellissier est étudiante en master de traitement automatique des langues à l’Université Paris Nanterre après un doctorat en traductologie (Université de Genève, 2023). Ses recherches portent sur la traduction automatique neuronale et les langues peu dotées et minorisées ; elle parle notamment catalan et étudie le breton.

LinkedIn ↗ Site personnel