Extraction automatique de corpus bilingues breton-français depuis des ouvrages historiques (1865–1944) par Vision Language Models, puis entraînement de modèles de traduction neuronale.
Chaque ouvrage traverse 7 étapes, du PDF scanné jusqu’au corpus d’entraînement.
PDF → PNG à 300 DPI via PyMuPDF
CLAHE, DocRes (CVPR 2024), PreP-OCR
Extraction bilingue par VLM (GPT-5.2, Gemini, Claude)
Contrôle qualité automatique + correction humaine
WER & CER contre des références gold
Déduplication, fusion → JSONL final
Fine-tuning du modèle de traduction
10 ouvrages historiques numérisés, couvrant 80 ans de publications bretonnes. Accéder au corpus ↗
| Ouvrage | Auteur | Année | Type | Pages | |
|---|---|---|---|---|---|
| Manuel Breton-Français | Toullec | 1865 | Lexique | 87 | 📄 |
| Colloque Français et Breton | Le Lourec | 1884 | Lexique | 72 | 📄 |
| Lexique Breton-Français | Normant | 1902 | Lexique | 71 | 📄 |
| Vocabulaire Français-Breton | Le Gonidec | 1919 | Dictionnaire | 313 | 📄 |
| Geriadur Gallek ha Brezonek | Anonyme | 1927 | Lexique | 22 | 📄 |
| Cours élémentaire de Breton | Roparz | 1930 | Méthode | 31 | 📄 |
| Le Français par le Breton | Le Bozec | 1933 | Méthode | 78 | 📄 |
| Yez hon Tadoù | Seite | 1940 | Cours | 96 | 📄 |
| Ker Vreiz — 1er Cours de Breton | Daniel | 1944 | Méthode | 37 | 📄 |
Taux d’erreur (CER / WER) par ouvrage et par langue, mesurés contre des références gold annotées manuellement, avec une évaluation de traduction basée sur sacrebleu et chrF2.
| Ouvrage | Post-OCR — Breton | Post-OCR — Français | Post-correction IA | |||
|---|---|---|---|---|---|---|
| CER | WER | CER | WER | CER | WER | |
| Toullec — Lexique | — | — | — | — | — | — |
| Colloque Lourec | 1,1% | 1,3% | 1,1% | 1,1% | — | — |
| Normant — Lexique | — | — | — | — | — | — |
| Le Gonidec — Vocabulaire | — | — | — | — | — | — |
| Geriadur — Lexique médical | 5,2% | 7,6% | 5,9% | 6,8% | — | — |
| Roparz — Cours élémentaire | — | — | — | — | — | — |
| Bozec — Méthode | 6,6% | 13,3% | 4,8% | 9,6% | — | — |
| Yez hon Tadou | — | — | — | — | — | — |
| Daniel — Ker Vreiz | — | — | — | — | — | — |
Répartition des erreurs entre silences (paires manquantes) et bruit (paires en trop).
| Ouvrage | Post-OCR | Post-correction IA | ||
|---|---|---|---|---|
| Silences | Bruit | Silences | Bruit | |
| Toullec — Lexique | — | — | — | — |
| Colloque Lourec | 92,3% | 7,7% | — | — |
| Normant — Lexique | — | — | — | — |
| Le Gonidec — Vocabulaire | — | — | — | — |
| Geriadur — Lexique médical | 0,5% | 0,0% | — | — |
| Roparz — Cours élémentaire | — | — | — | — |
| Bozec — Méthode | 83,3% | 16,7% | — | — |
| Yez hon Tadou | — | — | — | — |
| Daniel — Ker Vreiz | — | — | — | — |
Le corpus extrait alimente l’entraînement de modèles de traduction neuronale breton > français.
Modèle multilingue de base (418M paramètres) couvrant 100 langues
Architecture "encodeur-décodeur" de type T5
Fine-tuning sur notre corpus pour spécialiser la traduction breton > français.
Pipeline modulaire, CLI unifiée
GPT-5.2, Gemini 3.1, Claude Sonnet 4
DocRes, PreP-OCR
m2m100, tokenizers, Trainer
DocRes — restauration de documents
Gemini Batch — 50% de coûts en moins
Morgane Bona-Pellissier est étudiante en master de traitement automatique des langues à l’Université Paris Nanterre après un doctorat en traductologie (Université de Genève, 2023). Ses recherches portent sur la traduction automatique neuronale et les langues peu dotées et minorisées ; elle parle notamment catalan et étudie le breton.