Graphemiseur (P2G)

Lectura Graphemiseur

Modele unifie P2G + POS + Morphologie pour le francais (IPA → orthographe)

PyPI GitHub pip install lectura-graphemiseur

Presentation

Le pendant inverse du G2P : a partir d’une transcription phonetique IPA, le P2G reconstruit l’orthographe francaise. Un seul modele BiLSTM char-level multi-tete avec word feedback (2.56M parametres, ONNX INT8 = 2.6 Mo).

Tache	Description	Performance
P2G	IPA vers orthographe	93.1% word accuracy, 2.2% CER
POS	Etiquetage morpho-syntaxique (19 tags)	97.0% accuracy
Morphologie	Genre, nombre, temps, mode, personne	92-97%

Quatre backends d’inference : API (zero config), ONNX Runtime, NumPy, ou pur Python (zero dependance).

Tester en ligne

Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.

i (i) e (é) ɛ (ai) a (a) ɑ (a) ɔ (o) o (ô) u (ou) y (u) ø (oeu) œ (eu) ə (e) ɑ̃ (an) ɛ̃ (in) ɔ̃ (on) œ̃ (un) j (y) w (w) ɥ (u) p b t d k ɡ (gu) f v s z ʃ (ch) ʒ (j) m n ɲ (gn) ŋ (ng) l ʁ (r)

Cliquez sur le bouton pour lancer la demo.

Exemple de code

from lectura_graphemiseur import creer_engine

engine = creer_engine()   # mode API par defaut (zero config)

result = engine.analyser(["le", "ɑ̃fɑ̃", "sɔ̃", "aʁive", "a", "la", "mɛzɔ̃"])

print(result["ortho"])   # ['les', 'enfants', 'sont', 'arrives', 'a', 'la', 'maison']
print(result["pos"])     # ['ART:def', 'NOM', 'AUX', 'VER', 'PRE', 'ART:def', 'NOM']

Architecture du modele (v3)

Le P2G utilise un mecanisme de word feedback : les representations de mots issues des tetes POS/Morpho sont diffusees aux positions caractere correspondantes avant la prediction P2G finale.

Phrase IPA → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
                                          |
                  +-----------------------+--------------------+
                  v                                             v
        Word representations              Word repr (320d) + Lex Features (24d)
        (fwd[last] || bwd[first])                          |
                                                 Word BiLSTM (192h → 384d)
                                                       |
                                            +--------------+--------------+
                                           POS        Morpho (x6)    Word Feedback
                                                                    → P2G Head (704d → 1198)

Features lexicales (optionnel) : si un fichier lexique_pos_candidates.json est present dans le dossier modeles, le modele recoit un vecteur de 24 dimensions par mot (candidats POS du lexique). Cela ameliore la prediction POS et la morphologie, ce qui ameliore aussi la reconstruction orthographique via le word feedback. Sans lexique, le modele fonctionne normalement. Ce fichier est inclus avec les modeles (licence commerciale).

Installation

pip install lectura-graphemiseur             # mode API (zero config, zero dependance)
pip install lectura-graphemiseur[onnx]       # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-graphemiseur[numpy]      # backend NumPy local

Par defaut, le module utilise l’API Lectura (aucune configuration necessaire). Les backends locaux (ONNX, NumPy) necessitent les modeles pre-entraines, disponibles sous licence commerciale.

Caracteristiques techniques

2.56M parametres, modele ONNX INT8 = 2.6 Mo
4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
Word feedback : les informations POS/morpho enrichissent la prediction P2G
Factory creer_engine() : detection automatique du meilleur backend
Features lexicales (optionnel) : candidats POS pour ameliorer POS/morpho (inclus avec les modeles)
Python 3.10+ avec type hints complets (PEP-561)
Licence : AGPL-3.0 (non commerciale) — licence commerciale sur demande : contact@lec-tu-ra.com