P2G — Phoneme vers Grapheme

Lectura P2G

Modele unifie P2G + POS + Morphologie pour le francais (IPA → orthographe)

Presentation

Le pendant inverse du G2P : a partir d’une transcription phonetique IPA, le P2G reconstruit l’orthographe francaise. Un seul modele BiLSTM char-level multi-tete avec word feedback (2.56M parametres, ONNX INT8 = 2.6 Mo).

Tache Description Performance
P2G IPA vers orthographe 93.1% word accuracy, 2.2% CER
POS Etiquetage morpho-syntaxique (19 tags) 97.0% accuracy
Morphologie Genre, nombre, temps, mode, personne 92-97%

Quatre backends d’inference : API (zero config), ONNX Runtime, NumPy, ou pur Python (zero dependance).


Tester en ligne

Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.

i (i) e (é) ɛ (ai) a (a) ɑ (a) ɔ (o) o (ô) u (ou) y (u) ø (oeu) œ (eu) ə (e) ɑ̃ (an) ɛ̃ (in) ɔ̃ (on) œ̃ (un) j (y) w (w) ɥ (u) p b t d k ɡ (gu) f v s z ʃ (ch) ʒ (j) m n ɲ (gn) ŋ (ng) l ʁ (r)
Cliquez sur le bouton pour lancer la demo.

Exemple de code

from lectura_p2g import creer_engine

engine = creer_engine()   # mode API par defaut (zero config)

result = engine.analyser(["le", "ɑ̃fɑ̃", "sɔ̃", "aʁive", "a", "la", "mɛzɔ̃"])

print(result["ortho"])   # ['les', 'enfants', 'sont', 'arrives', 'a', 'la', 'maison']
print(result["pos"])     # ['ART:def', 'NOM', 'AUX', 'VER', 'PRE', 'ART:def', 'NOM']

Architecture du modele (v2)

Le P2G utilise un mecanisme de word feedback : les representations de mots issues des tetes POS/Morpho sont diffusees aux positions caractere correspondantes avant la prediction P2G finale.

Phrase IPA → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
                                          |
                  +-----------------------+--------------------+
                  v                                             v
        Word representations                     Word BiLSTM (192h → 384d)
        (fwd[last] || bwd[first])                          |
                                            +--------------+--------------+
                                           POS        Morpho (x6)    Word Feedback
                                                                    → P2G Head (704d → 1198)

Installation

pip install lectura-p2g             # mode API (zero config, zero dependance)
pip install lectura-p2g[onnx]       # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-p2g[numpy]      # backend NumPy local

Caracteristiques techniques

  • 2.56M parametres, modele ONNX INT8 = 2.6 Mo
  • 4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
  • Word feedback : les informations POS/morpho enrichissent la prediction P2G
  • Factory creer_engine() : detection automatique du meilleur backend
  • Python 3.10+ avec type hints complets (PEP-561)
  • Double licence : AGPL-3.0 (libre) / Licence commerciale