P2G — Phoneme vers Grapheme
Lectura P2G
Modele unifie P2G + POS + Morphologie pour le francais (IPA → orthographe)
Presentation
Le pendant inverse du G2P : a partir d’une transcription phonetique IPA, le P2G reconstruit l’orthographe francaise. Un seul modele BiLSTM char-level multi-tete avec word feedback (2.56M parametres, ONNX INT8 = 2.6 Mo).
| Tache | Description | Performance |
|---|---|---|
| P2G | IPA vers orthographe | 93.1% word accuracy, 2.2% CER |
| POS | Etiquetage morpho-syntaxique (19 tags) | 97.0% accuracy |
| Morphologie | Genre, nombre, temps, mode, personne | 92-97% |
Quatre backends d’inference : API (zero config), ONNX Runtime, NumPy, ou pur Python (zero dependance).
Tester en ligne
Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.
i (i)
e (é)
ɛ (ai)
a (a)
ɑ (a)
ɔ (o)
o (ô)
u (ou)
y (u)
ø (oeu)
œ (eu)
ə (e)
ɑ̃ (an)
ɛ̃ (in)
ɔ̃ (on)
œ̃ (un)
j (y)
w (w)
ɥ (u)
p
b
t
d
k
ɡ (gu)
f
v
s
z
ʃ (ch)
ʒ (j)
m
n
ɲ (gn)
ŋ (ng)
l
ʁ (r)
Cliquez sur le bouton pour lancer la demo.
Exemple de code
from lectura_p2g import creer_engine
engine = creer_engine() # mode API par defaut (zero config)
result = engine.analyser(["le", "ɑ̃fɑ̃", "sɔ̃", "aʁive", "a", "la", "mɛzɔ̃"])
print(result["ortho"]) # ['les', 'enfants', 'sont', 'arrives', 'a', 'la', 'maison']
print(result["pos"]) # ['ART:def', 'NOM', 'AUX', 'VER', 'PRE', 'ART:def', 'NOM']
Architecture du modele (v2)
Le P2G utilise un mecanisme de word feedback : les representations de mots issues des tetes POS/Morpho sont diffusees aux positions caractere correspondantes avant la prediction P2G finale.
Phrase IPA → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
|
+-----------------------+--------------------+
v v
Word representations Word BiLSTM (192h → 384d)
(fwd[last] || bwd[first]) |
+--------------+--------------+
POS Morpho (x6) Word Feedback
→ P2G Head (704d → 1198)
Installation
pip install lectura-p2g # mode API (zero config, zero dependance)
pip install lectura-p2g[onnx] # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-p2g[numpy] # backend NumPy local
Caracteristiques techniques
- 2.56M parametres, modele ONNX INT8 = 2.6 Mo
- 4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
- Word feedback : les informations POS/morpho enrichissent la prediction P2G
- Factory
creer_engine(): detection automatique du meilleur backend - Python 3.10+ avec type hints complets (PEP-561)
- Double licence : AGPL-3.0 (libre) / Licence commerciale