G2P — Grapheme vers Phoneme
Lectura G2P
Modele unifie G2P + POS + Morphologie + Liaison pour le francais
Presentation
Un seul modele BiLSTM char-level multi-tete (1.75M parametres, ONNX INT8 = 1.8 Mo) qui predit simultanement 4 taches a partir du texte francais :
| Tache | Description | Performance (par mot) |
|---|---|---|
| G2P | Transcription phonemique IPA | 98.5% accuracy |
| POS | Etiquetage morpho-syntaxique (19 tags) | 98.2% accuracy |
| Morphologie | Genre, nombre, temps, mode, personne | 95-99% accuracy |
| Liaison | Liaisons obligatoires/facultatives | F1 90.6% |
Performances mesurees sur un corpus de test de phrases francaises completes (mots en contexte).
Quatre backends d’inference : API (zero config), ONNX Runtime (~2 ms/phrase), NumPy (~50 ms), ou pur Python (~200 ms, zero dependance).
G2P vs eSpeak-NG
Le modele Lectura G2P se distingue d’eSpeak-NG par sa prise en compte du contexte phrastique : il predit la prononciation, la categorie grammaticale, la morphologie et les liaisons en une seule passe. eSpeak-NG phonemise chaque mot isolement, sans desambiguisation contextuelle (homographes, liaisons).
Tester en ligne
Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.
Cliquez sur le bouton pour lancer la demo.
Exemple de code
from lectura_nlp import creer_engine
engine = creer_engine() # mode API par defaut (zero config)
result = engine.analyser(["Les", "enfants", "sont", "arrivés", "à", "la", "maison"])
print(result["g2p"]) # ['le', 'ɑ̃fɑ̃', 'sɔ̃', 'aʁive', 'a', 'la', 'mɛzɔ̃']
print(result["pos"]) # ['ART:def', 'NOM', 'AUX', 'VER:pper', 'PRE', 'ART:def', 'NOM']
print(result["liaison"]) # ['Lz', 'none', 'Lt', 'none', 'none', 'none', 'none']
Architecture du modele
Phrase → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
|
+-------------------+-------------------+
v v
G2P Head (per-char) Word BiLSTM (128h → 256d)
Linear(320→40) |
+---+---+---+---+---+---+---+
POS Num Gen VF Mood Tns Per Liaison
Installation
pip install lectura-g2p # mode API (zero config, zero dependance)
pip install lectura-g2p[onnx] # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-g2p[numpy] # backend NumPy local
Caracteristiques techniques
- 1.75M parametres, modele ONNX INT8 = 1.8 Mo
- 4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
- Factory
creer_engine(): detection automatique du meilleur backend - Python 3.10+ avec type hints complets (PEP-561)
- Double licence : AGPL-3.0 (libre) / Licence commerciale