G2P — Grapheme vers Phoneme

Lectura G2P

Modele unifie G2P + POS + Morphologie + Liaison pour le francais

Presentation

Un seul modele BiLSTM char-level multi-tete (1.75M parametres, ONNX INT8 = 1.8 Mo) qui predit simultanement 4 taches a partir du texte francais :

Tache Description Performance (par mot)
G2P Transcription phonemique IPA 98.5% accuracy
POS Etiquetage morpho-syntaxique (19 tags) 98.2% accuracy
Morphologie Genre, nombre, temps, mode, personne 95-99% accuracy
Liaison Liaisons obligatoires/facultatives F1 90.6%

Performances mesurees sur un corpus de test de phrases francaises completes (mots en contexte).

Quatre backends d’inference : API (zero config), ONNX Runtime (~2 ms/phrase), NumPy (~50 ms), ou pur Python (~200 ms, zero dependance).

G2P vs eSpeak-NG

Le modele Lectura G2P se distingue d’eSpeak-NG par sa prise en compte du contexte phrastique : il predit la prononciation, la categorie grammaticale, la morphologie et les liaisons en une seule passe. eSpeak-NG phonemise chaque mot isolement, sans desambiguisation contextuelle (homographes, liaisons).


Tester en ligne

Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.

Cliquez sur le bouton pour lancer la demo.

Exemple de code

from lectura_nlp import creer_engine

engine = creer_engine()   # mode API par defaut (zero config)

result = engine.analyser(["Les", "enfants", "sont", "arrivés", "à", "la", "maison"])

print(result["g2p"])      # ['le', 'ɑ̃fɑ̃', 'sɔ̃', 'aʁive', 'a', 'la', 'mɛzɔ̃']
print(result["pos"])      # ['ART:def', 'NOM', 'AUX', 'VER:pper', 'PRE', 'ART:def', 'NOM']
print(result["liaison"])  # ['Lz', 'none', 'Lt', 'none', 'none', 'none', 'none']

Architecture du modele

Phrase → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
                                        |
                    +-------------------+-------------------+
                    v                                       v
              G2P Head (per-char)              Word BiLSTM (128h → 256d)
              Linear(320→40)                        |
                                    +---+---+---+---+---+---+---+
                                   POS Num Gen VF  Mood Tns Per Liaison

Installation

pip install lectura-g2p             # mode API (zero config, zero dependance)
pip install lectura-g2p[onnx]       # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-g2p[numpy]      # backend NumPy local

Caracteristiques techniques

  • 1.75M parametres, modele ONNX INT8 = 1.8 Mo
  • 4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
  • Factory creer_engine() : detection automatique du meilleur backend
  • Python 3.10+ avec type hints complets (PEP-561)
  • Double licence : AGPL-3.0 (libre) / Licence commerciale