Graphemiseur (P2G)
Lectura Graphemiseur
Modele unifie P2G + POS + Morphologie pour le francais (IPA → orthographe)
Presentation
Le pendant inverse du G2P : a partir d’une transcription phonetique IPA, le P2G reconstruit l’orthographe francaise. Un seul modele BiLSTM char-level multi-tete avec word feedback (2.56M parametres, ONNX INT8 = 2.6 Mo).
| Tache | Description | Performance |
|---|---|---|
| P2G | IPA vers orthographe | 93.1% word accuracy, 2.2% CER |
| POS | Etiquetage morpho-syntaxique (19 tags) | 97.0% accuracy |
| Morphologie | Genre, nombre, temps, mode, personne | 92-97% |
Quatre backends d’inference : API (zero config), ONNX Runtime, NumPy, ou pur Python (zero dependance).
Tester en ligne
Le test en ligne utilise l’API Lectura — aucun telechargement de modele necessaire.
Cliquez sur le bouton pour lancer la demo.
Exemple de code
from lectura_graphemiseur import creer_engine
engine = creer_engine() # mode API par defaut (zero config)
result = engine.analyser(["le", "ɑ̃fɑ̃", "sɔ̃", "aʁive", "a", "la", "mɛzɔ̃"])
print(result["ortho"]) # ['les', 'enfants', 'sont', 'arrives', 'a', 'la', 'maison']
print(result["pos"]) # ['ART:def', 'NOM', 'AUX', 'VER', 'PRE', 'ART:def', 'NOM']
Architecture du modele (v3)
Le P2G utilise un mecanisme de word feedback : les representations de mots issues des tetes POS/Morpho sont diffusees aux positions caractere correspondantes avant la prediction P2G finale.
Phrase IPA → Char Embedding (64d) → Shared BiLSTM (2x160h → 320d)
|
+-----------------------+--------------------+
v v
Word representations Word repr (320d) + Lex Features (24d)
(fwd[last] || bwd[first]) |
Word BiLSTM (192h → 384d)
|
+--------------+--------------+
POS Morpho (x6) Word Feedback
→ P2G Head (704d → 1198)
Features lexicales (optionnel) : si un fichier lexique_pos_candidates.json est present dans le dossier modeles, le modele recoit un vecteur de 24 dimensions par mot (candidats POS du lexique). Cela ameliore la prediction POS et la morphologie, ce qui ameliore aussi la reconstruction orthographique via le word feedback. Sans lexique, le modele fonctionne normalement. Ce fichier est inclus avec les modeles (licence commerciale).
Installation
pip install lectura-graphemiseur # mode API (zero config, zero dependance)
pip install lectura-graphemiseur[onnx] # backend ONNX Runtime local (~2 ms/phrase)
pip install lectura-graphemiseur[numpy] # backend NumPy local
Par defaut, le module utilise l’API Lectura (aucune configuration necessaire). Les backends locaux (ONNX, NumPy) necessitent les modeles pre-entraines, disponibles sous licence commerciale.
Caracteristiques techniques
- 2.56M parametres, modele ONNX INT8 = 2.6 Mo
- 4 backends : API (zero config), ONNX Runtime (~2 ms), NumPy (~50 ms), pur Python (~200 ms)
- Word feedback : les informations POS/morpho enrichissent la prediction P2G
- Factory
creer_engine(): detection automatique du meilleur backend - Features lexicales (optionnel) : candidats POS pour ameliorer POS/morpho (inclus avec les modeles)
- Python 3.10+ avec type hints complets (PEP-561)
- Licence : AGPL-3.0 (non commerciale) — licence commerciale sur demande : contact@lec-tu-ra.com