Outils de développement

Des briques logicielles réutilisables pour le traitement du français écrit et parlé. Toutes sont développées en Python et intégrées dans le projet lectura-main.

Syllabeur

Fonctionnel

Moteur de syllabation du français : découpe un mot en syllabes à partir de sa transcription phonétique, en respectant les règles de la structure syllabique du français (attaque maximale, traitement des groupes consonantiques, schwas).


G2P — Graphème vers Phonème

Fonctionnel

Conversion automatique de l’orthographe française vers la transcription phonétique IPA. Utilise un ensemble de règles contextuelles et la base Lexique383 pour les cas irréguliers.


P2G — Phonème vers Graphème

Fonctionnel

Conversion inverse : à partir d’une syllabe en IPA, retrouver l’orthographe la plus probable. Table de 3 493 syllabes (62 % par consultation Lexique383, 38 % par règles de correspondance). Utilisé par le moteur TTS concaténatif pour synthétiser des syllabes isolées.


Détection des liaisons

Fonctionnel

Identification et traitement des liaisons obligatoires et facultatives en français. Resyllabification des codas consonantiques pour produire une prononciation naturelle des groupes de mots.


POS-tagger

Fonctionnel

Étiquetage morphosyntaxique (Part-of-Speech) du texte français, utilisé en amont pour informer la phonémisation (désambiguïsation des homographes) et la détection des liaisons.


Conversion des nombres

Fonctionnel

Pipeline de conversion entre trois écritures d’un nombre (chiffres, texte français, chiffres romains). Gestion des règles orthographiques du français (trait d’union, accord de « vingt » et « cent », etc.). Moteur utilisé par NumReader.