Ressources éducatives
Des corpus, des données et des supports visuels librement utilisables pour l’enseignement de la lecture.
Corpus syllabique
Fonctionnel
Un corpus structuré de 55 leçons (51 leçons + 4 listes de mots-outils) couvrant l’intégralité de la progression syllabique du français : des sons isolés aux graphies complexes (ill, tion, -elle/-ette, etc.).
Chaque leçon est un fichier YAML contenant : le phonème cible, les graphies associées, la transcription IPA, des mots exemples, des phrases et des exercices. Le tout validé par un schéma strict.
Organisation en 5 parties :
- P1 (leçons 01–06) : Sons — lettres et phonèmes isolés
- P2 (leçons 07–27) : Syllabes CV simples et cas ambigus
- P3 (leçons 28–36) : Digrammes vocaliques (ou, on, oi, an, in, ai, eu, au…)
- P4 (leçons 37–44) : Syllabes inversées, groupes consonantiques, lettres muettes
- P5 (leçons 45–51) : Sons complexes (ill, y, ail/eil, ien/ion, tion, x/w…)
Base lexicale Lexique383
Fonctionnel
Extraction et enrichissement de la base Lexique383 (142 000 mots) : conversion SAMPA→IPA, syllabation automatique, analyse des attaques et codas, croisement avec les fréquences Manulex (textes pour enfants).
Données produites : tables de syllabes, couverture TTS (avec et sans schwa pédagogique), syllabes de liaison par resyllabification des codas.
Imagier illustré
En cours
163 images générées par IA (SDXL + LoRA style livre pour enfants), chacune associée à un mot de la progression syllabique. Format 1024×1024, style cohérent. Le pipeline de génération est automatisé : une liste de mots produit un batch d’images en ~18 secondes par image.
L’imagier sert de support visuel au manuel syllabique et aux applications interactives.