Tokeniseur
Lectura Tokeniseur
Normalisateur et tokeniseur complet pour le francais
Presentation
Module autonome, zero dependance externe. Normalise le texte francais (typographie, espaces, Unicode) et le decoupe en tokens structures : mots, ponctuation et formules detectees automatiquement.
Le Tokeniseur identifie et classifie plus de 15 types de formules :
- Nombres (entiers, decimaux, negatifs)
- Dates, heures, telephones
- Sigles et acronymes
- Ordinaux, fractions, pourcentages
- Monnaies, unites de mesure
- Expressions mathematiques
- Chiffres romains
Exemple
from lectura_tokeniseur import tokenise, Formule
tokens = tokenise("Le 25/12/2024, il a lu 42 pages.")
for token in tokens:
detail = token.formule_type.name if isinstance(token, Formule) else ""
print(f"{token.text:25s} {token.type.name:12s} {detail}")
Le MOT
25/12/2024 FORMULE DATE
, PONCTUATION
il MOT
a MOT
lu MOT
42 FORMULE NOMBRE
pages MOT
. PONCTUATION
Essayer en ligne
Cliquez sur « Essayer » pour lancer la demo.
Fonctionnalites
| Fonction | Description |
|---|---|
| Normalisation | Typographie francaise, espaces, nettoyage Unicode |
| Tokenisation | Decoupage en mots, ponctuation, separateurs |
| Detection de formules | 15+ types : nombres, dates, heures, sigles, monnaies… |
| API simple | tokenise(texte) renvoie une liste de tokens |
Caracteristiques techniques
- Zero dependance Python
- Python 3.10+ avec type hints complets (PEP-561)
- Double licence : AGPL-3.0 (libre) / Licence commerciale