Tokeniseur

Lectura Tokeniseur

Normalisateur et tokeniseur complet pour le francais

Presentation

Module autonome, zero dependance externe. Normalise le texte francais (typographie, espaces, Unicode) et le decoupe en tokens structures : mots, ponctuation et formules detectees automatiquement.

Le Tokeniseur identifie et classifie plus de 15 types de formules :

  • Nombres (entiers, decimaux, negatifs)
  • Dates, heures, telephones
  • Sigles et acronymes
  • Ordinaux, fractions, pourcentages
  • Monnaies, unites de mesure
  • Expressions mathematiques
  • Chiffres romains

Exemple

from lectura_tokeniseur import tokenise, Formule

tokens = tokenise("Le 25/12/2024, il a lu 42 pages.")

for token in tokens:
    detail = token.formule_type.name if isinstance(token, Formule) else ""
    print(f"{token.text:25s}  {token.type.name:12s}  {detail}")
Le                         MOT
25/12/2024                 FORMULE       DATE
,                          PONCTUATION
il                         MOT
a                          MOT
lu                         MOT
42                         FORMULE       NOMBRE
pages                      MOT
.                          PONCTUATION

Essayer en ligne

Cliquez sur « Essayer » pour lancer la demo.

Fonctionnalites

Fonction Description
Normalisation Typographie francaise, espaces, nettoyage Unicode
Tokenisation Decoupage en mots, ponctuation, separateurs
Detection de formules 15+ types : nombres, dates, heures, sigles, monnaies…
API simple tokenise(texte) renvoie une liste de tokens

Caracteristiques techniques

  • Zero dependance Python
  • Python 3.10+ avec type hints complets (PEP-561)
  • Double licence : AGPL-3.0 (libre) / Licence commerciale