Tokeniseur

Lectura Tokeniseur

Normalisateur et tokeniseur complet pour le francais

PyPI GitHub pip install lectura-tokeniseur

Presentation

Module autonome, zero dependance externe. Normalise le texte francais (typographie, espaces, Unicode) et le decoupe en tokens structures : mots, ponctuation et formules detectees automatiquement.

Le Tokeniseur identifie et classifie plus de 15 types de formules :

Nombres (entiers, decimaux, negatifs)
Dates, heures, telephones
Sigles et acronymes
Ordinaux, fractions, pourcentages
Monnaies, unites de mesure
Expressions mathematiques
Chiffres romains

Exemple

from lectura_tokeniseur import tokenise, Formule

tokens = tokenise("Le 25/12/2024, il a lu 42 pages.")

for token in tokens:
    detail = token.formule_type.name if isinstance(token, Formule) else ""
    print(f"{token.text:25s}  {token.type.name:12s}  {detail}")

Le                         MOT
25/12/2024                 FORMULE       DATE
,                          PONCTUATION
il                         MOT
a                          MOT
lu                         MOT
42                         FORMULE       NOMBRE
pages                      MOT
.                          PONCTUATION

Essayer en ligne

Cliquez sur « Essayer » pour lancer la demo.

Fonctionnalites

Fonction	Description
Normalisation	Typographie francaise, espaces, nettoyage Unicode
Tokenisation	Decoupage en mots, ponctuation, separateurs
Detection de formules	15+ types : nombres, dates, heures, sigles, monnaies…
API simple	`tokenise(texte)` renvoie une liste de tokens

Caracteristiques techniques

Zero dependance Python (aucune dependance tierce)
Independant de Formules (fonctionne seul, enrichissement optionnel si lectura-formules est installe)
Python 3.10+ avec type hints complets (PEP-561)
Version : 2.3.0
Licence : AGPL-3.0 (non commerciale) — licence commerciale sur demande : contact@lec-tu-ra.com