Le HTR est une sous-catégorie de l'OCR (optical character recognition), une procédure qui permet
de récupérer le texte imprimé sur la photo d'une source.
Si vous pouvez copier le texte d'un livre numérisé sur Google Books, par exemple, c'est grâce à l'utilisation de l'OCR
qui transforme une page numérisée en texte interrogeable.
Le HTR est la procédure qui permet de lire un manuscrit et de transformer une numérisation en texte éditable.
Pour en savoir plus:
Plusieurs outils permettent de pratiquer la reconnaissance de l'écriture manuscrite.
Le plus populaire est sans doute Transkribus qui permet de se familiariser facilement à cette technologie grâce à une interface web
et à un logiciel plus complet qui permet une expérience utilisateur plus aboutie.
L'écosystème Transkribus permet d'utiliser l'interface pour créer ses propres transcriptions,
de transcrire automatiquement grâce des modèles publics, mais également de développer des modèles spécifiques,
adaptés aux données de l'utilisateur·trice.
N'importe quel·le utilisateur·trice peut ouvrir un compte et bénéficier de crédits gratuits.
Pour en savoir plus:
Dans le cadre du projet "Crimes et Châtiments", un modèle a été développé pour transcrire les textes écrits par le prévot Henri Farine, actif entre 1580 et 1618. On compte plus de 3'500 documents de sa main dans les fonds des Archives de l'ancien Évêché de Bâle.
L'écriture du Prévot Farine est une cursive française assez régulière. On note toutefois qu'à partir de 1610, les <e> finaux sont accentués et qu'elle emprunte quelques traits Kurrentschrift germanique (<r> minuscule ou signe diacritique occasionnel sur le <u/v>).
Deux modèles ont été développés pour les deux outils présentés ci-dessus en utilisant un corpus de 57 pages déposé en ligne.
| Transkribus | Kraken |
|---|---|
| CER (validation set): 4,68% | Accuracy (test set): 85,70% |
| Demander l'accès au modèle | Télécharger le modèle |