Projet "Crimes et châtiments"

Procès de sorcelleries et procédures criminelles: numérisation, mise en ligne et médiation

Qu'est-ce que le HTR (handwriting text recognition)?

Le HTR est une sous-catégorie de l'OCR (optical character recognition), une procédure qui permet de récupérer le texte imprimé sur la photo d'une source. Si vous pouvez copier le texte d'un livre numérisé sur Google Books, par exemple, c'est grâce à l'utilisation de l'OCR qui transforme une page numérisée en texte interrogeable. Le HTR est la procédure qui permet de lire un manuscrit et de transformer une numérisation en texte éditable.
Pour en savoir plus:

Comment utiliser le HTR?

Plusieurs outils permettent de pratiquer la reconnaissance de l'écriture manuscrite. Le plus populaire est sans doute Transkribus qui permet de se familiariser facilement à cette technologie grâce à une interface web et à un logiciel plus complet qui permet une expérience utilisateur plus aboutie. L'écosystème Transkribus permet d'utiliser l'interface pour créer ses propres transcriptions, de transcrire automatiquement grâce des modèles publics, mais également de développer des modèles spécifiques, adaptés aux données de l'utilisateur·trice. N'importe quel·le utilisateur·trice peut ouvrir un compte et bénéficier de crédits gratuits.
Pour en savoir plus:

L'interface de transcription de FoNDUE (e-Scriptorium).
Les chercheur·euses les plus motivés se tourneront vers le moteur HTR open source Kraken qui peut être utilisé à travers l'interface e-Scriptorium ou directement en lignes de commandes. Si le coût d'entrée pour accéder à cet outil est plus élevé, les gains au niveau de la recherche sont également plus importants: les modèles développés grâce à Kraken peuvent s'échanger en dehors d'un système fermé et il est possible d'entraîner des modèles avec plus de finesse en modifiant l'architecture neuronale d'apprentissage.
Toutefois, pour le moment, les services e-Scriptorium ne sont pas encore ouverts au grand public. Le moteur Kraken, quant à lui, peut être déployer sur un ordinateur privé grâce à Python.
Pour en savoir plus:

Le modèle Farine

Dans le cadre du projet "Crimes et Châtiments", un modèle a été développé pour transcrire les textes écrits par le prévot Henri Farine, actif entre 1580 et 1618. On compte plus de 3'500 documents de sa main dans les fonds des Archives de l'ancien Évêché de Bâle.

L'écriture du Prévot Farine est une cursive française assez régulière. On note toutefois qu'à partir de 1610, les <e> finaux sont accentués et qu'elle emprunte quelques traits Kurrentschrift germanique (<r> minuscule ou signe diacritique occasionnel sur le <u/v>).

Deux modèles ont été développés pour les deux outils présentés ci-dessus en utilisant un corpus de 57 pages déposé en ligne.
Transkribus Kraken
CER (validation set): 4,68% Accuracy (test set): 85,70%
Demander l'accès au modèle Télécharger le modèle