HTR-United / lectaurep-repertoires

Ground truth for various Parisian notary's repertoires (French 19th and 20th century)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Notaires de Paris - Répertoires

Ground truth for various Parisian notary's registries of deeds (French 19th and 20th centuries)

CC BY 4.0 DOI

Files Badges Regions Badges Lines Badges Chars Badges

Contexte de production

Le projet LECTAUREP (LECTure Automatique de REPertoires), qui a débuté en 2018, est une initiative conjointe du Minutier central des notaires de Paris des Archives Nationales, de l’équipe ALMAnaCH (Automatic Language Modeling and Analysis & Computational Humanities) à Inria et de l’EPHE (Ecole Pratique des Hautes Etudes), en partenariat avec le Ministère de la Culture.

Le projet vise à repenser l’utilisation actuellement faite des registres des actes notariés, l’une des sources historiques les plus consultées aux Archives nationales, par les chercheurs et les utilisateurs des fonds d’archives notariales. Pour ce faire, le projet a instaurer un workflow de traitement de ces manuscrits à l’aide de la reconnaissance automatique des documents manuscrits (HTR) et d'extraction d’information (NER) en adoptant notamment l'application eScriptorium pour produire la vérité de terrain, entraîner des modèles de reconnaissance et corriger les transcriptions résultants.

Les corpus lectaurep-repertoires rassemblent les données d'entraînement spécifiques aux répertoires de notaires.

Détail des lots

Nom Importance matérielle Dates extremes Particularité Notaire Identifiant db
lectaurep-rigault-6 45 pages 05/1907 - 05/1908 1 seule main Rigault #50 (1-45)
lectaurep-random-set-1 38 pages 07/1903 - 03/1939 +/-10 mains _ #145 (1-20, 37-40, 48-58, 94-96)
lectaurep-random-set-2 5 pages 07/1908 - 07/1935 +/- 3 mains _ #156 (1-5)
lectaurep-riant-4 30 pages 07/1830 - 07/1830 1 seule main Riant #77 (1-30)
lectaurep-dufour-1 100 pages 05/1850 - 04/1851 1 seule main Dufour #87 (1-100)

Règles de transcription

illus_superscript

  • le texte suscrit a été signalé par un ^ liminaire. Le phénomène "dudt" (dudit) est donc transcrit par "dud^t".

  • l'emploi des minuscules et majuscules a été respecté.

  • quelques mots non-lus sont notés XXX

illus_superscript

  • les mots agglutinés et ligaturés sont généralement transcrits tels quels.

illus_superscript

  • les segments correspondant à du texte pré-imprimés sont signalé par le type "printed"

Les autres dépôts LECTAUREP

➡️ Lectaurep-bronod

➡️ Lectaurep-mariages-et-divorces


Inria Archives nationales
inria archives nationales

About

Ground truth for various Parisian notary's repertoires (French 19th and 20th century)

License:Creative Commons Attribution 4.0 International