Rootline

  1. SLUB Dresden
  2. Service
  3. Trainings / Events
  4. Details

Details

Open-Source-Hands-on: Vom Scan zum durchsuchbaren PDF mit Tesseract

Open Access Week Open Science / Publishing
Fri, 25/10/19 09:30 - 10:15, Bereichsbibliothek DrePunct, Zellescher Weg 17, Kay-Michael Würzner

Tesseract ist die mit Abstand weitverbreitetste Software für OCR, also zur automatischen Texterkennung in Bildern. Tesseract ist Open Source und die Entwicklung wird im Wesentlichen von einer Community interessierter Enthusiasten getragen. Das Hands-On soll in die grundlegenden Bedienkonzepte von Tesseract einführen und die Zuhörenden in die Lage versetzen, eigene (Bild-)Dokumente mit maschinenlesbarem Volltext zu versehen. Darüberhinaus werden Optimierungsmöglichkeiten wie Bildvorverarbeitung und Modelltraining angeschnitten. Grundkenntnisse im Umgang mit einer Unix-Kommandozeile sind empfehlenswert.