Womit und wie wir diese Webseiten erstellen . . .
Eine Zusammenfassung vom Mai 2019 - Auf dieser Seite möchte ich beschreiben und dokumentieren, wie die Dokumente von der Papierform und anderen Dateiformaten in die elektronische Web-Form (in HTML) umgewandelt werden und mit welchen Werkzeugen das gemacht wird.
Das "Warum" und das "Wie" stehen dabei im Vordergrund. Ein schlagendes Argument für solch handliche Programme sind die über 34.000 Webseiten der 4 Museen-Webs.
.
Die Quellen :
Unsere Quellen sind die großen Mengen an DIN A4 Magazinen und Zeitschriften, an A5, A4 und A3 Prospekten und verschiedenste A5, A4 und A3, teilweise sogar A2 Dokumente, also von ganz einfachen Papier-Seiten bis zu riesengroßen Hochglanz-Drucken.
Nicht vergessen dürfen wir die Bücher in den unterschiedlichsten Formaten, die zum Teil "noch" gebunden sind und - weil sie ab und zu nur leihweise zur Verfügung stehen - auch nicht aufgeschnitten werden dürfen. Die Bücher in unserem Eigentum werden alle aus den Einbänden entnommen und Seite für Seite automatisch gescannt.
Weiterhin stehen inzwischen eine große Menge an unter- schiedlichsten PDF-Dateien und bereits eingescannten Bilddateien zur Verfügung.
.
Der (oder die) Scanner
Anfänglich in 2003 hatten wir nur einen DIN A4 Scanner von CANON und einen ähnlichen von HP. Das ging eine Zeit lang gut, bis mir die bescheidene Qualität bei sehr bescheidener Geschwindigkeit - durch einen zufälligen Vergleich - auffiel. Für mein Hobby waren und sind 600.- bis 1200.- Euro für einen Profiscanner zu viel.
Ich bewunderte einen BROTHER MFC 6490CW und machte mich kundig. Dieser MFC (ein sogenanntes Multi Function Center) scannt echte A3 Übergröße in 600 x 600 dpi in Farbe und das mit einem besonderen Autofeeder als Papier-Stapel mit bis zu 60 Seiten automatisch.
Bei einem Autofeeder (Stapeleinzug) sind die Transportrollen extrem wichtig. Die sind bei den ganzen billigen Hobby-Scannern dünn und klein und dermaßen bescheiden und billig, daß sie nur wenige Bücher aushalten und dann versagen (durchrutschen) - die Seiten werden nicht mehr eingezogen. Der Brother 6490 hat im Vergleich gewaltige Gummirollen.
Weiterhin hat dieser Scanner einen 100 mbit/s Netzwerk-Anschluß und schaufelt die gescannten Daten (die Seiten / Dateien) damit sehr schnell auf ein Terabyte NAS, allemale schneller als USB oder WLAN.
Nachtrag : Mit ein paar Tricks und zwei nachbearbeiteten Holzleisten kann dieser Brother Autofeeder auch schmalere A5 Blätter aus alten Technik- handbüchern automatisch einziehen. Das können nur ganz ganz wenige Scanner.
.
Auf dieser Seite gibt es einen sehr ausführlichen Einblick in die Technik von Massen- Scans von tausenden von gedruckten Dokumenten aller Coleur und Formate.
.
Der EPSON Perfection 4990 Photo
Dieser recht alte A4 Scanner (über USB) kann zwar nur A4 und hat noch keine LED Leuchtzeile, sondern eine Leuchtröhre, aber er hat andere Vorteile. Er scannt bei 600 dpi in Farbe extrem schnell und er hat eine deutlich höhere Tiefenschärfe für gewellte Auflagen. Mit dem scanne ich die Coverseiten von Massen an Neuzugängen durch sogenanntes Handauflegen dieser Magazine. Die Scans sind fast immer scharf und bei 600 dpi lassen die sich später sehr komfortabel ausrichten und beschneiden und verkleinern. Ansonsten ist er von "Perfection" weit entfernt.
.
Das Scan-Programm "ScandAll-21"
Das Scan Programm soll möglichst lange und "unbeaufsichtigt" den Scanner betreiben. Vor langer Zeit ist mir eine freie Software von Fujitsu aufgefallen, die über den Windows TWAIN Treiber mit (fast) jedem Scanner automatisch funktioniert. So auch mit dem BROTHER (und dem Epson 4990 und anderen).
Diese "ScandAll-21" Software erstellt unter Windows von jeder Seite eine Bild-Datei oder eine PDF-Datei und nummeriert sie fortlaufend durch und legt die in einem vorher ausgewählten Verzeichnis mit einem vorher ausgewählten Dateinamen samt Lauf-Nummer ab.
.
Ein Datei-Umbenennungs-Programm "Bulk-rename"
Da der (ältere Brother-) Scanner nur einseitig scannt, sind natürlich die gespeicherten Seiten zwar fortlaufend nummeriert, aber erst die ungeraden Seiten und dann die geraden Seiten. Bei einem Buch mit 380 Seiten ist das eine abendfüllende Aufgabe, wenn man keinen Automatismus hat und den hat ein Engländer programmiert.
Also das Umbennen mit "Bulk-rename" funktioniert hervorragend und dauert weniger als 2 Minuten auch für tausende von Seiten, - es sei denn, der Scanner hat (weil unbeaufsichtigt) zwei Seiten gleichzeitig eingezogen. Dann muß man von Hand eingreifen und die fehlende Seite nachscannen und an der richtigen Stelle einfügen. Und das ist sehr aufwendig.
.
Das Anzeige-und Korrektur- Programm Xn-View 2.13
Diese Bild-Betrachtungsprogramm kommt aus Frankreich und hat eine Menge wertvoller Eigenschaften - teilweise etwas versteckt - eingebaut. Damit werden die bezüglich der Seitennummern umbenannten Dateien auf ihre fortlaufende Reihenfolge kontrolliert.
Dieses Programm hat aber noch eine herausragende Funktion, die automatische Ausrichtung einer ganzen DIN A4 Seite zum Beispiel. Der Scanner bekommt sehr oft extrem altes und bröckeliges Papier oder - diametral dazu - extrem glattes Fotopapier zum (automatischen) Stapel-Scannen und zieht das mehr oder weniger schief ein.
Dieses geniale Programm dreht die ganze Seite zauberhaft rechtwinklig zum Rand - einfach toll und ganz extrem arbeitserleichternd. Eine 3 GHz CPU ist dabei von Vorteil.
.
Ein modernes Screen-Shot Programm "Faststone Capture"
Bislang war unter Windows 2000/XP das Corel Draw Hilfsprogramm Capture 8 aus der uralten Corel 8 Suite das komfortabelste Screen-Shot Programm, weil es GIF Dateien ablegen konnte. Alle Corel Nachfolger benötigten deutlich mehr Maus-Klicks oder Tastendrücke und das war dann zu aufwendig. Andere ausprobierte Capture Programe hatten andere Nachteile.
Das "Faststone Capture" for Windows schlägt sie alle. Es ist herausragend und einfach nur genial programmiert. Mit nur einer F-Taste (bei uns F6) wird ein Fadenkreuz über alle 4 Monitoren gelegt und das kann mit der Maus sofort an eine beliebige Ecke von einem der 4 Monitoren gezogen werden. Mit einem Klick wird diese Ecke markiert, dann die Maustaste an der anderen diagonalen Ecke des Ausschnitts losgelassen und die sauber begrenzte Bild-Datei ist im ausgewählten Verzeichnis mit dem ausgewählten Dateinamen - auch noch automatisch durchnummeriert - abgelegt. Einfach toll.
Insbesondere bei fertigen JPG- und PDF-Dateien lassen sich so die Bilder ganz erheblich schneller aus den Seiten herausholen, weil die PDF Viewer auch vergrößerte Bilder bereits geglättet haben. Gegenüber der bislang notwendigen Nachbearbeitung ist die zeitliche Effizienz beinahe verzehnfacht.
.
Ein Grafikprogramm mit den Minimalfunktionen - Corel Paint 10
Natürlich gibt es den Adobe Photoshop 5 und 6 und 7 usw.... in allen Varianten und Ausführungen und die Nachfolger Indisign und sonstwas und auch die Folge- versionen von Corel Photo Paint Pro usw. Doch dieses Photo-Paint 10 macht genau das, das man zur Nachbearbeitung von simplen jpg Fotos und gif Dateien aus meinen Digitalkameras und aus gescannten Prospekten braucht - und die wenigen wichtigen Kurzbefehle (Shortcuts) per Tastatur sind dermaßen geläufig und vor allem gut strukturiert und schnell, das kann man so mit der Maus nicht "erklicken". Selbst von diesem alten Photo-Paint 10 aus 2001 nutze ich nicht mal 10% aller angebotenen Möglichkeiten. Von Photoshop 5 und 6 waren es vielleicht 3% bei deutlichem Mehraufwand an Zeit.
.
Das OCR Programm zur Texterkennung - Finereader 8
Auch hier hatte ich neuere Versionen als den Finereader 8 ausprobiert, die unter XP und WIN 7 laufen. Die Texterkennungs-Qualitäten der Finereader Version 8 sind bereits so genial, daß ich die Demo-Versionen 9 bis 12 alle wieder gelöscht hatte. Bei mir ist auch nur die deutsche, englische und französische Sprache installiert.
Alle anderen getesteten kommerziellen OCR Programme sind deutlich weniger komfortabel oder erheblich langsamer oder benötigen einfach mehr Vorbereitungszeit, ehe ein vernünftiges (Text-) Ergebnis raus kommt.
.
Ein zweites Freeware OCR Programm für historische Serifen-Schrift
Viele uralte technische Magazine und Zeitschriften aus der Zeit vor 1945 benutzten altdeutsche Schriftstile und -Arten, die der Finereader 8 noch nicht konnte. Das Tesseract FREE-OCR Programm kann das hervorragend.
.
Der (standard) Text-"Editor" von Windows 2000
Mit dem ganz normalen und simplen Text-Editor von Windows 2000 und XP kann man wunderbar simple Tauschroutinen eingeben und mit F3 mehrfach durchlaufen lassen, wobei es egal ist, ob man mitten in einem langen Text beginnt.
Zum Beispiel das extra lange Minus-Zeichen kann man ganz einfach gegen das kurze "-" austauschen. Auch Sonderzeichen und vor allem "..." gegen"." mehrfach laufen lassen. Ganz besonders häufig erkennt und wandelt das OCR Programm ganze Satz-Reihen von aufeinander folgenden Leerzeichen, die ich wirklich nicht vertragen kann und auch eliminieren möchte. Da muß man dann 4 oder 6 mal die Tauschroutine durch den ganzen Text durchlaufen lassen.
Viel wichtiger ist, daß sämtliche Formatierungen und sonstigen Texteigenschaften verschwinden. Es bleibt der pure ascii Text samt der deutschen (und ein paar anderer) Sonderzeichen übrig.
.
Der "RogSoft NotePad+" Editor unter Windows
Der NotePad+ kann die Schrift per Tastendruck vergrößern und die langen Zeilen und langen Texte in Absätze umbrechen. Außerdem kann er mehrere Texte gleichzeitig nebeneinander in einem Bildschirm öffnen, sodaß das Umkopieren oder Umsetzen von Textstellen oder ganzen Bereichen ein Kinderspiel ist.
.
Es gibt noch ein paar hilfreiche Programme, die kommen noch.
.