Sie sind hier : Startseite →  Hintergründe & Analysen→  Hinter den Kulissen - (8)

Was braucht ein Redakteur für ein virtuelles Internet Museum ?

Erstens braucht er die Geräte, über die er schreibt und dazu Bücher und Fachzeitschriften und die Prospekte, die mal dieses oder jenes Gerät mit beflügelten Worten und erlauchten Sprüchen angepriesen hatten. Auch ein wenig Ahnung von der eigentlichen Thematik ist erforderlich - am besten gepaart mit 40 Jahren Elektronik-Erfahrung.

Dann braucht er auf seinem Web-Server ein funktionierendes Redaktions-System, heutzutage ein "CMS" (ein Content Management System),  in welchem er seine bildlichen und wortreichen Kreationen publiziert.

Und er braucht neben dem technisch gut ausgestatteten Laborarbeitsplatz einen komfortablen und bequemen Redaktionsarbeitsplatz, meist ein PC mit allerlei Komfort. (Ganz vergessen habe ich, er braucht auch ein Lager mit ganz viel Platz.)
.

Der bequeme Redaktionsarbeitsplatz

März 2025 - In den letzen 20 Jahren hatte sich eine Arbeits- methodik herauskristallisiert, die geholfen hatte, bis jetzt ca. 48.000 Seiten zu erzeugen bzw. zu füllen. Anfänglich funktionierte das mit Windows 2000 und 3 großen Hitachi 21" Röhrenmonitoren.

Später wurden die drei stromfressenden Röhrengeräte gegen drei neue 19" LCD Monitoren ausgetauscht und Windows 2000 wurde durch Windows XP ersetzt. Gleichzeitig wurden unter XP neben den bereits benutzten Progammen viele neue Hilfsprgramme installiert. Und verblüffenderweise hat dese Konstellation über 10 Jahre hervoragend funktioniert, obwohl Windows Vista und Windows 7 bereits vorbeigezogen waren.

Der langjährige Hilfs-Trick war nämlich ganz einfach, daß ich aus XP heraus über RDP den Bildschirm eines Notebooks (ein Thinkpad mit einer i5 CPU) mit Windows 10/64 auf einem der 4 Bildschirme holen konnte und so nahezu gefahrlos mit dem aktuellen Firefox durchs Internt stiefeln konnte.
.

Im Hintergrund (im EDV-Schrank) stehen mehrere NAS Stationen

Es begann schon 1990/95 mit den ersten NOVELL-Netware Servern, daß grundsätzlich auf den Arbeits-PCs keinerei relevante Daten bzw. Dokumente gespeichert werden dürfen. Die wie auch immer kranken PCs waren fast immer sofort austauschbar und es ging weiter. Damit war der funktionierende Netzwerk-Treiber für das jeweilige Beriebssystem ein Schlüssel-Modul. Unsere NAS Stationen die Linkstations von Buffalo und die NSA 325 und 542 von Zyxel bekamen mindestens eine 1 Tera-Byte Festplatte, später sogar 2 x 4 TB und dann 4 x 4 TB. So war und ist immer genügend Festplattenspeicher verfügbar.
.

Welche Programme haben die gewohnte Produktivität ?

Der Weg, interessante historische Artikel ins Internet zustellen, beginnt mit dem Scan-Programm für Papier aller Art.
.
Am Anfang waren die unerfreulichen Experimente mit Scannern aller Art sehr zeitauwendig. Bald hatte sich der A3 Scanner von Brother MFC 6490CW als erfreulich funktionell und langzeitstabil herausgestellt. Der gut durchdachte automatische Scanner-Einzug war für unser uraltes und brüchiges dünnes Zeitungspapier genauso geeignet wie für moderne Hochglanzprospekte. Und dieser Multifunktions-Scanner für erstaunlich bescheidene 179 Euro hatte bereits eine 100 Mbit Netzwerkschnittstelle
.
Als Scan-Programm benutze ich das universelle Scan-Werkzeug ScanndAll 21 von Fujitsu mit dem Twain-Treiber von Brother - ganz hervorragend komfortabel, schnell und mit mehreren 100 Seiten (in einem Durchgang) hervorragend stabil - sowohl unter Win 2000, XP und Win-7/64.
.

Ein weiterer Schritt zu höherer Produktivität der MFC J6930

Bei den Scannern tat sich auch einiges, jedenfalls bei Brother, nicht bei den anderen Anbietern. Der MFC J6930DW konnte in einem Rutsch beide Seiten scannen, auch mit 600 dpi und in Farbe. Damit entfiel das mühsame chronologische Zusammenführen der Vor- und Rückseiten der Hefte und Bücher (wenn mal eine Seite übersprungen wurde). Auch der hat den 100 Mbit Anschluß und er kann jetzt A5 Blätter (die Taschenbücher) längs einscannen, sehr komfortabel.
.

Zum Nachbearbeiten der Scans nutze ich das uralte Photo-Paint 10 aus der Corel Suite 10

Alle Dokumente werden bei uns mit 600x600 dpi in jpg Dateien (komprimierte Pixel-Bilder) eingescannt - die Kompressions- bzw. Qualitätsstufe ist dabei 70%. Das hat insgesamt drei Gründe.

Das Bildverabeitungsprogramm Corel Photo Paint 10 (aus dem Jahr 2000 !!!) hat geniale Taststaur- Shortcats, Tasten- Kurzbefehle, die das Arbeiten sehr effizient und komfortabel machen. Alle anderen Corel Programme von Vers. 11 über Vers. 12 bis X3 ud X5 sind deutlich weniger komfortabel - und die von der breite her verkleinerten (und dazu komprimierten) JPG Dateien sind bei gleichen Einstellungen (32% Komression Rate) alle 20% bis 30% größer.
.

Bilder betrachten und kontrollieren mit XnView 1.98 oder höher

Mit dem Programm XnView 1.98 oder höher kann man diese 600x600 Bilder ohne sichbare Veränderungen in 0,1 Grad Schritten genau in die Senkrechte drehen (oder automatisch drehen lassen).
.

Als Drittes kommt der FineReader 8.0 Professional zum Einsatz

Mir diesem auch recht alten OCR Text-Erkennungsprogramm "FineReader 8.0" läßt sich deutlich schneller arbeiten als mit neueren Versionen. Und alle Textdokumente bis über A3 Format werden ganz erstaunlich gut mit beinahe 99% Genauigkeit in ascii Texte gewandelt - dann in die Zwischenablage übertragen und fast gleichzeitig in einem dem Original baugleichen formatiertem Word Format ausgegeben.

Der Finereader ist eine russische Entwicklung, aus einer Zeit, als die Welt sich gerade wieder normalisierte, nämlich zu Gorbatschows Zeiten.
.

Die vorbereitende Textverarbeitung unter XP und WIN-7/64

Zum Bearbeiten dieser nackten Texte benutze ich zwei simple Text-Editoren, den imBetriebssystem enthaltenen ganz gewöhnlichen Windows Editor und dazu den Rogsoft Notepad + Version 1.11.

Mt dem Windows Editor kan ich eine Tauschroutine mitten im Text anstoßen und das gesamte Dokument wird von ganz vorne nach ganz hinten durchforstet und das sogar mehrmals. Andere Editoren müssen jedesmal auf Anfang navigiert werden.

Der Notepadpus ermöglicht das Vergrößern des gesamten Textes zwecks besserer Lesbarkeit samt automatischem Zeilenumbruch. Das hilft, hier bereits Absätze einzubauen wegen der späteren Lesbarkeit auf den Webseiten.
.

Weitere Programme sind sinnvoll und notwendig

Das ist das Programm "bulkrename". Alle Massen-Scans bei uns haben beim Scannen erstmal 5stellige Laufnummern mit vorgesetzen rudimentären Bezeichnungen bekommen. Das kann so nicht bleiben.
.
Ein weiteres sehr komfortables Programm für Screen-Shots - wir haben 4 Bildschirme - ist das bis zu dieser Version freie "Faststone Capture 5.5". Es ist komfortabler als alle bislang bekannten Windows Zusatzproramme.
.
Sehr oft benutzt werden das alte "zip"- und "7zip"- Programm sowie das "Win-rar" Programm zum Entpacken von Containern.
.

Historische Fraktur Dokumente mit FreeOcr und tesseract wandeln

Das wiederum war eine richtige Krücke, wie auch unter WIN XP. Die neueren Varianten dieser freien Software - und es gibt fast keine Auswahl bzw. Alternativen - funktioniert einfach nicht. Ich wuste aber, daß meine alte Version unter WIN XP eine erstaunlich gute Erkennungsrate gehabt hatte.

Mit der alten Version FreeOCR.net Version 2.6 aus Dez. 2008 mitsamt Tesseract v2.03 hatte ich bereits eine erste Zeitschrift (von 230 Exemplaren) aus 1914 mit mehr als 20 Seiten erfolgeich gewandelt.

Mit den neuen FreeOCR Versionen 5.4x kam wirklich nur Mist raus. Ich jedenfalls hatte das mit der Fraktur nicht zu Laufen gebracht. Auch die alte Version aus 2008 hat unter WIN 7/64 trickreiche Probleme.

Doch jetzt läuft es wie in alten Zeiten, mit viel Schweiß auf der Stirn. Hier der beschwerliche Weg dorthin :

FreeOCR Version 2.6 unter WIN 7/64bit installieren :

Nachdem die Fraktur-Schrift Erkennungs unter WIN XP über Jahre gut funktioniert hatte, gab es keinen Grund, das warum zu dokumentieren. Und unter WIN 7 nimmt der EDV Mensch natürlich die aktuelle Variante. macht auch sofort einen Test und erschrickt, wenn so gut wie überhaupt nichts zu erkennen ist.
Dann wird auf dem PC-Laufwerk gesucht und in den Suchmaschinen recherchiert, welche von den angebotenen Fraktur- Schriftsätzen denn die richtige sei. AM Ende, es funktioniert nicht mehr.

Man nehme also die FreeOCR- tesseract Install-Datei "freeocr-v2.6-3.exe" mit 4.490 Kilobyte und installiere sie wie schon immer üblich.

Dann lese man nach, was es für Besonderheiten gibt, wenn es nicht funktionieren sollte. Wir wollen aber keine englischen Texte, sondern deutsche Fraktur-Schrift erkennen und wandeln.
.
Das von einem Softwarehaus kombinierte gemeinsame FreeOCR und tesseract Install-Programm hat jetzt 3 neue Verzeichnisse angelegt.

  1. C:\Program Files (x86)\Softi Software\Softi FreeOCR\Program\data, .... dann
  2. C:\Windows\tessdata ..... und nochmal
  3. C:\Windows\System32\tessdata


Das "Warum" erschließt sich hier nicht, es ist wichtig, daß es am Ende funktioniert. Wir betrachten nur noch die erforderlichen Modifikationen in den beiden "tessdata" Verzeichnissen. Dort sind bis jetzt nur englische Sprachdateien installiert.
.

Der Umbau auf die Erkennung der deutschen Fraktur-Schrift.

Hierzu holen wir uns die deutschen Fraktur-Schrift Dateien als ein gepackte ZIP Datei aus dem Internet : "tesseract-2.01.deu-fraktur.tar.gz" und packen sie aus. Auch dort sind 8 Dateien drinnen.

Wenn wir auf "Englisch" keinen Wert legen, dann tricksen wir wie folgt. Wir benennen die Dateianfänge der Fraktur-Sprachdateien von "deu-f.*" in "eng.*" um und kopieren diese 8 umbenannten Dateien in den beiden "tessdata"- Verzeichnissen einfach über die englischen Dateien drüber. Das war jetzt die russische Methode.
.
Das Ergebnis erfreut den Redakteur - endlich wieder eine Erkennungs-Rate deutlich über 90%.
.

Warum diesen Aufwand ? Es ist die zu verarbeitende Menge an Seiten

In diesen 234 DIN-A3 großen Heften mit fast immer 10 Textseiten
.

Die Illustrierte Geschichte des Weltkrieges

.
aus 1914 bis 1919 steht so viel Wissen über den Zeitgeist und die Zeitgeschichte vor und im 1. Weltkrieg drinnen, daß das unbedingt publiziert gehört, und zwar nicht als "Riesen-PDF", sondern gleich als fehler-korrigierte und durchsuchbare Webseite mit aktuellen Kommentaren und Verweisen auf das Jahr 2025 (und folgende).
.

Natürlich sind noch weitere Programme installiert worden

Die Beschreibungen kommen auch noch.
.

- Werbung Dezent -
Zurück zur Startseite © 2007/2025 - Deutsches Hifi-Museum - Copyright by Dipl.-Ing. Gert Redlich Filzbaden - DSGVO - Privatsphäre - Zum Telefon der Redaktion - Zum Flohmarkt
Bitte einfach nur lächeln: Diese Seiten sind garantiert RDE / IPW zertifiziert und für Leser von 5 bis 108 Jahren freigegeben - Tag und Nacht und kostenlos natürlich.

Privatsphäre : Auf unseren Seiten werden keine Informationen an google, twitter, facebook oder andere US-Konzerne weitergegeben.