Sie sind hier : Startseite →  Hintergründe & Analysen→  Erfahrungen mit Scannern 2021→  Erfahrungen mit TWAIN Treibern

Vorwort zu den nachfolgenden TWAIN- Absätzen :

Im Museum haben wir besondere Anforderungen an die Digitalisierung von Schriftstücken.

  1. Wir haben nicht unbegrenzt Geld
  2. Wir haben für unsere Verhältnisse gigantisch viele Dokumente
  3. Unsere uralten Dokumente sind oft einmalig und zerbröseln leicht
  4. Unter WIN XP SP3 haben wir perfekt funktionierende Arbeits-Umgebungen
  5. Wir wissen inzwischen sehr viel von dem, was und wie es NICHT funktioniert
  6. Wir lernen dauernd dazu, wie es doch gehen könnte .......
  7. Die Zeit läuft immer schneller davon - wir müssen alle Arbeiten optimieren

.
Unsere Scan-Objekte sind völlig anders als im normalen Büro. Es gibt sie von A6 bis A3 und fast immer doppelseitig. Sie sind entweder ganz neu und aalglatt (Prospekte, Magazine), manchmal uralt und merkwürdig glitschig / schmierig oder uralt, aufgerauht, bröckelig und nahezu dunkelbraun und zerfallen bzw. reißen beim kräftigen Anfassen. Die Seiten sind viel zu oft sehr "sensibel".
.

Das grundsätzliche Problem mit den Scannern und Treibern

Der Scanner soll schnell funktionieren. Das bedeutet, er zieht, zerrt oder rupft mit seiner mechanischen Maximal- geschwindigkeit die Seiten im ADF- Einzelblatt-Einzug (automatisch) ein und scannt diese Seiten dann mit der eingestellten Auflösung (in dpi) und der Farbqualität, so schnell, wie die Scanner-CPU die Daten aufnehmen kann - und das ist extrem unterschiedlich.
.
Damit ist unser wichtigstes Kriterium schon "erschlagen". Die alten Seiten gehen bereits beim Einziehen mit dem "super"-professionellen Power-ADF kaputt. Und die schnellen Semi-Profi-Scanner können diese anfängliche Zufuhr- Geschwindigkeit nicht bremsen.

Darum kommen bei uns nur bessere Consumer- oder (pseudo-) Business Geräte in Frage. Die (nicht steuerbare) Mechanik darf nämlich nicht zu schnell sein.

Andererseits ist das "von Hand Auflegen" von 20.000 Seiten auf die flache Scan-Scheibe einfach nicht mehr machbar. (Ab 70 wird man nachdenklich.)


.

Das Scannen will gut vorbereitet sein ....

...... denn nach dem Scannen fängt die eigentliche Arbeit ja erst an. Wir wollen grundsätzlich nur html-Seiten mit verlinkbaren Texten publizieren.

Das bedeutet, die gescannten Seiten müssen optimal zum OCR Lesen vorbereitet sein. Jede Schwäche oder Nachlässigkeit beim Scannen rächt sich bitter mit deutlich erhöhtem Zeitaufwand beim Korrekturlesen, Korrigieren und Formatieren der Absätze.

Alleine das einseitige Scannen der geraden und ungeraden Seiten dicker Bücher oder Magazine / Hefte und das Zusammenfügen zum sauber durchnummerierten Inhalt kann Stunden über Stunden "kosten", wenn irgendwo auch nur eine Seite doppelt oder auch gar nicht eingezogen wurde. Dann fehlen bei den Texten ganze Blocks.

Haben die Quellen einen zu starken "Grauschleier" oder Hintergrund, ist die OCR Erkennunsrate bescheiden, also unter 90% und das macht keinen Spaß mehr. Sind die Texte zu schief gescannt, sinkt die OCR Rate auf 85 - 70% ab.

Mit der Paperport 14.5 - Software werden die Texte (inzwischen) nahezu automatisch "gerade gerückt.". Das ist eine deutliche Erleichterung. Doch jetzt muß der steuernde PC kräftigst rechnen. Also ein Intel 4-Kern I5 mit 3,4 GHz und genügend RAM ist gesund.

Doch nach wie vor muß der gesamte gescannte und OCR erkannte Text noch Korrektur gelesen werden, anders geht es nicht.
.

3, 4 oder 5 Programme zum Scannen

Die mitgelieferten bzw. integrierten Scanner-Hilfsprogramme können oft nur einfache Bilder scannen, kennen den ADF nicht oder haben andere Macken. Wir benutzen zum Scannen diese universellen übergreifenden (TWAIN basierten) Programme hier :
.

  1. ScandAll 21 Version 4.3.14 (32 Bit Scan-Software von Fujitsu)
  2. IrfanView - ein Bildbetrachter
  3. XnView - ein Bildbetrachter
  4. Corel Photo Paint - ein Bildbearbeitungsprogramm
  5. und jetzt ab 2021 PaperPort 14.5 SE (Scan Programm von Brother mitgeliefert)

.

Der TWAIN Treiber für den Brother MFC-6490CW

.

  • Ganz zuerst, lassen die Finger weg von den Microsoft-WIA Treibern, die die Funktionalität der Einstellungen zugunsten von Automatismen deutlich einschränken. Wir können das gar nicht brauchen. Es kommt nur Mist dabei raus.

.
Der TWAIN Treiber des MFC-6490CW funktioniert ab WIN 2000 und aufwärts bis WIN 10. Die in 2021 herunter geladene (Win10) Treiber-Datei ist 44,669 MB groß vom Feb. 2021 (MFC-6490CW-inst-win8-A1.EXE) und läuft unter WIN 10 (64bit) auf unserem Notebook T430S.
.

Das Vorschaufenster des MFC-6490CW ist viel zu klein

Die TWAIN Treiber ab WIN 2000/XP datieren vom Dez. 2007 und Feb. 2008 und funktionieren in einer WIN XP SP3 Umgebung völlig problemlos. (Vista, WIN7 und WIN8 haben wir nie probiert.)

Es gibt nur eine erhebliche Macke in diesem älteren TWAIN Treiber. Der Vorschau-Monitor ist nicht skalierbar. Das Fenster ist definitv zu klein, um kleinere Auswahlbereiche auf dem Vorschaubild sauber gezielt zu skalieren. Wir scannen daher immer etwas größer.

Ganz wichtig bzw. unbedingt erwähnenswert ist aber, nach der Vorschau kann man den effektiven Scanbereich begrenzen, auch für ganze Stapel-Scans.

Das - zum Beispiel - geht bei dem jüngsten TWAIN Treiber für den MFC-J6930 nicht mehr und das ist beinahe fatal. Bei einem A4 Buch kommen ganz locker 300 bis 600 MB an dadurch übeflüssigem Mehrvolumen zusammen.
.

Was scannen wir und wie sehen die Originale aus ....

Es sind 35 Bände mit etwa 500 beidseitig mit Schreibmaschine getippten Seiten, randvoll und fast ohne Bilder und sowieso keine Farben. Diese Scans hier zeigen eine geschönte Farbwiedergabe, (der Scanner machts). In Natura ist das alles recht grau und trüb. Die allererste Coverseite (linkes Bild) wurde auf rotem Karton gedruckt. Die rechte Seite war vor 70 Jahren sicher mal nahezu weiß. - Und das ist eine von den hellen Seiten, andere Seiten sind ergheblich ausgeblichen und grau oder braun geworden.
.

.
und hier das farbige Scan-Ergebnis der 3 Test-Scans :
.

5,36 MB
6,25 MB
6,01 MB

.
Die unter den drei Bildern angezeigten Dateigrößen sind für unseren Zweck der weiteren OCR Verarbeitung absolut unakzeptabel, weil wir nur den Text extrahieren wollen. Darum gibt es jetzt weitere Versuche mit der Einstellung "Echte Graustufen".
.

Bild 1 Helligkeit +0 / Kontrast +0
Bild 2 Helligkeit +50 / Kontrast +0
Bild 3 Helligkeit +50 / Kontrast +24
Bild 4 Helligkeit +50 / Kontrast +50

Die MFC-6490 Tests bezüglich Qualität und Dateigröße

Beginnen wir mit dem Scan-Modus "Echte Graustufen" :

Als Einstieg habe ich die verschiedenen Qualitäten unserer Projekt-Coverseite aus 1950 mit den ausagekräftigen Vorschaufenstern untereinander dargestellt.

Hier ist keine Farbe gefragt, weil die über 20.000 Seiten mit Schreibmaschine getippt wurden - übrigens auf ganz besonders rarem "Nachkriegs-Papier".

Der TWAIN Treiber kann also die spätere Scanqualität ganz gut vorausschauend anzeigen.

Daß das Fenster so klein ist, hindert schon ein wenig.

Deutlich zu erkennen ist die jeweilige Einstellung der veränderten Grau-Werte, also Helligkeit und Kontrast. Das erste Bild zeigt die immer voreingestellten Standardwerte mit +0 und +0 an.

Zwischen Bild 2 und 3 gibt es fast keinen Unterschied, beide sind leidlich brauchbar, das 4. Bild ist absolut unbrauchbar. Der Kontrast ist überzogen.
.

Das Ergebnis mit den Standardwerten 0 und 0 ist mit 3,6 MB sowieso viel zu groß und für OCR Verarbeitung unbrauchbar.


Diese Datei könnte und müsste viel kleiner werden.

Das üben wir aber mit besser gefüllten Textseiten.
.

Eine Text-Seite im Scan-Modus "Echte Graustufen"

Jetzt folgen realistische und vergleichbare Scans von einer sehr dunklen Textseite.

Helligkeit +0 / Kontrast +0
Helligkeit +25 / Kontrast +0
Helligkeit +25 / Kontrast +25

.

Die gescannte Seite sieht dann je nach Helligkeitswert in etwa so aus :
.

3,59 MB
3,58 MB
2,09 MB

.
Das ist zwar schon deutlich besser, aber noch lange nicht das Ende der wirklich notwendigen Daten-Reduktion.
.

Eine Text-Seite im Scan-Modus "Schwarz-Weiß"

Dieser Scanmodus soll eigentlich deutliche Einsparungen der Datenmenge zeigen, weil er keine Graustufen abbilden und speichern muß, tut er aber nicht.
.

.
Die drei Scanergebnisse sehen alle gleich aus und sind auch gleich groß.
.

3,32 MB
3,18 MB
3,17 MB

Fazit mit dem MFC-6490CW - bis hierher - 2MB Files

Der Graustufen Modus erzeugt etwa 2 MB große Bilddateien, die von der Helligkeit und dem Kontrast sehr gut für die OCR Nachbearbeitung geeignet sind. Der Nachteil ist, dieser Scanner arbeitet nur einseitig. Jeder 60-Seiten Stapel muß nochmal für die Rückseite durch den ADF laufen und später neu nummeriert werden.

.

Der TWAIN Treiber für den Duplex-Brother MFC-J6930

.

 

bitte etwas Geduld, es geht weiter

 

 

 

- Werbung Dezent -
Zurück zur Startseite © 2007/2024 - Deutsches Hifi-Museum - Copyright by Dipl.-Ing. Gert Redlich Filzbaden - DSGVO - Privatsphäre - Zum Telefon der Redaktion - Zum Flohmarkt
Bitte einfach nur lächeln: Diese Seiten sind garantiert RDE / IPW zertifiziert und für Leser von 5 bis 108 Jahren freigegeben - Tag und Nacht und kostenlos natürlich.

Privatsphäre : Auf unseren Seiten werden keine Informationen an google, twitter, facebook oder andere US-Konzerne weitergegeben.