Das war eine geniale Idee, man könnte auf der Videospur .....

... eines Videorecorders doch die Musikinformationen digital ablegen. ......

Da ich es hier mehrfach leicht falsch oder irritierend beschrieben habe, erst einmal die Grundidee von 1977. Ich habe hier als Erklärung die beschreibende Form gewählt, damit man es leichter verstehen kann. Es ist nämlich ohne Vorkenntnisse nicht ganz einfach.
.

: Links der SONY Betamax Videorecodder - rechts der PCM Wandler für PAL

Wie das analoge Fernsehbild wirklich aussieht

: Das Zeilensprungverfahren

Unser altes analoges (und monochromes) Fernsehen besteht aus 25 Bildern pro Sekunde und die Bilder bestehen aus Zeilen und Punkten. Nach der Gerber-Norm von 1951 hat ein einzelnes perfektes s/w Fernsehbild theoretisch 625 Zeilen.

Zur Übertragung und Darstellung solcher Fernsehbilder generieren wir in der alten analogen Fernsehtechnik aber (aus technischen Gründen) immer zwei gleich große Halb-Bilder mit genau der Hälfte der Zeilenzahl. Und so haben wir im 1. Halbbild die ungeraden Zeilen und im 2. Halbbild die geraden Zeilen. Das spart Transport-Bandbreite und die war damals teuer. Diese beiden Halbbilder werden (interleaced im Zeilensprungverfahren) ganz kurz hintereinander zur Bildröhre geschickt und es fällt dem Betrachter überhaupt nicht auf, daß es eigentlich zwei Bilder (pro erkennbarem Fernseh-Bild) sind, also 50 Halb-Bilder in der Sekunde.
.

Die europ. Fernsehnorm von 1951 nach Dr. Gerber

Normiert sind also 625 Zeilen - halbiert ergibt das 312,5 Zeilen je Halbbild und jede einzelne Zeile besteht aus 833 aneinander gereihten Punkten. Beim (Schwarz-Weiß) Fernsehen sind diese Punkte über eine unterschiedlich hohe Spannung (dem Pegel) unterschiedlich hell, von ganz dunkel bis ganz hell. (Die Farbe lassen wir bewußt mal aussen vor.)
.

Und was macht der Videorecorder daraus ?

Diese Fernseh-Bilder kann ich mit einem Videorecorder aufnehmen. Mit einem handelsüblichen Schrägspur-Videorecorder der Consumertechnik wird bei der Aufnahme und Wiedergabe dieses System fast genauso übernommen, indem in jeweils einer Bild-Spur ein Halbbild untergebracht werden muß. Sonst müsste die Kopf-Trommel des Recorders noch viel schneller viel längere Spuren schreiben und später auch abtasten (lesen). So weit erst mal die Theorie mit den 625 Zeilen.
.

Aus der Computertechnik kommt das Grundlagen-Wissen

Aus den Anfängen der Comupter-Technik wissen wir, daß dort nur zwei "Zustände" 0 oder 1 (ein Bit) verwendet und gespeichert werden und daß in den Speicherzellen bei den sogenannten RAM-Speichern alles unter 2 Volt (bis 0 Volt) eine "0" darstellt und alles über 3 Volt (bis 5 Volt) eine "1" darstellt. Wenn man also diese beiden (extremen) Zustände (schwarz oder weiß) in die Zeilen-Information eines Videorecorders absolut eindeutig "einbringen" könnte, wäre das doch die "eierlegende Wollmilchsau", einfach genial.

Noch vorher zum Verständnis (für die weiteren Absätze) : Eine zusammenhängende Gruppe von diesen Bits - das können 8 oder 14 oder 16 oder sogar 56 oder noch mehr sein - wird bei den Computerleuten ein "Daten-Wort" genannt.

Wieviele Daten könnte man so auf Video-Band speichern ?

Schaun wir nochmal auf des uralte schwarz weiße Fernsehbild. Für unser hier benötigtes Verständnis wäre nur die Anzahl der Zeilen pro Halb-Bild und die Anzahl der Punkte in dieser einen Zeile wichtig. In diese Videozeile könnte man einzelne Bits entsprechend der Anzahl der Punkte "verpacken".

Per Definition (Gerber-Norm) besteht ein "ganzes" Fernsehbild aus 625 Zeilen je 833 Bildpunkte, das wären dann 520.625 Bildpunkte. Da jedes sogenannte "Ganzbild" in zwei Halbbilder geteilt wird, die immer nacheinander übertragen werden, wären das ca. 260.00 Bildpunkte pro Halbbild. Und da ein Videorecorder die einzelnen Halbbilder auf jeweils einer Schrägspur abspeichert, hätte man theoretisch etwa 260.000 "bits" pro Video-Spur verfügbar. Doch das ist bislang die reine Theorie, nichts weiter.

Der Fernseh-Ingenieur rechnet nämlich noch weiter. Um diese obige Informationsmenge je Halbbild (50 Halbbilder pro Sekunde) zu übertragen, egal wohin, würde man eine sogenannte Video-Bandbreite von mindestens 6,5 Mega-Hertz benötigen. Das wäre eine Superqualität direkt aus der Kamera.

Doch selbst die besten professionellen Studio- Videorecorder schafften nur 5,5 MHz. Bei den Consumer-Recordern sieht es noch viel schlechter aus. Es sind nur etwa 2,4 MHz Bandbreite bei den besten VHS Recordern und etwa 3 MHz bei den etwas besseren Betamax Recordern - wie gesagt - wir sind im Jahr 1977.

Die große Frage war damals, wie organisiere oder strukturiere ich diese digitalen Daten-Mengen, daß sie in die praktisch real verfügbaren Zeileninformationen eines Video-Halbbildes eines (jeden) Recorders rein passen.
.

Die Feinheiten muß man sich mühsam zusammensuchen

Bei uns im Fernseh-Museum haben wir beides, mehrere super tolle sehr große professonelle Studio-Fernsehkameras und ganz viele noch funktionierende Home-Vidoerecorder. Betrachte ich das direkte Ausgangsbild der Studiokamera auf einem digitalen Monitor und vergleiche ich es dann mit dem Ergebnis der VHS Aufzeichnung, sehe ich ganze Welten von Unterschieden. Also außer den Bildfehlern fällt vor allem das verschwommene Gesamtbild auf.

Ders Videorecorder kann also deutlich weniger Zeilen abspeichern und wiedergeben als die Kamera Zeilen anliefert. Damit stimmt unsere theoetische Daten-Mengen- Kalkulation der verfügbaren Bildpunkte nicht mehr überein.
.
Vorab ein Wort zu den Begriffen. Die Amerikaner spechen nur von "lines", Linien, für Zeilen haben Sie keine weitere Übersetzung. Bei uns wird das sehr oft vertauscht.
.
Die Gerber Norm definiert 625 Zeilen pro Bild. Die Fachliteratur spricht von 576 effektiv sichtbaren Zeilen, das ergibt also zwei Halbbilder je 288 Zeilen.

In den Spezifikationen der diversen Video-Recorder (Bandmaschinen) kann man es aber lesen:

Eine BCN 51 (Professionell von 1975) kann 550 Zeilen wiedergeben
die SONY U-matic (Low-Band) konnte anfänglich knapp 240 Zeilen
die SONY U-matic (High-Band) konnte dann knapp 280 Zeilen
die SONY U-matic (SP) konnte dann knapp 330 Zeilen

SONY Beta-max (1977) sollte bis zu 260 Zeilen auflösen,
SONY Beta-max Pro sollte sogar 280 Zeilen auflösen

VHS (1976) sollte 240 Zeilen auflösen,
S-VHS sollte (aber viel später) angeblich bis zu 400 Zeilen auflösen

Betacam SP (noch viel später) sollte mehr als 600 Zeilen auflösen

Das sollte nur mal eine ansatzweise Übersicht sein, was 1977 technisch überhaupt möglich war.
.

Erst sehr spät die kleinen Unterschiede bemerkt

Nachdem wir im Jan 2020 einen riesen Karton Prospekte aus 1975-1990 geschenkt bekommen hatten, habe ich in den darin enthaltenen (über 20cm) alten SONY Video- und auch Hifi-Katalogen ganz merkwürdige Spezifikationen bei nur zwei Modellen von SONY Betamax Recodern gefunden.
.

Anzahl der Zeilen 260 -
Anzahl der Zeilen 300 (bei schwarz-weiß).

.
In 1980 war aber schwarz-weiß bereits vollkommen out. Wieso spezifizieren die SONY Leute noch schwarz-weiß Informationen? Aufmerksam wurde ich dann bei der SONY PCM-F1 Beschreibung (das ist der schmale transportable PCM-Wandler) und auch bei den PCM 701/601/501 Beschreibungen. Dort wurden gerade diese beiden (oder nur diese beiden) Betamax Modelle als Aufnahmegeräte für PCM Aufnahmen benannt bzw. vorgeschlagen.

Da liegt also der Hase im Pfeffer. Wenn ich 288 Zeilen abspeichern wollte, muß es der Recorder auch können.

Jetzt fehlt mir noch die Information, wie der PCM-Wandler es gemerkt hat, wenn der (VHS-) Recorder diese hohe Qualität (=Anzahl der Zeilen oder Anzahl der Punkte) gar nicht verarbeiten kann.
.

Was müsste ein PCM-Wandler oder -Converter machen ?

Der Wandler müsste das von der Quelle (Mikrofon oder Mischpult) ankommende analoge (Stereo-) Audio-Signal digitalisieren und dann in Datenblöcke aufteilen. Diese Datenblöcke müssten so bemessen sein, daß davon immer paarweise mindestens 2 Blöcke - daher (Stereo-) paarweise - in eine Video-Zeile passen.

Und dazu müssten diese Daten-Block Paare aber dennoch so klein sein, daß es (dem Hörer) nicht auffällt, daß der rechte Kanal immer ein paar "Mikro-"sekunden hinter dem linken Kanal her hinkt. Sie dürfen aber auch nicht zu klein sein, weil dann eine irre schnelle CPU-Leistung erforderlich gewesen wäre, um das zeitrichtig zu verarbeiten.
.

Ein Blick auf das Konzept des SONY PCM-F1 Wandlers

Die Ingenieure (in Japan) hatten zu dieser Idee ein Konzept entwickelt und soweit optimiert, daß in die benutzbaren Video-Zeilen eines Video-Halbbildes auf einem Videorecoder (und zwar für die amerikanische und die europäisch Zeilennorm) genau die Menge an Daten rein passen, samt dem sowieso benötigten Spuranfang, dem Horizontal- Synchronsignal usw., bis die verfügbare Zeilenzahl ausgereizt ist. Die erste und die letzte Zeile eines jeden Bildes enthält dazu weitere Kontrollsignalblöcke.
.

: De digitale Inhalt einer Fernsehzeile (64us = Microsekunden)

Das Bild oben zeigt, daß das Sync-Signal am Anfang jeder Fernsehzeile der Start einer Reihe von digitalen Bits ist und daß in einer Fernsehzeile von den 168 Bits gerade mal 6 Datenblocks mit insgesamt 128 Bits mit Musikínformationen enthalten sind.
.

Doch so einfach war es nicht

Das Schwierige war dabei, bei der Übergabe oder Umformung der Computer-Daten in analoge Fernsehbild- Zeilen-Daten den Schwellwert zwischen der digitalen "NULL" und der digitalen "EINS" unmißverständlich zu erzeugen und beim Abspielen wieder eindeutig zu identifizieren.

Denn wenn bei einem Fernsehbild mal ein paar Pünktchen oder gar eine ganze Zeile nicht da waren, dann gab's eben einen schwarzen Streifen oder einen Spratzer, und wenn ein ganzes Bild weg war, gabs halt richtigen Ärger.

Wenn bei einem fortlaufenden Digitalsignal der laufenden Stream (der Daten-Strom) unterbrochen wird oder würde, dann kommt (von dieser Mikrosekunde an) nur noch Murks raus.

Also mußte auch ein möglicher periodischer Neuanfang der nächsten Datenpakete (das nächsten Halb-Bildes) definiert werden und so gab es jeweils in der ersten Zeile eines jeden Halb-Bildes einen Kontrollblock und einen Adressblock und als Abschluß das sogenannte CRCC Wort, den Kopierschutzblock - und den Fehlerkorrekturblock am Ende aller Zeilen eines jeden Bildes. Das Ganze mußte ja haargenau in das Schema der Bildaufzeichnung von Fernsehbildern - in dieses Pseudovideo-Signal - passen !

Und bezüglich der zwei "Sorten" von Video-Recordern - dieses Konzept mußte für die NTSC- Recorder und die PAL/SECAM- Recorder leicht abgewandelt aufbereitet werden, zumindest bei der Aufnahme. Bei der Wiedergabe hat der PCM-Wandler weniger Arbeit, weil Start und Ende eines Bildes - egal welcher Norm - sowie Start und Ende einer Zeile bereits eindeutig erkennbar sind.
.

Jetzt hatte aber jeder Videorecorder (s)ein "Eigenleben"

: Billiger gings wirklich nicht mehr

Ein Video-Reorder sollte eigentlich aufgenommene Video-Bilder abspielen und zwar so gut wie nur möglich. Von digialen Daten war nie die Rede. Und das Video-Recording sollte er zu einem möglichst geringen Preis machen. Und er sollte nicht nur seine eigenen Video-Bänder wieder abspielen können, sondern auch fremd bespielte Bänder der jeweiligen Norm.

Deshalb wurden für diese Haupt-Funktionen Tracking Automatismen und sonstige Spurfolge- Systeme integriert, die dem PCM-Wandler bei der Wiedergabe das Leben sehr sehr schwer machen würden. Zumal auch noch die Helligkeit des Videosignals korrigiert werden sollte, was natürlich gar nicht ging. Denn die PCM-Audio-Bänder interessierte gar keine variable Helligkeit, sondern nur zwei extreme Zustände, entweder ganz dunkel oder ganz hell.

Der analoge Wiedergabeteil (das Video-Eingangsteil) des PCM-Wandlers mußte in der Lage sein, alles das wieder "zurückzukorrigieren", das der Videorecorder "zu gut" gemeint hatte.
.

Zum weiteren Verständnis hier ein paar Daten :

Der im PCM-Wandler digitalisierte Stereo-Ton soll (muß !) fortlaufend auf das Videoband gespeichert werden - wie auch das Videobild - und auch wieder fortlaufend runter kommen (können). Wir haben aber weltweit die 2 Fernseh- und damit auch Video-Normen, die unbedingt beachtet werden müssen, weil sie nicht kompatibel sind.

Die in den USA festgelegte US-Norm (bei Farbe NTSC)
mit 525 Zeilen/Bild bei 30 Bildern pro Sekunde
(Die USA haben 60 Hz Netzfrequenz) und
die spätere europäische Gerber-Norm (bei Farbe PAL/NTSC)
mit 625 Zeilen/Bild bei 25 Bildern pro Sekunde
(wir haben hier überall 50Hz Netzfrequenz)

.
Diese Unterschiede wirken sich zum einen Teil auf die Takterzeugung aus, denn aus dem Takt werden die verschiedenen Horizontal- und Vertikal-Impulse abgeleitet, und zum anderen bestimmen sie die Anzahl der Datenblöcke, die in Abhängigkeit von der Anzahl der Zeilen pro Halbbild insgesamt aufgezeichnet werden können.

Ein weiterer Unterschied liegt in der Abtastfrequenz. Während sie beim USA-Standard 44,056 kHz beträgt, liegt sie beim Gerber-Norm-Standard bei 44.1 kHz.

Ein kompletter Datenblock (bestehend paarweise aus je 3 "Datenworten" des Links- bzw. Rechts-Kanals - nämlich 3 mal hintereinander - und den Prüfwörtern P, Q, CRCC) entspricht bei allen drei Normen dem Inhalt einer Zeile.

Daraus resultiert bei NTSC Recordern für die 168 Bit einer Zeile die Zeit von 63,49us und bei PAL und SECAM Recordern die Zeit von 64us.

Zwischen diesen Zeiten besteht also kaum ein Unterschied, so daß sich für die Bit-Periodendauer derselbe Wert von ca. 0,38us annehmen läßt.

Eine <0> wird dabei durch den Pegel für „Schwarz" (nahezu 0 Volt) repräsentiert, eine <1> durch etwa 60% des Pegels für „Weiß".

Bei der Anzahl der Datenblöcke je Halbbild gibt es jedoch wieder Unterschiede:

Bei NTSC können theoretisch von den insgesamt 262.5 Zeilen eines Halbbildes 246 zur Datenspeicherung genutzt werden,
bei PAL und SECAM sind es theoretisch dagegen 295 von 312,5 Zeilen.

Von den genannten 246 bzw. 295 Zeilen werden 245 bzw. 294 mit Audio-Daten belegt. Die erste Zeile jedes Halbbildes belegt der sogenannte Steuerblock.
.

Der Bezug auf die Wiedergabe und die beiden Normen

Mit dem Verständnis der unterschiedlichen Zeilenzahlen pro Halb-Bild (also nicht der sichtbaren Linien !!) wird auch klar, warum beim Abspielen keine unterschiedlichen PCM-Wandler benötigt werden. Alleine der Video-Recorder muß NTSC oder PAL beherrschen.

Da jedes einzelne Halb-Bild mit einem Kontrollblock beginnt und danach die Zeilen kommen, egal, wieviele es sind, und dann die letze Zeile wiederum einen abschließenden Kontrollblock enthält, ist die Wiedergabe weitghend unproblematisch. Auf jeden Fall müssen alle Korrektur-Mechanismen des Recorders ausgeschaltet werden oder abgeschaltet sein.
.
Der abspielende Recorder liefert einen kontinuierlichen Stream von Daten, bei dem die erste Zeile und die letzte Zeile die wichtigen Informationen enthalten und die Zeilen dazwischen jeweils 6 Audio-Blocks.

Diese Struktur ist beim Aufnehmen (also dem Durchnummerieren und Schreiben der Audio-Böcke) sehr sehr wichtig, beim Abspielen aber nur noch unerheblich.
.