"Audio-Wissen von 1974" - Die Themen dieser Artikel sind:
Was war mit der analogen Audio-Studio-Technik machbar und was sollte bzw. mußte ein Toningenieur wissen und gelernt haben. Daß viele dieser Themen (wir schreiben zur Zeit 2016) bereits 35 Jahre alt sind und durch die schleichende Digitalisierung völlig überholt sind, bedeutet nicht, daß sich die physikalischen Grundlagen wesentlich geändert haben.
.
B. Das Schallempfinden
.
B. I. Aufbau und Funktion des Gehörs
Durch Vermittlung des Gehörorgans werden die physikalischen Kenngrößen, zum Beispiel die Frequenz und der Schalldruck, die ein Schallereignis kennzeichnen, im menschlichen Gehirn als Tonhöhe und Lautstärke zur Empfindung gebracht.
Das Ohr reagiert dabei auf die Druckschwankungen des Schallfeldes und wandelt diese mit einem sehr komplizierten Übertragungssystem in Nervenreize um.
Bild 39 zeigt einen Schnitt durch ein schematisch dargestelltes rechtes Ohr und in Bild 40 eine zum besseren Verständnis vereinfachte Darstellung desselben.
Das Außenohr
Das Außenohr besteht im wesentlichen aus der Ohrmuschel, die als Schallkonzentrationseinrichtung dient (beim Menschen allerdings in einem weit geringeren Maße als bei Tieren) und die sich nach innen immer mehr in den Gehörgang verengt.
Der Gehörgang und damit das Außenohr ist nach innen durch das Trommelfell abgeschlossen. Im anschließenden Mittelohr befinden sich in der luftgefüllten Paukenhöhle die Gehörknöchelchen: Hammer, Amboß und Steigbügel, die untereinander durch Gelenke verbunden sind. Diese Gehörknöchelchen stellen einen Übertragungsmechanismus dar, der die Bewegungen des Trommelfells auf eine zweite Membran im oualen Fenster überträgt.
Dieser Mechanismus gleicht einem Hebelsystem. Der Ausschlag des Trommelfells wird untersetzt und auf das ovale Fenster derart übertragen, daß dort die Druckschwankungen etwa 60mal so groß wie die auf das Trommelfell wirkenden Schalldruckschwankungen sind.
Da die akustischen Anpassungsverhältnisse von dem an eine Membran angrenzenden Medium abhängig sind, sorgt dieser Mechanismus einerseits für eine nahezu optimale Anpassung zwischen dem Trommelfell und der Luft und zum anderen zwischen ovalem Fenster und der im Innenohr angrenzenden Lymphflüssigkeit.
Das Innenohr
Das Innenohr, in dem der eigentliche Hörprozeß vor sich geht, wird aufgrund seiner vielen höhlenartigen Gänge und Windungen Labyrinth genannt. Es interessiert an dieser Stelle nur der am Hörvorgang beteiligte Teil, die Schnecke. Sie hat, wie der Name schon andeutet, mit etwa 2 3/4 Windungen eines Hohlraumes, der vom Felsenbein umschlossen wird, die Form eines Schneckenhauses.
Dabei ist sie im wesentlichen in ihrer Längsrichtung durch eine teilweise knöcherne und teilweise häutige Scheidewand, die Basilar-Membran, aufgeteilt. Es entstehen hierdurch zwei längliche Räume (Gänge), die durch ein kleines Loch, das Helicotrema, am Ende der Basilarmembran (im hintersten Teil der Schnecke) miteinander in Verbindung stehen. Der obere Gang (Scala Vestibuli) ist durch die Membran im ovalen Fenster, der untere Gang [Scala Tympani) ebenfalls durch eine Membran im runden Fenster abgeschlossen.
Die Basilarmembran
Die Basilarmembran besteht aus einer quer im Schneckengang gespannten großen Anzahl von Fasern unterschiedlicher Länge. Sie sind am ovalen Fenster am kürzesten und werden bis zum inneren Ende des Schneckenganges stetig länger. Auf diesen Fasern befinden sich an bestimmten Stellen Nervenzellen, die in winzigen Härchen enden. Auf der Basilarmembran sind etwa 24.000 solcher Nervenendorgane untergebracht, wobei jedes Endorgan über eine Nervenfaser mit dem Gehirn in Verbindung steht.
Die Funktionsbeschreibung des Hörens
Da eine Möglichkeit des Druckausgleiches nur durch die Membran im runden Fenster gegeben ist, biegen die Druckwellen in erster Linie die Basilarmembran im Rhythmus der Schallwellen durch [74].
Dadurch werden jeweils die Fasern der Basilarmembran besonders erregt, deren durch ihre Länge bedingte Eigenresonanz mit der Frequenz der Druckschwankungen übereinstimmt [42, 17, 75]. Die auf den betreffenden Fasern angeordneten Nervenendorgane erfahren dadurch eine Reizung, die die Entstehung von Impulsen auf elektrolytischer Basis zur Folge hat.
Diese Impulse werden wiederum über Nervenfasern zum Gehirn weitergeleitet und bewirken dort, je nach Herkunftsort auf der Basilarmembran, die eigentliche Tonhöhenempfindung.
Erholungspausen bei Überschreitung einer Reizschwelle
Das Aussenden der Impulse setzt eine bestimmte Mindestreizung, das heißt die Überschreitung einer Reizschwelle, voraus und erfolgt dabei nur in bestimmten zeitlichen Abständen, zwischen denen gewisse Erholungspausen liegen. Die Dauer der Erholungspausen, die die Impulsfolgefrequenz bestimmt, ist von der Stärke des Reizes und damit von der Intensität der Schallerregung abhängig. Dagegen zeigt sich, daß der zeitliche Verlauf und die Stärke eines Impulses unabhängig von der Tonhöhe und Intensität sind.
Resonanz- und Analysierschärfe des Gehörs
Wirkt als Folge eines Schallvorganges ein vorerst als sinusförmig angenommener Wechseldruck vom Trommelfell über die Gehörknöchelchen auf die Membran im ovalen Fenster ein, so pflanzen sich die Druckwellen in der Lymphflüssigkeit fort.
Untersuchungen [76] haben ergeben, daß die Resonanzschärfe der einzelnen Fasern der Basilarmembran wesentlich niedriger ist, als sie nach dem relativ sehr feinen Auflösungsvermögen geringfügig voneinander abweichender Tonhöhen sein müßte (siehe Abschnitt B. II. 1.3).
Die viel bessere Analysierschärfe unseres Gehörs wird so gedeutet [77], daß durch die Basilarmembran nur eine Grobanalyse erfolgt, die Feinanalyse dagegen in der Funktionsweise des Nervensystems zu suchen ist.
Weitere Untersuchungen haben diese Vermutung bestätigt [78]; es wurde festgestellt, daß die Auslösung der Impulse nur an bestimmten Stellen (Phase) der erregenden Schwingung erfolgt. Auf diese Weise ist noch ein Zusammenhang zwischen dem Impulsrhythmus und der Frequenz der Schallerregung vorhanden, der wahrscheinlich die genannte Feinanalyse ermöglicht.
Die Funktion der Basilarmembran - ähnlich der Fourieranalyse
Wirkt nicht ein rein sinusförmiger Schalldruck, sondern ein Schalldruck komplizierteren Verlaufes auf das Gehör ein, so läßt sich aus dem beschriebenen Vorgang der Tonhöhenempfindung leicht ableiten, daß auf der Basilarmembran eine Zerlegung des komplizierten Schallereignisses in seine einzelnen Teilschwingungen - ähnlich der Fourieranalyse - erfolgt [79].
Wie wir im Abschnitt A. I. 2.2 sahen, können jedoch Teilschwingungen gleicher Frequenz und Amplitude, je nach deren Phasenlage zueinander, einen sehr unterschiedlichen Schwingungsverlauf ergeben.
Für das Gehör ist es jedoch zunächst gleichgültig, welche Kurvenform die Schallerregung besitzt, das heißt, welche Phasenlage die einzelnen Teilschwingungen zueinander einnehmen, weil das Gehör keine Einrichtung besitzt, die auch eine Registrierung dieser Phasenbeziehungen gestattet. Das gilt allerdings streng genommen nur für stationäre Schallvorgänge (siehe Abschnitt B. VII. 1.2).
B. II. Tonhöhe
.
B. II. 1 Das Tonhöhenempfinden
Das menschliche Tonhöhenempfinden ist durch zwei wesentliche Merkmale gekennzeichnet, und zwar einmal durch die Größe des hörbaren Frequenzbereiches und zum anderen durch den Zusammenhang zwischen einer Frequenzänderung und der hierdurch eintretenden Änderung der Tonhöhenempfindung.
Dabei ist es zum Erkennen einer Tonhöhe notwendig, daß sie eine bestimmte Mindestzeit (Kennzeit) auf das Gehör einwirkt. Des weiteren kann nicht ein beliebig kleiner Unterschied zweier verschiedener Tonhöhen erkannt werden. Auch hierzu ist ein bestimmter, von der Frequenz abhängiger Mindest-Differenzwert notwendig.
B. II. 1.1 Hörbarer Frequenzbereich
Der hörbare Frequenzbereich ist durch die niedrigste und höchste Frequenz, die gerade noch eine Tonhöhenempfindung auslöst, begrenzt. Die niedrigste Frequenz liegt allgemein bei 16 Hz. Frequenzen, die darunter liegen, rufen keine Tonhöhenempfindung mehr hervor; sie werden als Erschütterung oder bei quasistationären Vorgängen sogar direkt als Druckänderung im Ohr wahrgenommen.
Für die höchste wahrnehmbare Frequenz kann kein einheitlicher Wert angegeben werden, da diese Grenze individuell sehr verschieden und vor allem vom Personenalter abhängig ist. In jüngeren Jahren werden selbst Frequenzen bis zu etwa 20.000 Hz gehört, während im hohen Alter diese Frequenzgrenze unter 10.000 Hz herabsinkt [80]. Den maximal hörbaren Bereich von 16 Hz bis 20.000 Hz bezeichnet man als Tonfrequenzbereich.
.
B. II. 1.2 Das Tonhöhenempfinden als Funktion der Frequenz
Wie bei den meisten Sinneswahrnehmungen ist auch das Tonhöhenempfinden nicht dem Betrag der Frequenzänderung proportional, sondern dem Änderungsverhältnis.
So ruft ein Frequenzanstieg von 50 Hz auf 60 Hz die gleiche Änderungsempfindung hervor wie ein Anstieg von 3.000 Hz auf 3.600 Hz. In beiden Beispielen beträgt die Änderung 20%.
Der Grund für den logarithmischen Maßstab
Mathematisch gesehen bedeutet das, daß sich das Tonhöhenempfinden mit dem Logarithmus der Frequenz ändert. Das ist auch der Grund dafür, warum in der Elektroakustik bei der Darstellung beliebiger frequenzabhängiger Größen, als Funktion von der Frequenz, für sie fast ausnahmslos ein logarithmischer Maßstab gewählt wird.
.
Lautstärke und Tonhöhenempfindung
Nicht unerwähnt soll noch der Einfluß der Lautstärke auf die Tonhöhenempfindung bleiben. Es zeigt sich nämlich, daß trotz konstanter Frequenz bei einer Änderung der Lautstärke auch die Tonhöhe in allerdings relativ kleinem Ausmaß mit verändert wird.
In Bild 41 ist die prozentuale Änderung der Tonhöhe in Abhängigkeit von der Frequenz bei einer Lautstärkeverminderung von 50dB dargestellt [81]. Daraus ist ersichtlich, daß vorwiegend bei tiefen Frequenzen bis zu etwa 1.500 Hz eine Tonhöhenänderung von über 1,5% bis 5% zustandekommt, die bei gleicher Frequenz einen lauten Ton höher erscheinen läßt als einen leisen Ton.
Die Ursache hierfür ist in der Erregung der Basilarmembran zu suchen, die bei großen Lautstärken einen größeren Bereich umfaßt, so daß auch Nachbarfasern, die eigentlich einer anderen Frequenz zugeordnet sind, mit an der Reizmeldung beteiligt werden.
Über die harmonischen Kombinationen von Tönen
Bei einem Auftreten von mehreren Tonfrequenzen werden dann noch ganz besondere Empfindungen ausgelöst, wenn die Frequenzen in einem bestimmten Verhältnis zueinander stehen. Handelt es sich zum Beispiel um ganzzahlige Verhältnisse kleiner Zahlen, so werden die Töne als harmonisch empfunden, wobei die Oktave mit einem Verhältnis von 1 : 2 das charakteristischste Intervall ist. In der Musik kommt dem Bereich der Oktave eine große Bedeutung zu, wobei innerhalb der Oktave nochmals zwölf Abstufungen, das sind halbe Töne, unterschieden werden. Von den mit je zwei von ihnen möglichen Kombinationen sind sieben aufgrund ihrer im Verhältnis kleiner ganzer Zahlen zueinander stehenden Einzelfrequenzen harmonisch.
Die temperierte zwölfstufige Tonleiter
Die Benennungen dieser Intervalle, die Kennzeichnung der halben Töne und das zugehörige Frequenzverhältnis sind aus Tabelle 4 zu ersehen. Eine solche Tonstufung wird als temperierte zwölfstufige Tonleiter bezeichnet.
Die Einteilung in ausgerechnet zwölf halbe Töne ist darauf zurückzuführen, daß hierbei ein besonders hoher Anteil harmonischer Intervalle gewonnen wird.
Der Tonfrequenzbereich von 16 Hz bis etwa 16.000 Hz umfaßt nach dieser Überlegung zehn Oktaven, innerhalb deren die aus Tabelle 4 ersichtlichen Intervalle und ihre Benennungen immer wiederkehren.
Auch die Halbtöne erhalten stets wieder die gleiche Bezeichnung, wobei lediglich durch die Schreibweise als großer oder kleiner Buchstabe und durch die Indizes unterschieden wird (Bild 43).
B. II. 1.3 Minimal wahrnehmbare Tonhöhenunterschiede
Mit der Einteilung der Oktave in zwölf halbe Töne ist noch keine Aussage darüber verbunden, welche minimalen Tonhöhenunterschiede das (menschliche) Gehör noch zu erkennen vermag. Wie wir später bei der Behandlung der „Wahrnehmbarkeit von Verzerrungen" noch genauer sehen werden, ist im Frequenzbereich zwischen etwa 1.000 Hz und 4.000 Hz bereits eine Änderung der Tonhöhe um 2% bei unmittelbar aufeinanderfolgendem Vergleich wahrnehmbar.
Gegenüber diesem sehr feinen Empfinden ist die Gedächtnisleistung unseres Gehöres in bezug auf die Tonhöhe wesentlich geringer. So wird zum Beispiel von musikalisch ungeschulten Menschen ein einmal gehörter Ton nach längerer Pause mit entsprechenden Tongeneratoren im allgemeinen nur mit einer Genauigkeit von etwa ±5% reproduziert.
B. II. 1.4 Kennzeit der Tonhöhenwahrnehmung
Das Erkennen einer bestimmten Tonhöhe setzt eine Mindestzeit der Einwirkung, das heißt eine Mindest-Kennzeit des betreffenden Tones auf das Gehör voraus. Untersuchungen [82, 83] haben ergeben, daß die Größe der Kennzeit weniger eine Ohreigenschaft als vielmehr eine physikalische Eigenschaft der erklingenden Töne selbst ist.
Wie wir im Abschnitt A. I. 4.2 gelesen haben, läßt sich jede nichtperiodische Funktion nach Fourier in ein Frequenzspektrum jeweils typischer Amplitudenverteilung zerlegen. Wird also ein Ton sprunghaft eingeschaltet, so kann im ersten Zeitabschnitt die Schalldruckänderung noch gar nicht sinusförmig sein. Infolgedessen wirkt ein ganzes Frequenzspektrum auf das Gehör ein, das als Knack registriert wird.
Mit zunehmender Zeit nach dem Einschalten (eines einzelnen Tones) konzentriert sich aber das gesamte Frequenzspektrum immer schmalbandiger um die Frequenz des betreffenden Tones, so daß nach Ablauf einer gewissen Zeit der nahezu reine Ton vorliegt. Wird das Schallereignis vor Erreichen dieser Zeit wieder abgeschaltet, so kann kein Ton, sondern eben nur ein Knack wahrnehmbar sein. Es zeigt sich jedoch, daß das Ohr bereits vor Erreichen des sinusförmigen Schalldruckverlaufes in der Lage ist, den Ton zu erkennen. Hierzu ist es nur notwendig, daß sich ein wesentlicher Teil der Gesamtschallenergie innerhalb eines genügend schmalen, zum Ton symmetrisch liegenden Frequenzbandes konzentriert.
Die halbe Bandbreite entspricht dabei ungefähr dem minimal wahrnehmbaren Tonhöhenunterschied. Danach ist auch verständlich, daß die Kennzeit vom Verlauf der Einschaltfunktion abhängen muß. In Bild 42 sind deshalb für zwei verschiedene Einschaltfunktionen die Kennzeiten in Abhängigkeit von der Frequenz dargestellt (Kurve 1 und 2). Außerdem ist noch eine dritte Kurve eingezeichnet, die die sich aus anderen Untersuchungen [82] ergebende kleinste Kennzeit in Abhängigkeit von der Frequenz angibt. Bild 42 ist zu entnehmen, daß in dem weiten Bereich von rund 400 bis 10 000 Hz die Kennzeit etwa 4 ms bis 10 ms beträgt und erst unter 100 Hz auf mehr als 30 ms ansteigt.
B. II. 2 Frequenzumfang wichtiger Schallquellen
In Bild 43 sind die Frequenzbereiche der wichtigsten Musikinstrumente, der menschlichen Stimme und einiger Geräusche dargestellt. Als Einteilung für den Frequenzmaßstab wurden sowohl die Notenbezeichnung als auch die zugehörigen Frequenzen angegeben. Die Grundtonbereiche sind durch stark ausgezogene Linien gekennzeichnet. Die mitschwingenden Obertonbereiche, die die Klangfarbe ausmachen, wurden - soweit sie nicht zum Teil mit in den Grundtonbereich fallen - durch dünne Linien kenntlich gemacht.
Treten bei den Musikinstrumenten Geräusche auf, deren Frequenzen außerhalb der durch Linien begrenzten Frequenzbereiche liegen, sind diese durch eine Schraffur angedeutet.
Aus der Darstellung ist ersichtlich, daß von den angegebenen Schallquellen ein maximaler Frequenzbereich von etwa 17 Hz bis 16.000 Hz abgestrahlt wird, der zumindest bis zu einem bestimmten Alter auch gehörmäßig erfaßt werden kann.
B. III. Lautstärke
.
B. III. 1 Das Lautstärkeempfinden
Analog dem Tonhöhenempfinden ist auch das Lautstärkeempfinden zunächst wieder durch zwei wesentliche Merkmale gekennzeichnet. Sie sind hier einmal durch den wahrnehmbaren Lautstärkeumfang und zum anderen durch den Zusammenhang zwischen den physikalischen Größen: Schalldruck und Schallintensität und Lautstärkeempfinden gegeben. Dabei treten bestimmte Veränderungen des Lautstärkeempfindens eines Tones dann auf, wenn einmal das auf das Gehör einwirkende Schallereignis von zu kurzer Dauer ist, oder zusätzlich noch ein zweiter Ton auf das Gehör einwirkt, der eine Verdeckung des ersteren bewirkt.
B. III. 1.1 Grenzen des Lautstärkeempfindens
Der Bereich des Lautstärkeempfindens ist nach unten durch die niedrigste gerade noch wahrnehmbare Lautstärke und nach oben durch die höchste ohne Schmerzgefühl zu ertragende Lautstärke begrenzt.
Das Zustandekommen eines Gehöreindruckes setzt voraus, daß ein bestimmter Mindestschalldruck auf das Gehör einwirkt, bei dem die Nervenfasern der Basilarmembran überhaupt erst eine Reizung erfahren.
Bei 1.000Hz wurde dieser Schwellwert früher bei einem Schalldruck bzw. einer Schallintensität von etwa 2 x 10 hoch -4 ubar gefunden und nach DIN 1318 als eine Lautstärke von 0 Phon oder ein Schallpegel von L = 0 dB auch genormt.
Die Reizschwelle
Es zeigt sich weiter, daß die Reizschwelle eine starke Frequenzabhängigkeit besitzt, die außerdem auch noch individuell sehr schwankt. Ein aus vielen Messungen ermittelter durchschnittlicher Verlauf ist in Bild 44 als Schwellwertkurve eingezeichnet. Demzufolge liegt der Schwellwert normalempfindlicher Ohren bei 1000 Hz im Mittel bei 4 Phon.
Von einer bestimmten maximalen Lautstärke an geht das Lautstärkeempfinden in ein Schmerzgefühl über. Die Grenze liegt bei einem Schalldruck und einer Schallintensität von etwa 200ubar.
Das Schmerzgefühl kommt dadurch zustande, daß bei einem derart hohen Schalldruck das Gelenk zwischen Amboß und Steigbügel seitlich ausknickt. Das Ausknicken stellt einen Überlastungsschutz für das empfindliche Innenohr dar.
B. III. 1.2 Das Lautstärke- und Lautheitsempfinden als Funktion der physikalischen Kenngröße
Den Bereich zwischen Schwellwert und Schmerzgrenze bezeichnet man als Hörbereich, der stark frequenzabhängig ist. Sein Maximum hat der Hörbereich bei einer Frequenz von ewa 1.000Hz, bei dem er entsprechend den angegebenen Werten (Bild 44) einen Schalldruckbereich von sechs und bezüglich der Schallintensität von zwölf Zehnerpotenzen umfaßt.
Es liegt nun nahe, als Maßstab für diesen großen Bereich ein logarithmisches Maß anzuwenden. Das empfiehlt sich auch wegen des Weber-Fechnerschen psychophysischen Grundgesetzes, nach dem grundsätzlich jede Änderung einer Reizempfindung gleicher Größe eine im Verhältnis zur vorher vorhandenen erregenden Kenngröße gleichgroße Erhöhung oder Verringerung derselben voraussetzt.
Das bedeutet, daß das Lautstärkeempfinden dem Logarithmus des Verhältnisses der Schallintensitäten und Schalldrücke, das heißt dem Schallpegel L, proportional ist. Für dieses Verhältnis hat man den Briggsschen Logarithmus gewählt und nennt die logarithmische Einheit "Bel" (Alexander Graham Bell - Erfinder des Telefons). Für den praktischen Gebrauch wurde diese Einheit jedoch als zu groß empfunden, so daß sich 1/10 derselben, als Dezibel bezeichnet, besser eingeführt hat. Den Unterschied zweier Schalldrücke drückt man deshalb als Schallpegeldifferenz (Schallpegelunterschied) in "dB" aus.
Das Weber-Fechnersehe Gesetz trifft auf das Lautstärkeempfinden aber nur bedingt zu, weil der Bereich zwischen Schwellwert und Schmerzgrenze in seiner Größe nicht nur mit der Frequenz stark schwankt, sondern auch das Lautstärkeempfinden innerhalb dieses Bereiches verschieden abgestuft ist [84]. Da aber bei einer Frequenz von 1.000 Hz eine angenäherte Übereinstimmung besteht, wurde zuerst von Barkhausen [85] die Verwendung des logarithmischen Maßes für die Lautstärke mit der Einheit Phon vorgeschlagen, wobei der Schwellwert bei 1.000 Hz mit 0 Phon festgelegt ist.
Referenz ist die Lautstärke eines 1.000Hz-Tones
Da sich rechnerisch (die Formel ist nicht so interessant) die Lautstärke nur für eine Frequenz von 1.000 Hz ermitteln läßt, jedoch die Lautstärken von Schallintensitäten bzw. Schalldrücken anderer Frequenzen ebenso interessieren, können diese wegen der Frequenzabhängigkeit der Hörschwelle nur aus einem Hörvergleich gewonnen werden.
Bei diesem Vergleich stellt man die Lautstärke eines 1.000Hz-Tones so ein, daß er gleichlaut wie der zu messende Ton erscheint. Danach wird die Lautstärke des 1.000-Hz-Tones als Maßzahl für die Lautstärke des gemessenen Tones definiert.
Wird dieser Vergleich bei verschiedenen Frequenzen und Intensitätsverhältnissen vorgenommen, so ergeben sich Kurven gleicher Lautstärke, wie sie in Bild 44 [86] dargestellt sind.
In der Literatur findet man mitunter auch Darstellungen, die von Bild 44 etwas abweichen. Diese Unterschiede deuten darauf hin, daß die Kurven gleicher Lautstärke individuell sehr verschieden sind. Außerdem erfordert das angewandte Verfahren sehr viel Übung, wenn ein hinreichend genaues Ergebnis erzielt werden soll.
Ein Beispiel
Aus dem in Bild 44 abgebildeten Diagramm ist ersichtlich, daß bei 1000 Hz die dB-Teilung mit den Phon-Werten definitionsgemäß übereinstimmt. Außerhalb von etwa 900 Hz bis 1200 Hz ist diese Übereinstimmung nicht mehr vorhanden. Sagt man zum Beispiel von einem Ton von 80 Hz, daß seine Lautstärke 40 Phon beträgt, so bedeutet das, daß er subjektiv gleichlaut wie ein 1000Hz-Ton wahrgenommen wird, dessen Intensität 10 hoch -8 W/m2 beträgt, das heißt 40dB über seinem Schwellwert liegt.
Über die Intensität des 80Hz-Tones ist damit zunächst noch keine Aussage gemacht. Ihr Wert kann jedoch ebenso wie der des Schalldruckes aus Bild 44 entnommen werden. Diese durch den Frequenzgang des Gehörs hervorgerufene Erscheinung zwang ja überhaupt erst dazu, zweierlei Maß für das Verhältnis der Schalldrücke und Lautstärken einzuführen.
Daß man das dB- und Phon-Maß schuf, ist besonders damit begründet, daß 1 dB und 1 Phon im Durchschnitt die gerade noch wahrnehmbare Änderung eines Schalldruckverhältnisses beziehungsweise einer Lautstärke darstellen (siehe Abschnitt B. VII).
Angaben von Bruchteilen eines Phon sind praktisch nicht sinnvoll; außerdem läßt sich mit dem dB-Maß sowohl das Verhältnis der Schalldrücke als auch gleichzeitig das der Schallintensitäten kennzeichnen. Mit den anderen logarithmischen Maßen ist das nicht möglich.
Lautstärkeempfinden, Schalldruck und Schallintensität
Wie schon angeführt, besteht auch bei 1000 Hz ein weitgehend angenäherter, aber doch kein genauer logarithmischer Zusammenhang zwischen dem tatsächlichen Lautstärkeempfinden und dem Schalldruck oder der Schallintensität. Für genauere Betrachtungen des subjektiven Empfindens hat man deshalb den Begriff der Lautheit geprägt [87].
Die Feststellung des tatsächlichen Lautstärkeempfindens wurde unter anderem mit zwei sich gegenseitig nicht verdeckenden Tönen verschiedener Frequenz - deren jeder einzeln abgehört den gleichen Lautstärkeeindruck erweckt - vorgenommen. Das Empfinden bei gleichzeitigem Abhören betrachtete man dann als Verdoppelung der Lautheit [88]. Auf diese Weise erhält man im wahrnehmbaren Lautstärkebereich eine große Anzahl solcher Lautheitsverdoppelungen und definierte, daß die Lautheit eines Lautes dann 1 "sone" betragen soll, wenn seine Lautstärke 40 Phon beträgt. Empfindet ein Hörer die Lautheit eines anderen Tones n- oder 1/n-mal so groß, so beträgt sie n oder 1/n "sone".
Um einen mathematisch erfaßbaren Zusammenhang zwischen der Lautstärke und der Lautheit herzustellen, sind viele Versuche - mit zum Teil beachtlichen Abweichungen in den Ergebnissen - durchgeführt worden [89, 90, 91]. Anhand dieser hat man eine, im Bereich von 20 Phon bis 120 Phon gültige Umrechnungsbeziehung standardisiert.
Diese Beziehung grafisch dargestellt zeigt Bild 45.
B. III. 1.3 Lautstärkewirkung kurzzeitiger Schallereignisse
Ähnliche Ein- und Aussdirainguorgänge, wie sie in einem Raum auftreten, wenn in ihm eine Schallquelle ein- bzw. ausgeschaltet wird (siehe Abschnitt A. III. 2.2], zeigt auch unser Gehör. Beim plötzlichen Einwirken eines Dauertones konstanter Intensität wird also die volle Lautstärke erst nach einer konstanter Amplitude mit der Dauer Tv, gemessen mit einem gleichlauten Dauerton der Amplitude a in einer gewissen Zeit wahrgenommen.
Das bedeutet andererseits, daß kurze Schallimpulse nicht einen, ihrer Amplitude gemäßen, sondern einen verminderten Lautstärkeeindruck hervorrufen. In Bild 46 ist der Zusammenhang zwischen Schallimpulsen konstanter Amplitude aber variabler Dauer Tv, die eine gleichgroße Lautstärkeempfindung wie ein Dauerton mit der Amplitude a erzeugen, dargestellt [92].
Daraus geht hervor, daß der Einschwingvorgang exponentiellen Charakter zeigt und die Zeitkonstante etwa 23ms beträgt [93, 94]. Die Frequenz und Lautstärke haben darauf so gut wie keinen Einfluß.
Ähnlich verhält es sich auch mit dem Abklingvorgang des Ohres, der ebenfalls exponentiell verläuft. Aus Messungen [95] ergibt sich die in Bild 47 gezeigte Kurve, die wegen des gewählten logarithmischen Ordinatenmaßstabes, nämlich der Lautstärke, eine Gerade sein muß, wenn der Abfall des Schalldruckes einer e-Funktion gehorcht. Sie ist ebenfalls weitgehend von der ursprünglich wirkenden Lautstärke und Frequenz unabhängig [92]. Aus Bild 47 geht hervor, daß in einer Zeit von 0,35 s die Lautstärke um 60 Phon absinkt, das entspricht einer Abklingzeitkonstanten von 25 ms.
1.4 Der Verdeckungseffekt
Die bisherigen Betrachtungen erstrecken sich vorwiegend auf das Lautstärkeempfinden eines einzigen Tones variabler Tonhöhe. Wirken auf beide Ohren zwei Töne verschiedener Frequenz und zunächst gleicher Lautstärke ein und wird einer der beiden Töne in seiner Intensität immer mehr geschwächt, dann kann er empfindungsmäßig bereits bei solchen Werten der Schallintensität verschwinden, die weit über dem Schwellwert für die betreffende Frequenz liegen.
Der Ton höherer (konstanter) Intensität verdeckt also den Ton verminderter Intensität, was aber in starkem Maße von der Frequenz und der Intensität der beiden einwirkenden Töne abhängig ist [46, 96, 18].
Das Zustandekommen dieses Effektes ist dadurch erklärbar, daß auf der Basilarmembran nicht nur das eng begrenzte, zu der betreffenden Frequenz gehörende Gebiet erregt wird, sondern bei größerer Lautstärke in zunehmendem Maße auch noch die Nachbarbereiche. Diese werden dann gegenüber den ihnen zugeordneten Schwingungen wesentlich unempfindlicher.
Das Maß der Verdeckung wird dadurch bestimmt, daß man zunächst die Größe des Schalldruckes des verdeckten Tones feststellt, die notwendig ist, um ihn gegenüber dem stärkeren verdeckenden Ton gerade wahrnehmbar werden zu lassen. Dieser Wert im Verhältnis zum Schwellwert des verdeckten Tones (bei fehlendem Störton) wird als Schwellwertuerschiebung oder Verdeckungsmaß V bezeichnet.
.
Die Mithörschwelle - bis etwa 50 Phon
Als Mithörschwelle bezeichnet man dagegen den Schallpegel des Schalldruckes, bei dem der verdeckte Ton eben hörbar wird.
In den Bildern 48a und b ist die Schwellwertverschiebung für Frequenzen von 100 Hz bis 4.000 Hz bei einem Störton von 200 Hz und 1.200 Hz mit einer Lautstärke des Störtones als Parameter dargestellt. Daraus geht zunächst hervor, daß sich bei Störtonlautstärken bis etwa 50 Phon eine resonanzkurvenähnliche Erhöhung des Schwellwertes in unmittelbarer Nähe der Störfrequenz einstellt. Das bestätigt die bereits vorweggenommene Erklärung, daß die Nachbarbereiche auf der Basilarmembran mit erregt werden.
Die Mithörschwelle - über 50 Phon
Bei Lautstärken des Störtones, die über 50 Phon liegen, wird jedoch anscheinend der gesamte Bereich der Basilarmembran oberhalb der Störtonfrequenz mit in Erregung versetzt. Das geht gut aus Bild 48b hervor, in dem bei einer Lautstärke des Störtones von 100 Phon die Schwellwertverschiebung für alle höheren Frequenzen in der gleichen Größenordnung liegt.
Bemerkenswert ist noch die Einsattelung in unmittelbarer Nähe der Störtonfrequenz. Sie kommt dadurch zustande, daß sich zwischen der Störtonfrequenz und der verdeckten Frequenz Schwebungen ausbilden, die die verdeckte Frequenz besser erkennbar werden lassen und somit eine Verringerung der Schwellwertverschiebung zur Folge haben.
Da gemäß Bild 48b die gleiche Erscheinung auch bei den harmonisch dazu liegenden Frequenzen eintritt, liegt die Vermutung nahe, daß der auf die Basilarmembran wirkende Störton mit Oberwellen behaftet war, die ebenfalls durch Schwebungsbildung zu einer besseren Erkennbarkeit des verdeckten Tones führen.
Daß bei dem zur Messung verwendeten Störton von 1.200 Hz keine Oberwellen nachgewiesen werden konnten, obwohl sie an der Basilarmembran wirksam sind, deutet darauf, daß bei größeren Lautstärken im Mittelohr selbst nichtlineare Verzerrungen entstehen (siehe Abschnitt B. VII. 2) [97].
.
Besonderheiten - mit der gehörrichtigen Lautstärkeregelung korrigiert
Da die Verdeckung nach Bild 48b stark von der Lautstärke abhängig ist, muß bei einer elektroakustischen Übertragung eine von der Originallautstärke abweichende Wiedergabelautstärke auch eine Veränderung des Klangbildes zur Folge haben.
Besonders die Erscheinung, daß mit zunehmender Lautstärke oberhalb 50 Phon die höheren Töne eine relativ viel stärkere Verdeckung erfahren, führt dazu, daß die tiefen Frequenzen eines Schallereignisses unnatürlich hoher Wiedergabelautstärke besonders hervortreten.
Hinzu kommt, daß die Lautstärke der tiefen Frequenzen nach Bild 44 mit zunehmender Schallintensität ebenfalls relativ stärker ansteigt als die der mittleren Frequenzen. Beide Einflüsse führen somit zu der weitgehend bekannten Tatsache der Tiefenanhebung mit zunehmender Lautstärke.
Umgekehrt führt selbstverständlich eine zu geringe Wiedergabelautstärke zu einer unnatürlichen Dämpfung der tiefen Frequenzen. Verlangt es die Rücksichtnahme, daß mit einer geringeren als der Originallautstärke abgehört werden muß, so sorgt man durch eine mit sinkender Lautstärke zwangsläufig verbundene Tiefenanhebung für einen Ausgleich. Diese Maßnahme ist als gehörrichtige Lautstärkeregelung bei Rundfunkempfängern allgemein bekannt [98, 99].
B. III. 1.5 Gesamtlautstärke mehrerer Schallereignisse
Die Gesamtlautstärke mehrerer auf das Ohr einwirkender Töne oder sonstiger Schallereignisse ist praktisch etwa der arithmetischen Summe der als gleichlaut empfundenen 1.000-Hz-Töne proportional, so daß sich die Gesamtlautstärke aus aus dieser komplexen Gleichung ergibt.
Formel
Die Lautstärke zweier gleichlauter Schallquellen beträgt somit
Formel
Sie nimmt in diesem Fall also um 3 Phon gegenüber der Einzellautstärke einer Schallquelle zu. Weichen die Lautstärken zweier Schallereignisse zunehmend voneinander ab, so wird praktisch die Gesamtlautstärke nur von dem Schallereignis mit der größeren Lautstärke bestimmt.
Für überschlägige Betrachtungen kann zur Bestimmung der Gesamtlautstärke der zur größeren Lautstärke hinzu zu addierende Korrekturwert in Abhängigkeit von der Differenz der beiden Lautstärken aus Bild 49 entnommen werden. Bei der Bestimmung der Gesamtlautstärke von mehr als zwei Schallereignissen wird zweckmäßigerweise zuerst von zwei Einzellautstärken die Teilsumme gebildet, und zu dieser werden schrittweise nach dem gleichen Verfahren alle übrigen Lautstärken addiert. Streng genommen gelten die obigen Beziehungen und damit Bild 49 aber nur für gleichartige Schallereignisse und eng benachbarte Einzeltöne [79, 88, 18].
B. III. 2. Lautstärkeumfang einiger Schallquellen
Analog den Betrachtungen über die Tonhöhe sollen auch hier für einen Vergleich zwischen dem wahrnehmbaren Lautstärkeumfang und den praktisch auftretenden Lautstärken einige Werte verschiedener interessierender Schallquellen in Tabelle 5 angegeben werden.
B. IV. Klangfarbe
Obwohl bei einem Klang oder Klanggemisch auf der Basilarmembran ähnlich wie bei der mathematischen Fourier-Analyse eine Zerlegung in die einzelnen Teilschwingungen erfolgt und diese auch in der beschriebenen Weise an das Zentralnervensystem weitergeleitet werden, entsteht doch im Bewußtsein von jedem Klang ein geschlossener neuer Eindruck.
Das Empfinden einer Klangfarbe stellt nun nicht einen Summationsvorgang der Teilkomponenten in jedem Zeitpunkt dar, sondern einen seelischen Bewertungsvorgang. Für diesen Klangfarbeneindruck sind nicht nur die Frequenzen und Amplituden der Teilschwingungen, sondern vor allem das Verhältnis ihrer Frequenzen zur Schwingungszahl des Grundtones von ausschlaggebender Bedeutung.
Kombinationen, die als harmonisch empfunden werden
Wie bereits bei den Betrachtungen über die Tonhöhe angeführt, wird ein Zusammenklang von mehreren Tönen dann als besonders harmonisch empfunden, wenn diese in einem einfachen ganzzahligen Verhältnis, zum Beispiel 1:2 und 1:3, zueinander stehen.
Jedoch auch Töne weniger einfacher Verhältnisse, zum Beispiel 3:5 und 5:6, erklingen noch harmonisch, wenn auch nicht mehr so rein wie im zuerst angeführten Beispiel. Die gefundenen Gesetzmäßigkeiten sind in der Harmonik verankert.
Weitere Schallereignisse anderer Art
Da es neben diesen aus harmonisch zueinander liegenden Tönen bestehenden Klängen noch Schallereignisse anderer Art gibt, wurden nach DIN 1320 folgende Begriffe definiert:
(einfacher) Ton | Schall von sinusförmigem Verlauf |
Tongemisch | Aus Tönen beliebiger Frequenz zusammengesetzter Schall |
(einfacher)Klang | Aus harmonischen Teiltönen zusammengesetzter Schall |
Klanggemisch | Aus Klängen mit Grundtönen beliebiger Frequenz zusammengesetzter Schall |
Geräusch | Tongemisch, dem ein kontinuierliches Spektrum entspricht, oder das sich aus sehr vielen Einzeltönen zusammensetzt, deren Frequenzen nicht im Verhältnis ganzer Zahlen zueinander stehen. |
Knall | Schallstoß, vornehmlich von großer Schallstärke |
Lärm | Jede Art von Schallschwingung, die eine gewollte Schallaufnahme oder die Stille stört. |
.
Es gibt keine scharfe Abgrenzung
Aus den Definitionen ist bereits ersichtlich, daß es zwischen dem Klang oder dem Klanggemisch und dem Geräusch keine scharfe Abgrenzung geben kann, da es nur eine Frage der Anzahl von Klängen beliebiger Frequenz ist, ob man ein Schallereignis noch als Klanggemisch oder schon als Geräusch bezeichnen kann.
Dieser Grenzfall kommt in der Praxis auch am häufigsten vor, da sich sowohl die von Musikinstrumenten erzeugten Schallereignisse als auch die menschliche Stimme aus charakteristischen Klängen und charakteristischen Geräuschen zusammensetzen.
Untersuchungen [100] haben ergeben, daß ein Geräusch dann den Eindruck eines Tones erweckt, wenn 70% der Gesamtenergie in einem Bereich von delta f = 5% einer beliebigen Frequenz liegen.
Die Art der Schallquelle aus der Erfahrung erkennen
Die unübersehbar große Anzahl an verschiedenen möglichen Klangfarbeneindrücken innerhalb der aufgeführten Klangfarbengruppen ermöglicht es uns - da ein reiner Ton in der Natur kaum vorkommt -, in fast allen Fällen aus der Erfahrung heraus sofort die Art der Schallquelle anzugeben.
Frequenzspektren deutsch gesprochener Vokale
In Bild 50 sind als Beispiel die charakteristischen Frequenzspektren deutsch gesprochener Vokale einmal mit einem Grundton von 128 Hz und zum anderen mit einem Grundton von 192 Hz dargestellt.
Aus diesen Spektren ist ersichtlich, daß unabhängig vom Grundton die Amplituden der Oberwellen in beiden Fällen in den gleichen Frequenzgebieten gleich groß bleiben. Diese Frequenzgebiete bezeichnet man als die Formanten des Sprachlautes.
Der betreffende Vokal ist deshalb auch stets unabhängig von der Frequenz des Grundtones als solcher unverfälscht erkennbar. Das gleiche trifft auch auf die stimmhaften Konsonanten, zum Beispiel l, m, n, ng, zu. Bei den stimmlosen Konsonanten, b, g, k und so weiter, werden nur die Formantgebiete erregt. Die Grundtöne fehlen völlig.
Beispiele für einige charakteristische Frequenzspektren
Als Beispiel für Musikinstrumente sind in Bild 51 einige charakteristische Frequenzspektren angegeben. Daraus ist zu ersehen, daß die einfachsten Klänge von Orgelpfeifen stammen, die damit unter den von Musikinstrumenten abgestrahlten Klängen dem reinen Ton am nächsten kommen. Im Gegensatz dazu stehen die Instrumente, die fast ausschließlich ein mehr oder weniger kontinuierliches Geräuschspektrum abstrahlen.
Zu dieser Gruppe gehören fast alle Schlaginstrumente, zum Beispiel Trommel und Pauke. Zwischen diesen beiden Extremen liegt schließlich die große Anzahl der Instrumente, bei denen sich den einzelnen Klängen noch Geräusche überlagern. Das ist vorwiegend bei den geschlagenen oder gezupften Saiteninstrumenten, beispielsweise Flügel und Zither, der Fall.