Sprachverständlichkeit

Eine gute Sprachverständlichkeit ist nicht nur in Konferenz- oder Tagungssälen von größter Bedeutung. Auch in normalen Haushalten gewinnt das Thema immer mehr an Bedeutung. Moderne Architektur setzt auf schlichte Einrichtung und große, schallharte Flächen wie Fliesenböden, Glasfronten und Sichtbetonwände. Dabei gerät die Sprachverständlichkeit massiv in den Hintergrund. Die Folge: Eine Unterhaltung oder gar Diskussion mit mehreren Teilnehmern ist in solchen Räumen nahezu unmöglich, da die gegenseitige Verständlichkeit stark unter der Akustik leidet. Dabei kann die Sprachverständlichkeit mithilfe einfacher Maßnahmen wie Schallabsorbern, Deckensegeln oder Akustikbildern auch in modernen Wohnräumen optimal gestaltet werden.

Bei der Untersuchung der Sprachverständlichkeit, also der Beurteilung der Transmission von Sprache gilt es, zwei verschiedene Umgebungen zu unterscheiden. Im sogenannten Freifeld (beispielsweise auf einer Wiese im Freien) wird die Schallausbreitung weder durch Reflexionen, Abschattungen oder Absorption gestört. Der Schalldruckpegel nimmt mit zunehmender Entfernung von der Schallquelle ab. In geschlossenen Räumen hingegen ist er jedoch nahezu ortsunabhängig. Dies hat seine Ursache in den zahlreichen Reflexionen an den Begrenzungsflächen und der Einrichtung im Raum. Das dadurch entstehende Schallfeld kann die Sprachverständlichkeit entweder begünstigen oder verschlechtern.

Messung von Sprachverständlichkeit

Die Sprachverständlichkeit ist zunächst einmal kein harter Faktor, der direkt gemessen oder bestimmt werden kann. Aus diesem Grund haben sich mit der Zeit berechen- und messbare Kriterien herausgebildet, welche eine Bewertung und Beurteilung der Sprachverständlichkeit ermöglichen.

Das wohl intuitivste akustische Merkmal eines Raumes ist seine Halligkeit, also die Zeitdauer vom Ende eines Schallereignisses bis zu dessen Abklingen, also bis es für das menschliche Gehör nicht mehr wahrnehmbar ist. Verfügt ein Raum über eine lange solche Zeitdauer, so wird er als hallig empfunden und bei schnellem Abklingen als trocken. Um diese Eigenschaft zwischen verschiedenen Räumen vergleichbar zu gestalten, definierte Wallace Clement Sabine die sogenannte Nachhallzeit (Reverberation Time 60 oder auch RT60).

Als alleiniges Kriterium zur Bewertung der Sprachverständlichkeit genügt die Nachhallzeit jedoch nicht, da sie die Stärke sogenannter früher Reflexionen nicht berücksichtigt. Zur Bewertung dieser Reflexionen werden sogenannte Energiekriterien verwendet, welche den Verlauf der Schallenergien über der Zeit an verschiedenen Positionen im Raum berücksichtigen. Im Folgenden werden die wichtigsten Kriterien für gute Sprachverständlichkeit dargestellt und anschließend erläutert.

Nachhallzeit RT60

Das älteste und zugleich wichtigste Kriterium in der Bewertung der Raumakustik ist die Nachhallzeit RT60 nach W.C.Sabine. Die Nachhallzeit beschreibt die Zeitspanne, in welcher ein akustisches Signal in einem Raum nach Beendigung des Signals benötigt, um 60 dB an Schalldruckpegel zu verlieren. Damit entspricht die Stärke des Signals noch 1/1000 des Ursprungswertes. Bei Messungen der Nachhallzeit in der Praxis wird üblicherweise nur das Absinken des Schalldruckpegels um 20 dB (T20) bzw. 30 dB (T30) gemessen, da der Signal-Rauschabstand meist zu gering für eine Messung mit 60 dB Abfall ist. Des Weiteren wird häufig die sogenannte EDT (Early Decay Time) gemessen, welche einen Abfall von 10 dB misst. Die Messergebnisse werden anschließend auf einen Abfall von 60 dB extrapoliert. Die (T30) ermöglicht zwar die exakteste Hochrechnung, reagiert jedoch am empfindlichsten auf Hintergrundrauschen und Störgeräusche. Daher wird die allgemeine Nachhallzeit üblicherweise mithilfe der T20 bestimmt.

Die EDT ist insofern interessant, da sie in der Lage ist, über den anfänglichen Verlauf des Schalldruckpegels im Raum eine Aussage zu treffen. Nach W.C.Sabine lässt sich die Nachhallzeit wie folgt berechnen:

RT60 = k * V / A [s] mit k = 0,163

Dabei entspricht V dem Raumvolumen in m³ und A der äquivalenten Schallabsorptionsfläche in m².
Da die Nachhallzeit bereits seit vielen Jahrzehnten in der Praxis Einsatz findet, haben sich gesicherte Erfahrungswerte als optimal für den jeweiligen Einsatzzweck herausgestellt. Im folgenden Diagramm sind die Werte für die Nachhallzeit in Abhängigkeit des Nutzungszwecks des Raumes und des Raumvolumens nach DIN 18041 gegeben:

Empfohlene Nachhallzeiten für Musik, Sprache und Unterricht nach Din 18041

Liegt die Nachhallzeit deutlich unterhalb der nach dieser Norm geforderten Zeitdauer, so ist die Akustik zu trocken. Dies führt dazu, dass beim Sprechen eine höhere Lautstärke notwendig ist, da nicht ausreichend unterstützende Reflexionen vorhanden sind. Bei zu langer Nachhallzeit verliert die Sprache hingegen insofern an Qualität, als dass einzelne Silben durch den zu starken Nachhall ineinander übergehen und dadurch an Verständlichkeit verlieren.

Deutlichkeitsgrad- und maß

R.Thiele führte den Deutlichkeitsgrad D50 als raumakustisches Kriterium ein, welches auf dem sogenannten Präzedenz-Effekt (auch bezeichnet als Haas-Effekt) beruht. Trifft innerhalb der ersten 50ms nach der Ankunft des Direktschalls am Gehör dort auch reflektierter Diffusschall ein, so kann unter all dem Diffusschall dennoch die eigentliche Schallquelle lokalisiert werden. Dabei erhöht sich die Lautstärke des Originalsignals mithilfe dieser Reflexionen.

Aufgrund dieses Effekts nimmt die Sprachverständlichkeit im Freifeld mit zunehmender Entfernung schneller ab, als in geschlossenen Räumen. Während in geschlossenen Räumen der durch die zunehmende Entfernung geringere Schalldruckpegel mithilfe der Reflexionen aufgefüllt werden kann, fehlt diese Erhöhung im Freien. Wichtig ist jedoch, dass die Stärke des Diffusschalls nach den angesprochenen 50 ms deutlich abnimmt, ansonsten überlagert sich dieser spätere Nachhall mit dem Originalsignal und verschlechtert dessen Verständlichkeit.

Der Deutlichkeitsgrad setzt nun die Schallenergie, welche innerhalb der ersten 50ms am Gehör eintrifft in Relation mit der insgesamt eintreffenden Schallenergie und ist daher definiert als:

D50 = Integral (0 bis 50 ms) p²(t) dt / Integral (0 bis ∞) p²(t) dt [%] mit dem Schalldruck p und der Zeit t.

Für das Deutlichkeitsmaß (auch Klarheit) C50 gilt:

C50 = 10 * lg (D50 / (1 - D50)) [dB]

Ab einem Wert für Deutlichkeitsgrad D50 > 50% oder einem Deutlichkeitsmaß C50 > 0 dB gilt die Sprachverständlichkeit in einem Raum als gut.

Schwerpunktzeit

Die Schwerpunktzeit TS (Center Time) nach Kürer entspricht der Zeit, nach welcher die bereits eingetroffene Schallenergie gleich der Schallenergie ist, welche nach TS nocht folgt. Sie unterscheidet sich damit insbesondere von den anderen beiden Energiekriterien D50 und C50, da sie keine scharfe Zeitgrenze zwischen den frühen und den späten Reflexionen setzt. Damit entspricht sie eher der tatsächlichen Schallwirkung in der Praxis. Die Schwerpunktzeit kann nach Cremer als Bewertung der Deutlichkeit und Klarheit von Sprache verwendet werden und übertrifft in der Korrelation sogar den Deutlichkeitsgrad. Für eine gute Sprachverständlichkeit sollte bei vier Oktaven zwischen 500 Hz und 4000 Hz gelten: 60 ms < TS < 80 ms.
Formal lässt sich die Schwerpunktzeit folgendermaßen beschreiben:

TS = Integral (0 bis ∞) t * p²(t) dt / Integral (0 bis ∞) p²(t) dt [ms]

Artikulationsverlust

Bei der Bewertung der Qualität menschlicher Sprache spielt die gute Verständlichkeit von hintereinander gesprochenen Konsonanten eine große Rolle. Diese lässt sich mithilfe des Artikulationsverlusts ALcon darstellen. Der Artikulationsverlust wird wie folgt berechnet:

ALcon = 0,652 * (d / r_h)² * T [%]

wobei gilt:

r_h = 0,141 * Wurzeil (A)
A = Äquivalente Schallabsorptionsfläche
d = Abstand Quelle-Empfänger in Metern
T = Nachhallzeit

Die Verständlichkeit ist für:
ALcon > 20% nicht gegeben,
ALcon < 15% normal,
ALcon < 10% gut und,
ALcon < 2% sehr gut.

Sprachübertragungsindizes

Als weiteres sehr gutes Instrument zur Bewertung der Sprachverständlichkeit wurde in der DIN ISO 9921 der sogenannte Speech Transmission Index (Sprachübertragungsindex (STI)) definiert. Er dient rein zur Bewertung der Sprachverständlichkeit und basiert auf der Auswertung des Modulationsübertragungsindex.

Menschliche Sprecher modulieren ihre Sprache (größter Anteil zwischen 125 Hz und 8000 Hz) mit Frequenzen zwischen 0,1 Hz und 24 Hz wobei der Bereich zwischen 0,63 Hz und 12,5 Hz hinreichend repräsentativ ist. Daher wird beim STI über sieben Oktavbänder (von 125 Hz bis 8000 Hz) mit jeweils 14 Modulationsfrequenzen (Terzbänder von 0,63 Hz bis 12,5 Hz) der Modulationsübertragungsindex bestimmt. Daraus lässt sich anschließend durch Gewichtung und Mittelung der STI berechnen. Die Bewertung der Sprachverständlichkeit durch den STI wird folgendermaßen vorgenommen:

0 bis 0,3 unverständlich
0,3 bis 0,45 schlecht
0,45 bis 0,6 genügend
0,6 bis 0,75 gut
0,75 bis 1,0 ausgezeichnet

Da somit für die Bestimmung des STI 7 * 14 = 98 Messungen notwendig sind, wurde mit dem RASTI (Rapid Speech Transmission Index) ein vereinfachtes Verfahren entwickelt. Dieses verwendet lediglich zwei Oktavbänder (500 Hz und 2000 Hz) und dafür jeweils nur neun Modulationsfrequenzen. Der RASTI verliert jedoch zunehmend an Bedeutung, da seine Aussagekraft gegenüber dem STI deutlich geringer ist. Die für den RASTI geltenden Einschränkungen können der Verfahrensbeschreibung in der DIN EN 60268 entnommen werden.

Zurück zu Wissenswertes