Salienz von Umweltgeräuschen
Zusammenfassung Zur Untersuchung der Salienz von Umweltgeräuschen wurde online ein Experten-Hörversuch durchgeführt. Die Ergebnisse wurden anschließend zur Erstellung eines MATLAB-Modells verwendet, das die Salienz von Umweltgeräuschen ermittelt. Der Begriff Salienz beschreibt das Hervortreten oder Hervorstechen eines bestimmten, in diesem Fall akustischen Merkmals aus einem Kontext. Dem salienten Geräusch einer auditorischen Szene wird dabei eine höhere Aufmerksamkeit entgegengebracht, als den übrigen Geräuschen dieser Szene. Saliente auditorische Objekte werden mittels Bottom-Up-Prozessen aus einer Flut von Informationen dem menschlichen Bewusstsein einfacher zugänglich gemacht. Dabei sind die Merkmale Intensität, zeitlicher und spektraler Kontrast in vielen Publikationen für die Berechnung einer sogenannten Salienzkarte ausschlaggebend. Die Salienzkarte zeigt in einer Zeit-Frequenz-Darstellung die hervorstechenden Segmente der auditorischen Szene. Im Anschluss werden Salienzwerte auf der Basis einer Quellentrennung und der Salienzkarte verteilt. Durch die zusätzliche Betrachtung der Merkmale Periodizität, Fluktuation des Schalldruckpegels im Zeitverlauf, Tonhaltigkeit und Breitbandigkeit wird in diesem Beitrag eine Salienzprognose erstellt.
In einer Umweltumgebung hört der Mensch selten ausschließlich eine Quelle. Häufig ist es ein Gemisch verschiedener Schalle, die das menschliche Ohr erreichen. Dennoch ist der Mensch in der Lage aus diesem Gemisch einzelne Geräusche ihren jeweiligen Geräuschquellen zuzuordnen. Eben dieser Zuordnungsprozess wird dabei von der auditorischen Szenenanalyse beschrieben [1]. Im Rahmen des menschlichen Wahrnehmungsprozesses wird eine auditorische Szene analysiert, wobei verschiedene auditorische Objekte innerhalb der Szene unterschieden werden. Die Aufmerksamkeit, die bestimmten Objekten zugeordnet werden kann und die damit verbundene bewusste kognitive Verarbeitung ist beschränkt. Mehrere Studien zu diesem Thema kommen zu dem Schluss, dass zu jedem Zeitpunkt die Aufmerksamkeit nur einem Objekt zugeordnet werden kann [2]. Der salienzgesteuerte Wahrnehmungsprozess zählt zu den Bottom-Up-Prozessen, da hier das Geräusch aufgrund seiner Eigenschaften die Aufmerksamkeit des Hörers auf sich zieht, während im Rahmen eines Top-Down-Prozesses der Hörer seine Aufmerksamkeit bewusst auf ein Objekt lenkt. Verschiedene akustische Merkmale werden in der Literatur für die unterschiedliche Ausprägung der Salienz von Schallereignissen identifiziert. Insbesondere die Kriterien Lautstärke, zeitlicher und spektraler Kontrast sind maßgeblich für die Salienz von Schallereignissen verantwortlich [3 bis 5].
Hörversuch
Für Akustik-Experten wurde ein Hörversuch erstellt, um die bereits bekannten Merkmale hinsichtlich ihrer Wirkung auf die Salienz im Kontext von Umweltgeräuschen untersuchen zu können. Außerdem sollte überprüft werden, inwiefern weitere Geräuschmerkmale für die Salienz verantwortlich sein können und ob eine Ausprägung in einem einzigen Merkmal ausreichend ist, um ein Objekt als salient klassifizieren zu können. Der Hörversuch wurde online über die Plattform SoSci Survey1) durchgeführt. Dies liefert den Vorteil uneingeschränkter Verbreitung und die Möglichkeit, örtlich unabhängig mehrere Experten zu akquirieren. Außerdem sollte die Eignung eines webbasierten Hörversuchs für derartige Fragestellungen überprüft werden. Mit einem Online-Hörversuch gehen allerdings auch Nachteile einher: Die Wiedergabe von Audioinhalten ist nicht kalibriert, verschiedene Kopfhörer mit verschiedenen Wiedergabesystemen führen zu unterschiedlichen physikalisch evozierten Reizen und zuletzt divergieren die räumlichen Gegebenheiten bei den Versuchsteilnehmern vor Ort. Um eine Vergleichbarkeit herzustellen, wurde bei dieser Wahrnehmungsaufgabe die Hörschwelle der jeweiligen Testperson als Bezugspunkt gewählt. Jeder Proband musste vor Beginn des eigentlichen Hörversuchs mit einem Referenzklang sein Wiedergabesystem so einstellen, dass der Referenzreiz gerade noch wahrgenommen werden konnte. Als Referenzklang wurde ein Glockenklingeln ausgewählt, das abwechselnd in zwei verschiedenen Pegelstufen mit einem Unterschied von 3 dB abgespielt wurde. So sollte der lautere der beiden Klänge gerade noch wahrgenommen werden – unter besonderer Berücksichtigung der Transienten – der leisere Klang jedoch nicht mehr hörbar sein. Von den Versuchspersonen wurde weiterhin erwartet, dass sie sich für die Hörversuchsdurchführung in einem ruhigen Raum befanden, geschlossene Kopfhörer verwendeten und eine stufenlos einstellbare, möglichst als USB-Interface ausgeführte Wiedergabeeinheit nutzten, um den Pegel für die Hörschwelle genau einstellen zu können. Nachdem die Versuchsperson die Pegeleinstellung mittels Referenzklang durchgeführt hatte, folgte der eigentliche Versuchsteil. In diesem wurden dem Probanden neun auditorische Szenen, bestehend aus je drei Geräuschen, vorgestellt. Die Geräusche waren allesamt Umweltgeräusche sowohl technischer als auch natürlicher Herkunft (Tabellen 1 und 2).
Es wurden keine synthetischen Stimuli, wie Rauschen oder Sweeps, verwendet. Zum Teil wurden dabei Geräusche aus einer Geräuschdatenbank eingesetzt. Die Geräusche Drucker, Tastatur und Computermaus wurden zusätzlich monofon aufgezeichnet. Drei der insgesamt neun auditorischen Szenen beinhalten Geräusche eines spezifischen Geräuschcharakters (impulshaft, rauschhaft, tonal, Tabelle 2).
Die übrigen sechs Szenen wurden in je drei Varianten realisiert. Dazu wurde je ein Stimulus aus einer Szene im Schalldruckpegel, zeitlich oder spektral variiert. Durch drei Variationsstufen wurden insgesamt 21 Stimuli mit einer Länge von je 12 s dargeboten. Nachdem die Versuchsteilnehmer das hervortretende (saliente) Geräusch bestimmt hatten, erhielten sie die Aufgabe, die Stimuli bezüglich folgender Punkte auf einer rasterlosen Skala mittels eines Schiebereglers zu bewerten:
Empfundene Lautheit des hervortretenden Geräuschs (Extrema: laut/leise),
Fragestellung: „Wie stark ist der spektrale Unterschied zwischen dem ausschlaggebenden Geräusch und den übrigen Geräuschen?“ (Extrema: schwach/stark),
Fragestellung: „Wie stark hat sich das ausschlaggebende Geräusch zeitlich von den übrigen Geräuschen abgehoben?“ (Extrema: schwach/stark).
Abschließend sollte in einem Freitextfeld die Wahl des salienten Geräuschs mit kurzen Stichpunkten begründet werden. In Bild 1 ist eine beispielhaft ausgefüllte Fragebogenseite zu sehen. Die Stimuli wurden randomisiert wiedergegeben, um Sequenzeffekte zu vermeiden.
Hörversuchsergebnisse und Beobachtungen
Der Hörversuch war im Zeitraum von Oktober 2016 bis Ende November 2016 online für die Durchführung freigeschaltet. Sechs Experten führten den Versuch vollständig durch ( Alter: 40,5, SD: 10,7). Aufgrund der kleinen Stichprobe ist eine statistisch aussagekräftige Auswertung nicht möglich und sinnvoll. Allerdings kann auf der Basis der gewonnenen Erkenntnisse eine Tendenz sichtbar gemacht werden. Es zeigte sich, dass die Versuchsteilnehmer die Salienz bestimmter Geräusche kollektiv oder mehrheitlich übereinstimmend beurteilten. Die Begründung für diese Auswahl findet sich in den schriftlichen Stichworten und der Korrelation mit den psychoakustischen Größen Lautheit und Schärfe und der ermittelten Größe Tonhaltigkeit wieder. Insbesondere die Geräusche Singvogel, Lüfter und Telefon (vgl. Tabelle 1) erwiesen sich aufgrund ihrer hohen Lautheit als salient. Die ebenfalls als salient identifizierten Reize Lüfter, Glocke und Telefon weisen hingegen eine hohe Tonhaltigkeit (L nach DIN 45681 [6]) in ihren Szenen auf. Viele Stimuli, die als hervorstechend gekennzeichnet wurden, wurden in der textlichen Begründung mit den Worten „periodisch“, „An- und Ausschalten“ sowie „Fluktuation“ beschrieben. Auf der Basis der aus dem Hörversuch abgeleiteten Erkenntnisse und dem Wissen aus [4; 5] lässt sich ein Modell für die Berechnung der Salienz von Umweltgeräuschen erstellen.
Das Modell
Basierend auf den Erkenntnissen aus [4] wurde für die Ermittlung der salienten Anteile in einer auditorischen Szene im ersten Schritt eine gehörgerechte Vorverarbeitung des Signals durchgeführt. Dabei wird das monaurale Signal mittels einer Gammatone-Filterbank in Frequenzgruppen gleichmäßig entlang der ERB-Skala im hörbaren Bereich zwischen 20 Hz und 20 kHz aufgeteilt. Auf der Basis des gefilterten Signals wird mittels des von Kayser et al. [5] bereitgestellten und leicht modifizierten MATLAB-Skripts eine Salienzkarte gebildet. Die Merkmale Intensität, zeitlicher und spektraler Kontrast werden durch speziell dafür angepasste Filter extrahiert, sodass eine Salienzkarte in einer Zeit-Frequenz-Darstellung vorliegt. Darin werden die Stellen aus der auditorischen Szene farblich hervorgehoben, die in einem der genannten Merkmale hervorstechen. In Bild 2 ist die Salienzkarte der auditorischen Szene mit den Geräuschen Singvogel, Grill und Verkehr zu sehen.
Parallel zur Erstellung der Salienzkarte wird unter Verwendung der MATLAB-Toolbox des Institute of Sound and Recording eine Quellentrennung durch binäre Masken für jedes einzelne Geräusch erstellt [7]. Dabei wird jeweils das Zielgeräusch für die Maske mit den übrigen Geräuschen in jedem Zeit-Frequenz-Block miteinander verglichen, um anschließend auf der Basis der darin vorhandenen Energie zu entscheiden, ob das Zielgeräusch eine 1 (höhere Energie im Zielgeräusch) oder eine 0 (höhere Energie im Störgeräusch) erhält.
Bild 3 zeigt die binäre Maske des Singvogels gegenüber den übrigen Geräuschen seiner Szene. Eine Schwierigkeit bei der Verwendung solcher Masken sind rauschhafte, in der Frequenzverteilung breitbandige Geräusche. Diesen werden aufgrund ihrer höheren Energiedichte viele Zeit-Frequenz-Felder in den Masken zugeordnet, die in der Weiterverarbeitung zu erhöhten Salienzwerten führen. In den meisten Fällen sind diese breitbandigen Geräusche jedoch nicht salient. Geräusche, wie das des Singvogels, sind zeitlich fluktuierend und können nur während des Vorhandenseins in der Szene Salienzpunkte sammeln, während rauschhafte statische Geräusche dauerhaft vorhanden sind und somit über einen längeren Zeitraum Salienzpunkte aufsummieren. Eine Möglichkeit zur Verbesserung der Quellentrennung ist die binaurale Verarbeitung der Signale. Je mehr Empfänger für ein aus einzelnen Geräuschen kombiniertes Signal vorhanden sind, desto erfolgreicher ist die anschließende Verarbeitung und Zuordnung zur jeweiligen Ursprungsquelle und somit die Quellentrennung. Im Rahmen der computergestützten auditorischen Szenenanalyse dürfen jedoch nicht mehr als zwei Mikrofone genutzt werden [8].
Nach Erstellung der binären Masken und der Salienzkarte erfolgt die Berechnung der Salienzmaske. Diese ist das Ergebnis der Multiplikation einer jeweiligen binären Maske mit der Salienzkarte. So entsteht eine Zeit-Frequenz-Darstellung mit Kennzeichnung der hervorstechenden Anteile eines jeden auditorischen Objekts.
In Bild 4 wird die Salienzmaske des Singvogels aus der oben beschriebenen auditorischen Szene dargestellt. Auf der Basis der Salienzmaske wird der Salienzwert berechnet. Dazu wird bei Vorliegen eines Signalanteils in einem Zeit-Frequenz-Block in der Salienzmaske der Wert 1 vergeben. Anschließend wird innerhalb der nun entstandenen Matrix entlang der einzelnen Frequenzgruppen aufaddiert und durch die Länge des Frequenzvektors geteilt, sodass ein Salienzwert im Zeitverlauf vorliegt. Um einen Einzahlwert für die Salienz zu erhalten (Gesamtsalienzwert), wird entlang des Zeitvektors aufaddiert und durch die Dauer dividiert. Die Werte liegen dabei im Bereich zwischen 0 und 1. Das auditorische Objekt mit dem höchsten Gesamtsalienzwert wird als hervorstechendes Objekt der auditorischen Szene prognostiziert.
Mittels einer Resynthese, die durch die Anwendung der Salienzmaske auf die gesamte auditorische Szene generiert wird, kann überprüft werden, welche Geräuschkomponenten sich tatsächlich innerhalb der Salienzmaske befinden. Aufgrund der monauralen Verarbeitung und des rauschhaften Charakters verschiedener Geräusche gibt es Geräuschkomponenten anderer auditorischer Objekte innerhalb des resynthetisierten Objekts. Auch die partielle Maskierung spielt in diesem Fall eine Rolle. Durch diese Feststellung bedarf es einer Korrektur des Gesamtsalienzwerts und somit einer Optimierung der Salienzprognose.
Extraktion weiterer Geräuschmerkmale
Um die vorgenannten Effekte auszugleichen, wurden die weiteren Merkmale Periodizität, Fluktuation des Schalldruckpegels im Zeitverlauf, Tonhaltigkeit und Breitbandigkeit zur Berechnung der Salienzprognose herangezogen. Diese Merkmale schaffen Korrekturfaktoren für den Gesamtsalienzwert, basierend auf den Hörversuchsergebnissen.
Die Periodizität wird mittels einer Autokorrelationsfunktion untersucht. Wird ein festgelegter Wert innerhalb des Ergebnisses der Autokorrelationsfunktion überschritten, wird eine Aufwertung für die Periodizität zum Gesamtsalienzwert hinzugefügt. Diese ist abhängig vom Ergebnis der Autokorrelation und kann Werte zwischen 0 und 0,2 annehmen. Durch eine periodische Amplitudenmodulation im Geräusch des Lüfters aus dem Hörversuch, erhielt dieser beispielsweise eine Aufwertung von ca. 0,14 Salienzpunkten.
Die Fluktuation des Schalldruckpegels im Zeitverlauf wird mithilfe der Ableitung des Schalldruckpegelverlaufs nach der Zeit berechnet. Dabei wird untersucht, ob innerhalb eines Zeitfensters größere Abweichungen innerhalb der Ableitung zustandekommen. Falls dies der Fall ist, wird eine Aufwertung von 0,1 Punkten auf den Gesamtsalienzwert des jeweiligen auditorischen Objekts berechnet. Die Metrik zur Berechnung der psychoakustischen Schwankungsstärke wurde ebenfalls zur Untersuchung der Fluktuation herangezogen, liefert allerdings für diese Art von Umweltgeräuschen keine aussagekräftigen Zahlenwerte, da die verwendeten Reize keiner regelmäßigen Amplituden- oder Frequenzmodulation unterlagen. Ein fluktuierendes Geräusch muss dabei nicht zwangsläufig periodisch sein. Der Singvogel aus dem Hörversuch lässt seine Stimme beispielsweise unregelmäßig ertönen. Dadurch erhielt dieses Geräusch eine Aufwertung für diesen Parameter. Der Schalldruckpegelverlauf und die daraus resultierende Ableitung finden sich in Bild 5 wieder.
Für die Auswertung der Tonhaltigkeit wurde das PATool der Universität Erlangen-Nürnberg eingesetzt [9]. Die Tonhaltigkeit L wird nach DIN 45681 berechnet [6]. Ab einem Wert von L = 3 dB bis zu einem Wert von 12 dB werden Tonhaltigkeitszuschläge auf den Gesamtsalienzwert mit 1/60 L berechnet. Bei L 12 dB bleibt eine Aufwertung des Gesamtsalienzwerts des auditorischen Objekts von maximal möglichen 0,2 Salienzpunkten bestehen. Das Glockenklingeln aus dem Hörversuch lag beispielsweise bei einem L von 27 dB und wurde dadurch um 0,2 Salienzpunkte aufgewertet.
Abschließend wird die Breitbandigkeit der Signale betrachtet. Breitbandige Geräusche sind in der Betrachtung der Salienz von Nachteil, da sie den Inhalt des Zielgeräuschs partiell verdecken oder Zeit-Frequenz-Blöcke in der Quellentrennung für sich beanspruchen, die ihnen, aus Sicht der Salienz, nicht zustehen. Um die Breitbandigkeit zu betrachten, wird die Signalenergie pro ERB-Band betrachtet. Dazu wird mittels einer Gammatone-Filterbank jedes vorhandene Geräusch gefiltert. Um ein rauschhaftes Geräusch zu detektieren, wird das Verhältnis der Energie zweier aufeinanderfolgender Frequenzbänder verglichen. Ist das Verhältnis der Energie in vier aufeinanderfolgenden Bändern hoch, so kann davon ausgegangen werden, dass das Geräusch breitbandig ist. Die Anzahl aufeinanderfolgender Bänder ist ausschlaggebend für die Abwertung auf den Gesamtsalienzwert.
Fazit und Ausblick
Ein Objekt, das innerhalb einer auditorischen Szene als hervorstechend wahrgenommen wird, soll durch das vorgestellte Modell mit dem höchsten Salienzwert dieses Szenarios beziffert werden. Dazu wird die Salienzkarte nach [4; 5] genutzt. Unter Berücksichtigung der zusätzlich hinzugefügten Merkmale Periodizität, Fluktuation des Schalldruckpegels im Zeitverlauf, Tonhaltigkeit und Breitbandigkeit wird eine Salienzprognose anhand eines Gesamtsalienzwerts erstellt. Die Modellprognose spiegelt die Ergebnisse des Hörversuchs bei den einstimmig gewählten Geräuschen, abgesehen von einer Szene, korrekt wider. Optimierungspotenzial besteht bei der Quellentrennung aufgrund der monauralen Verarbeitung und den daraus resultierenden Verdeckungseffekten. Darüber hinaus gilt es, das Modell anhand von weiteren auditorischen Szenen mit anderen, nicht im Hörversuch verwendeten Geräuscharten zu validieren.
Weitere zusätzliche Merkmale zur Salienzdetektion wurden bereits in [10; 11] diskutiert. So konnte auch unter Berücksichtigung der Erkenntnisse aus [4; 10; 11] die Aussage bestätigt werden, dass eine Ausprägung in ausschließlich einem Merkmal nicht für die Erzeugung einer Salienz verantwortlich sein kann. Beispielsweise konnte in [11] ein aus der Psychoakustik bereits bekannter Zusammenhang zwischen der Tonhöhe und der Lautheit eines Signals als ausschlaggebend für die Salienz nachgewiesen werden. Das Zusammenspiel der gesamten auditorischen Szene und die Ausprägung unterschiedlicher Merkmale bestimmt, welches Geräusch innerhalb der Szene als salient wahrgenommen wird. Wechselwirkungen mit visuellen Stimuli und anderen sensorischen Eindrücken können Einfluss auf die auditive Salienz haben [4]. Dennoch ist es wichtig, die menschlichen Wahrnehmungsprozesse zu unterteilen, um die einzelnen Bestandteile der Wahrnehmung besser verstehen zu können und anschließend in einem Modell zu vereinen. Aktuelle Forschungserkenntnisse im Bereich der auditiven Aufmerksamkeit werden in [12] zusammengefasst. So wird auch darüber berichtet, dass es, im Gegensatz zur visuellen Salienz, schwierig ist, auditorische Aufmerksamkeitsmodelle zu validieren, da keine einheitliche Salienzmetrik vorhanden ist [12]. Im visuellen Bereich kann mittels Eye-Tracking nachverfolgt werden, welche Bildbereiche hervorstechen, während auditive Aufmerksamkeit nur mit Unterstützung eines Fragebogens abgefragt werden kann oder mithilfe physiologischer Messungen versucht wird, eine Aussage darüber zu treffen.
Für die Optimierung der auditorischen Salienzprognose sollten weitere Hörversuche mit neuen Szenen durchgeführt werden, um die experimentell hinzugefügten Merkmale zu evaluieren. Eine Möglichkeit wäre beispielsweise die genauere Untersuchung des Einflusses der Fluktuation des Schalldruckpegels auf die Salienz. Dabei könnte, in Anlehnung an die Versuchsmethodik aus [5], ein stationäres Geräusch in einem Hintergrundgeräusch eingebettet werden und in seinem zeitlichen Pegelverlauf in verschiedenen Stufen variiert werden, um die Salienzschwelle für fluktuierende Geräusche zu finden. Zur Untersuchung des Einflusses der Tonhaltigkeit auf die Salienz, könnte ein ähnliches Verfahren genutzt werden. Dabei wird lediglich der Pegel in einem Terzband so lange variiert, bis eine Salienz eintritt. Hintergrundgeräusche können dabei beispielsweise verschiedenen Alltagsgeräuschumgebungen entnommen werden, um möglichst realistische auditorische Szenen zu schaffen. Zusätzlich können durch folgende Versuche Verknüpfungen zwischen verschiedenen Merkmalen überprüft sowie weitere Merkmale auf ihren Einfluss auf die Salienz getestet werden. Kommende Fragestellungen können sein: Welchen Einfluss hat die Angenehmheit oder Lästigkeit eines Geräuschs auf die Salienz? Rezipieren lärmempfindliche Personen andere auditorische Objekte als hervorstechend? Diese und viele weitere Fragestellungen gilt es noch zu klären, damit ein stabiles und statistisch geprüftes Modell eine Salienzprognose erstellen kann. Salienzmodelle können beispielsweise bei der Erstellung einer virtuellen Umgebung vorab eine Prognose über die saliente Quelle liefern. Ein anderes Anwendungsfeld wäre die Identifizierung salienter Quellen bei der Beurteilung von Lärmsituationen.
1) www.soscisurvey.de
Jan Selzer, M.Sc., Institut für Arbeitsschutz der Deutschen Gesetzlichen Unfallversicherung, Sankt Augustin und ehem. Wissenschaftliche Hilfskraft und Masterand, Institute of Sound and Vibration Engineering, Hochschule Düsseldorf. Prof. Dr.-Ing. Jörg Becker-Schweitzer und Dipl.-Ing. Sabrina Skoda, Institute of Sound and Vibration Engineering, Hochschule Düsseldorf. Prof. Dr. Michael Oehler, Institut für Musikwissenschaft und Musikpädagogik, Universität Osnabrück.