KI erkennt Emotionen in Audioaufnahmen

Durch die Tonlage unserer Stimme geben wir nicht nur Inhalt weiter sondern auch Emotionen Preis. Neben Alter und Geschlecht lassen sich Aussagen über das Stressniveau sowie die sonstige körperliche Verfassung treffen. Die Auswertung dieser Informationen birgt ein hohes Geschäftspotential, weshalb sich viele Firmen für das Thema interessieren. Die eigentliche Analyse der Stimmmuster durch eine KI (Künstliche Intelligenz) findet meist dezentral in der Cloud statt.

Ein erster Patentantrag von Amazon, der die Stimme als Indikator für den Gesundheitszustand nennt, wurde schon im März 2017 eingereicht. Ein denkbarer Nutzen wären direkt passende Werbeangebote zugeschnitten auf die jeweiligen aktuellen Bedürfnisse. So ließe sich bei einer vermuteten Erkältung direkt eine Werbebanner für Medizin schalten.

Um diese Beeinträchtigung der Privatsphäre einzudämmen, müsste man für Sprachassistenten eine künstliche Stimme ohne emotionale Merkmale verwenden. Ein Team um Forscherin Ranya Aloufi hat mehrere Sprachaufnahmen verschiedener Sprecher gesammelt und genau diese Merkmale definiert. Auf Basis dieser Erkenntnisse generierten die Forscher mit Hilfe eines Sprachsynthesizers eine Stimme, die kaum noch Emotionen erahnen lässt. Laut den Ergebnissen des Teams sinkt durch den verwendeten Synthesizer die Worterkennung durch die Google Speech-to-Text API allerdings um 35 Prozent.