Inhaltsverzeichnis:

Menschliche Stimmen Sind Einzigartig, Aber Wir Sind Nicht So Gut Darin, Sie Zu Erkennen
Menschliche Stimmen Sind Einzigartig, Aber Wir Sind Nicht So Gut Darin, Sie Zu Erkennen
Anonim

Die Leute sind gut darin, Stimmen aus der Sprache vertrauter Leute herauszusuchen, aber Zeugenaussagen über die Stimmen von Fremden sind notorisch unzuverlässig und ungenau.

Menschliche Stimmen sind einzigartig, aber wir sind nicht so gut darin, sie zu erkennen
Menschliche Stimmen sind einzigartig, aber wir sind nicht so gut darin, sie zu erkennen

Der folgende Aufsatz wurde mit Genehmigung von The Conversation, einer Online-Publikation mit den neuesten Forschungsergebnissen, abgedruckt.

„Alexa, wer bin ich? "Die sprachgesteuerte virtuelle Assistentin von Amazon Echo, Alexa, hat noch keine Antwort darauf. Für andere Anwendungen der Sprachtechnologie sind Computeralgorithmen jedoch zunehmend in der Lage, Personen anhand von Sprachaufzeichnungen zu unterscheiden, zu erkennen und zu identifizieren.

Natürlich sind diese Algorithmen alles andere als perfekt, wie kürzlich gezeigt wurde, als ein BBC-Journalist mit der Stimme seines Zwillingsbruders auf sein eigenes sprachgesteuertes Bankkonto einbrach. Ist dies ein Fall von Computern, die nur an etwas scheitern, was Menschen perfekt können? Wir beschlossen, es herauszufinden.

Jeder Mensch hat eine Stimme, die sich von der aller anderen unterscheidet. Es scheint also intuitiv zu sein, dass wir jemanden ziemlich leicht anhand seiner Stimme identifizieren können. Aber wie gut kannst du das eigentlich machen? Wenn es darum geht, Ihre engste Familie und Freunde zu erkennen, sind Sie wahrscheinlich ziemlich gut. Aber könnten Sie die Stimme Ihres ersten Grundschullehrers erkennen, wenn Sie sie heute noch einmal hören würden? Wie wäre es mit dem Mann im Zug heute Morgen, der in sein Telefon rief? Was wäre, wenn Sie ihn nicht aus seiner sprechenden Stimme heraussuchen müssten, sondern aus Proben seines Lachens oder Singens?

Bisher hat die Forschung die Wahrnehmung der Sprachidentität nur mit einer begrenzten Anzahl von Lautäußerungen untersucht, z. B. vorgelesene Sätze oder Ausschnitte aus der Konversationssprache. Diese Studien haben gezeigt, dass wir Stimmen der Sprache vertrauter Personen tatsächlich recht gut erkennen können. Sie haben aber auch gezeigt, dass es Probleme gibt: Zeugenaussagen sind notorisch unzuverlässig und ungenau.

Es ist wichtig zu bedenken, dass diese Studien nicht viel von der Flexibilität der Geräusche erfasst haben, die wir mit unseren Stimmen machen können. Dies wird sich zwangsläufig darauf auswirken, wie wir die Identität der Person hinter der Stimme, die wir hören, verarbeiten. Daher fehlt uns derzeit ein sehr großes und wichtiges Puzzleteil.

Das Erkennen von Stimmen erfordert zwei umfassende Prozesse, um zusammenzuarbeiten: Wir müssen zwischen den Stimmen verschiedener Menschen unterscheiden (Menschen auseinanderhalten) und wir müssen in der Lage sein, all den verschiedenen Geräuschen (Sprechen, Lachen, Schreien), die dies können, eine einzige Identität zuzuweisen kommen von derselben Person („Menschen zusammen erzählen“). Wir haben uns vorgenommen, die Grenzen dieser Fähigkeiten beim Menschen zu untersuchen.

Sprachexperiment

Unsere kürzlich im Journal of Experimental Psychology: General veröffentlichte Studie bestätigt, dass die Wahrnehmung der Sprachidentität äußerst schwierig sein kann. Ausgehend davon, wie variabel die Stimme einer einzelnen Person sein kann, präsentierten wir 46 Zuhörern Lachen und Vokale, die von fünf Personen erzeugt wurden. Die Zuhörer wurden gebeten, ein sehr einfaches Urteil über Klangpaare zu fällen: Wurden sie von derselben Person oder von zwei verschiedenen Personen gemacht? Solange sie Vokale mit Vokalen bzw. Lachen mit Lachen vergleichen konnten, war die Unterscheidung zwischen Sprechern relativ erfolgreich.

Als wir unsere Zuhörer jedoch aufforderten, dieses Urteil auf der Grundlage eines gemischten Klangpaares zu treffen, z. B. indem Vokale direkt mit Lachen in einem Paar verglichen wurden, konnten sie überhaupt nicht zwischen Sprechern unterscheiden, insbesondere wenn sie mit dem Sprecher nicht vertraut waren. Obwohl eine Untergruppe von Personen, die die Redner kannten, insgesamt besser abschnitt, hatten sie dennoch erhebliche Probleme mit der Herausforderung, „Menschen zusammen zu erzählen“.

Ähnliche Effekte wurden in Studien berichtet, die beispielsweise zeigen, dass es schwierig ist, einen zweisprachigen Sprecher in beiden Sprachen zu erkennen. Was an diesen Ergebnissen überrascht, ist, wie schlecht die Sprachwahrnehmung sein kann, wenn die Zuhörer natürlichen Variationen in den Klängen ausgesetzt sind, die eine Stimme erzeugen kann. Es ist faszinierend zu bedenken, dass wir zwar alle eine einzigartige Stimme haben, aber noch nicht wissen, wie nützlich diese Einzigartigkeit ist.

Aber warum haben wir uns zu einzigartigen Stimmen entwickelt, wenn wir sie nicht einmal erkennen können? Das ist bisher wirklich eine offene Frage. Wir wissen eigentlich nicht, ob wir uns zu einzigartigen Stimmen entwickelt haben - wir haben auch alle unterschiedliche und weitgehend einzigartige Fingerabdrücke, aber soweit wir das beurteilen können, hat dies keinen evolutionären Vorteil. Es kommt einfach so vor, dass wir alle aufgrund der Unterschiede in der Anatomie und, was wahrscheinlich am wichtigsten ist, wie wir unsere Stimme verwenden, unterschiedlich klingen.

Glücklicherweise können Computeralgorithmen immer noch die Individualität der menschlichen Stimme optimal nutzen. In einigen Fällen haben sie den Menschen wahrscheinlich bereits übertroffen - und sie werden sich weiter verbessern. Die Art und Weise, wie diese Algorithmen für maschinelles Lernen Sprecher erkennen, basiert auf mathematischen Lösungen zur Erstellung von „Voice Prints“- einzigartigen Darstellungen, die die spezifischen akustischen Merkmale jeder einzelnen Stimme erfassen.

Im Gegensatz zu Computern wissen Menschen möglicherweise nicht, worauf sie achten oder wie sie diese akustischen Merkmale trennen können. Die Art und Weise, wie Sprachdrucke für die Algorithmen erstellt werden, ist also nicht eng an das angelehnt, was menschliche Zuhörer zu tun scheinen. Wir arbeiten noch daran. Langfristig wird es interessant sein zu sehen, ob es Überschneidungen in der Art und Weise gibt, wie menschliche Zuhörer und Algorithmen für maschinelles Lernen Stimmen erkennen. Während es unwahrscheinlich ist, dass menschliche Zuhörer Erkenntnisse darüber gewinnen, wie Computer dieses Problem lösen, können wir möglicherweise Maschinen bauen, die effektive Aspekte der menschlichen Leistung emulieren.

Es wird gemunkelt, dass Amazon derzeit daran arbeitet, Alexa beizubringen, wie man bestimmte Benutzer anhand ihrer Stimme identifiziert. Wenn dies funktioniert, wird es eine wirklich beeindruckende Leistung sein und möglicherweise weitere unerwünschte Bestellungen von Puppenhäusern stoppen. Aber seien Sie geduldig, wenn Alexa Fehler macht - möglicherweise können Sie es selbst nicht besser machen.

Beliebt nach Thema