Googles Künstliche Intelligenz 25.11.2016, 13:11 Uhr

DeepMind schlägt menschlichen Lippenleser 4:1

Googles neuronales Netzwerk DeepMind hat mal wieder seine menschlichen Kollegen überholt: Die künstliche Intelligenz erkennt viermal so viele Wörter an den Mundbewegungen wie ein menschlicher Lippenleser. Gelernt hat DeepMind diese Fähigkeit allein durch Fernsehen. Fast sieben Monate hing es dafür vor der Glotze. 

Googles Künstliche Intelligenz DeepMind hat sich 5.000 Stunden lang Talkshows im Fernsehen angeschaut – und konnte danach viel besser von den Lippen ablesen als ein darin ausgebildeter Mensch.

Googles Künstliche Intelligenz DeepMind hat sich 5.000 Stunden lang Talkshows im Fernsehen angeschaut – und konnte danach viel besser von den Lippen ablesen als ein darin ausgebildeter Mensch.

Foto: GoogleWatchBlog

Und Fernsehen ist doch nützlich – zumindest für Googles neuronales Netzwerk DeepMind. Die Künstliche Intelligenz kann nun nach 5.000 Stunden TV-Dauerkonsum besser Lippenlesen als ein Mensch, der eine professionelle Ausbildung in diesem Bereich hat. Immerhin fast jedes zweite Wort kann der Computer allein anhand der Lippenbewegungen erkennen.

Beigebracht hat er sich diese Fähigkeit an der Universität Oxford mithilfe des selbstlernenden Systems „Watch, Listen, Attend and Spell“, zu Deutsch: „Beobachte, höre zu, nimm teil und buchstabiere“. Der Name ist dabei Programm. DeepMind wurde vor Nachrichtensendungen, Magazine und politische Diskussionssendungen der BBC aus den Jahren 2012 bis 2015 gesetzt – alles Formate, in denen Menschen tendenziell direkt in die Kamera sprechen, sich dabei aber weitgehend natürlich verhalten.

118.000 Sätze mit 17.500 verschiedenen Wörtern

So konnte die künstliche Intelligenz realitätsnah Wörter und Mundbewegung miteinander kombinieren. Die Menge, die sie dabei aufnahm, ist enorm: 118.000 Sätze mit 17.500 verschiedenen Wörtern beinhalteten die Sendungen insgesamt, so die Forscher. Diese griffen während der Lernphase übrigens nicht korrigierend ein: „Watch, Listen, Attend and Spell“ lernt tatsächlich autonom.

Die Arbeit der Wissenschaftler lag daher im Vorfeld. Unter anderem war es ganz und gar nicht egal, was genau DeepMind so im Laufe seines immerhin 208 Tage währenden Fernseh-Marathons aufsaugte – die Maschine einfach vor irgendwelchen Aufzeichnungen zu parken, wäre nicht zielführend gewesen. Der Grund: Ton und Bild sind vor allem bei älterem Material oft geringfügig gegeneinander verschoben. Obwohl es sich dabei nur um kleinste Abweichungen von wenigen Millisekunden handelt, hätte das gereicht, um den Computer zu verwirren und das Ergebnis zu verfälschen. Deshalb hatten die Forscher vors Lernen das Korrigieren der Synchronität gesetzt.

Stellenangebote im Bereich Automatisierungstechnik

Automatisierungstechnik Jobs
Netzgesellschaft Potsdam GmbH-Firmenlogo
Projektingenieur (m/w/d) Energietechnik - Umspannwerke/Hochspannungsfreileitung - Netzgesellschaft Potsdam GmbH
Potsdam Zum Job 
Nash - Zweigniederlassung der Gardner Denver Deutschland GmbH-Firmenlogo
Teamleiter Development Engineering / Entwicklungsingenieur (m/w/d) Nash - Zweigniederlassung der Gardner Denver Deutschland GmbH
Nürnberg, Homeoffice möglich Zum Job 
Albtal-Verkehrs-Gesellschaft mbH-Firmenlogo
Projektleiter*in Elektrotechnik Verkehrsanlagen (m/w/d) Elektroingenieur*in oder Techniker*in Albtal-Verkehrs-Gesellschaft mbH
Karlsruhe Zum Job 
Die Autobahn GmbH des Bundes Niederlassung Nordbayern-Firmenlogo
Ingenieur Elektrotechnik / Bauingenieur (w/m/d) Ladeinfrastruktur Die Autobahn GmbH des Bundes Niederlassung Nordbayern
Nürnberg Zum Job 
Bayerisches Staatsministerium für Wohnen, Bau und Verkehr-Firmenlogo
Traineeprogramm - Bachelor Fachrichtung Maschinenbau / Energie- und Gebäudetechnik (m/w/d) Bayerisches Staatsministerium für Wohnen, Bau und Verkehr
bayernweit Zum Job 
Bayerisches Staatsministerium für Wohnen, Bau und Verkehr-Firmenlogo
Traineeprogramm - Bachelor Fachrichtung Maschinenbau / Energie- und Gebäudetechnik (m/w/d) Bayerisches Staatsministerium für Wohnen, Bau und Verkehr
Nord-Micro GmbH & Co. OHGa part of Collins Aerospace-Firmenlogo
Projekt- / Produktingenieur (m/w/d) Nord-Micro GmbH & Co. OHGa part of Collins Aerospace
Frankfurt am Main Zum Job 
B.Braun Melsungen AG-Firmenlogo
Verpackungsentwicklungsingenieur (w/m/d) Pharma B.Braun Melsungen AG
Melsungen Zum Job 
Fresenius Kabi-Firmenlogo
Instandhalter (m/w/d) Prozesstechnik - API Herstellung Fischöl Fresenius Kabi
Friedberg (Hessen) Zum Job 
B. Braun Melsungen AG-Firmenlogo
Project Manager (w/m/d) Pre-Development B. Braun Melsungen AG
Melsungen Zum Job 
B. Braun Melsungen AG-Firmenlogo
R&D Manager (w/m/d) für die Entwicklung von medizinischen Kunststoffeinmalartikeln B. Braun Melsungen AG
Melsungen Zum Job 
Max Dörr GmbH Förderanlagen-Firmenlogo
Konstrukteur (m/w/d) Max Dörr GmbH Förderanlagen
Gemmingen Zum Job 
Hamburger Stadtentwässerung AöR ein Unternehmen von HAMBURG WASSER-Firmenlogo
Ingenieur (m/w/d) Elektrotechnik als Projektleiter Hamburger Stadtentwässerung AöR ein Unternehmen von HAMBURG WASSER
Hamburg Zum Job 
THOST Projektmanagement GmbH-Firmenlogo
Wirtschaftsjurist*in / Ingenieur*in (m/w/d) für Contract & Claimsmanagement in Projektender Energiewende THOST Projektmanagement GmbH
Stuttgart, Mannheim Zum Job 
RES Deutschland GmbH-Firmenlogo
Head of Engineering / Leitung technische Planung Wind- & Solarparks (m/w/d) RES Deutschland GmbH
Vörstetten Zum Job 
MEWA Textil-Service SE & Co. Management OHG-Firmenlogo
Projektmanager (m/w/d) PMO Business Transformation MEWA Textil-Service SE & Co. Management OHG
Wiesbaden Zum Job 
Funke Wärmeaustauscher Apparatebau GmbH-Firmenlogo
Konstruktionsingenieur (m/w/d) Funke Wärmeaustauscher Apparatebau GmbH
Gronau (Leine) Zum Job 
MEWA Textil-Service SE & Co. Management OHG-Firmenlogo
Projektingenieur (m/w/d) Elektrotechnik MEWA Textil-Service SE & Co. Management OHG
Wiesbaden Zum Job 
KÜBLER GmbH-Firmenlogo
Techniker / Ingenieur / Fachplaner / TGA (m/w/d) Heizungstechnik und Elektro KÜBLER GmbH
Ludwigshafen Zum Job 
WPW JENA GmbH-Firmenlogo
Projektingenieur Elektroplanung (m/w/d) WPW JENA GmbH
Jena, hybrides Arbeiten Zum Job 

DeepMind erkennt fast jedes zweite Wort

Der Aufwand hat sich gelohnt: Bei einem Test mit aktuellen Sendungen, die DeepMind komplett ohne Tonspur vorgesetzt wurden, erkannte es immerhin 46,8 % der Wörter – nahezu jedes zweite. Zum Vergleich: Der menschliche Kollege, ein ausgebildeter und geübter Lippenleser, kam auf eine Quote von 12,4 %, also ein knappes Achtel der Wörter. Dass Lippenleser Gesprächen trotzdem zumindest in groben Zügen folgen können, liegt daran, dass sie sich fehlende oder falsch verstandene Begriffe aus dem Kontext erschließen.

Jeden Wunsch von den Lippen ablesen: Das kann Googles künstliche Intelligenz DeepMind besser als Menschen.

Jeden Wunsch von den Lippen ablesen: Das kann Googles künstliche Intelligenz DeepMind besser als Menschen.

Quelle: Rolf Vennenbernd/dpa

Mit seiner beeindruckenden Quote und seinem großen Wortschatz könnte sich DeepMind basierende künstliche Intelligenz zu einer wertvollen Hilfe für Gehörlose oder Schwerhörige mausern, indem sie zum Beispiel Gespräche und Fernsehbeiträge nahezu simultan in Untertitel übersetzt. Englisch kann das System ja bereits, andere Sprachen müsste es erst noch trainieren. Auch Smartphone-Sprachassistenten wie Siri & Co würden profitieren, da sie sich dann auch per Kamera und ohne Mikrophon bedienen ließen.

Geheimdienste horchen auf

Und natürlich sind auch Geheimdienste und Sicherheitsfirmen höchst interessiert an so erfolgreichen und unbestechlichen Lippenlesern wie DeepMind. Dass jedes Supermarkt-Gespräch dabei belauscht werden wird, ist dabei jedoch nicht zu erwarten. Dafür sind die derzeit verwendeten Kameras viel zu unscharf und ihre Bildrate ist zu niedrig.

Im fünften Spiel gab Weltmeister Lee Sedol nach 280 Zügen auf. Die Software gewann das auf fünf Partien angesetzte Match 4:1.

Im fünften Spiel gab Weltmeister Lee Sedol nach 280 Zügen auf. Die Software gewann das auf fünf Partien angesetzte Match 4:1.

Quelle: Yna/dpa

Lesen Sie auch:

Außerdem hätte DeepMind dann keine Zeit mehr fürs Go-Spielen: Erst kürzlich hatte die ebenfalls auf diesem System basierende Software AlphaGo von Google Schlagzeilen damit gemacht, den amtierenden Weltmeister Lee Sedol in dem asiatischen Strategiespiel geschlagen zu haben.

Übrigens ist das Projekt „Lippenlesen“ nicht das erste Mal, dass sich Googles DeepMind mit dem gesprochenen Wort befasst: Die ebenfalls darauf basierende Technologie Wave Net erzeugt Sprache als Wellenform, passt Laute anderen Buchstaben in der Wortumgebung an und klingt dabei nahezu menschlich.

 

Ein Beitrag von:

  • Judith Bexten

    Judith Bexten ist freie Journalistin. Ihre Schwerpunkte liegen in den Bereichen Technik, Logistik und Diversity.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.