Von Alexander Armbruster.
Er gehört zu den Pionieren des Deep Learning, wurde mit dem Turing-Award ausgezeichnet und von Mark Zuckerberg persönlich angeworben: Yann LeCun forscht für Facebook und an der New York University NYU – und sagt, was ihn derzeit am meisten in der KI fasziniert.
Herr Professor LeCun, welche Künstliche Intelligenz hat Sie in letzter Zeit am meisten beeindruckt?
Eigentlich ist es kein spezielles System, sondern ein konzeptioneller Fortschritt, der die Tür zu neuer Forschung und neuen Möglichkeiten für KI-Systeme öffnet. Es nennt sich „selbstüberwachtes Lernen“ (self-supervised Learning), wovon ich schon lange ein großer Verfechter bin. Es geht darum, dass Computer lernen, die Welt zu repräsentieren oder Daten zu repräsentieren, ohne notwendigerweise für eine bestimmte Aufgabe trainiert zu werden – sondern allein auf der Grundlage der Struktur der Welt und der Daten.
Viele Menschen kennen mittlerweile eine gängige Idee hinter Deep Learning, sie wissen, dass Modelle mit vielen Daten trainiert werden, dass man ihnen etwa ein Bild von einer Katze zeigt und zugleich mitteilt, dass das eine Katze ist – und dann lernt das Modell das durch unzählige Beispiele, was Fachleute „überwachtes Lernen“ (supervised Learning) nennen. Was ist der grundlegende Unterschied dazu?
Beim überwachten Lernen sagen Sie dem Computer, was die richtige Antwort ist für jede Eingabe, die Sie ihm zeigen. Und in der Regel kommt diese richtige Antwort aus von Menschen markierten Daten. Sie können das mit Bildern machen oder für Übersetzungen, dann benötigen Sie eine Menge paralleler Texte von einer Sprache zur anderen, den gleichen Text in zwei verschiedenen Sprachen. Sie können das machen, um Inhalte zu filtern, um Hassreden oder Gewalt zu erkennen. Fünfundneunzig Prozent der KI-Anwendungen, die Sie heute sehen, basieren auf diesem überwachten Lernen. Und dann gibt es noch eine andere Art des Lernens, das bestärkende Lernen (reinforcement Learning), die in der Presse viel Aufmerksamkeit erregt.
Zum Beispiel wegen der Computer-Erfolge im Schach oder Go.
Ja. Doch es hat heute nicht annähernd so viele praktische Anwendungen, und es ist sogar weniger effizient als überwachtes Lernen. Sie brauchen niemanden, der die Daten beschriftet. Sie sagen der Maschine nur, ob die Ausgaben, die sie produziert hat, richtig waren oder nicht. Das funktioniert sehr gut, um Spiele zu lernen, Poker, Go, Schach oder Videospiele. Aber es funktioniert nur bei Spielen.
Warum?
Weil wir nicht wissen, wie wir das in der realen Welt zum Laufen bringen können. In der realen Welt würde diese Methoden zu viele Versuche erfordern, bis das System überhaupt etwas Nützliches lernt. Wenn Sie ein Auto mit Hilfe des bestärkenden Lernens dazu bringen wollen, alleine zu fahren, müssten Sie es Millionen Stunden trainieren und es würde zehntausende Male zu Schaden kommen, bevor es etwas Gutes lernt.
Also ist das nicht die Lösung?
Das große Rätsel lautet: Wie kommt es, dass Menschen, dass Babys lernen können, wie die Welt funktioniert? Im Alter von neun Monaten haben sie herausgefunden, dass Objekte, die nicht gestützt werden, aufgrund der Schwerkraft fallen. Sie bauen eine Art intuitives Modell der Welt auf, das ihnen ermöglicht, wenn sie 18 Jahre alt sind, kein Auto von einer Klippe fahren zu müssen, um herauszufinden, dass dies eine schlechte Idee ist. Die Frage ist also, welche Art des Lernens Menschen und Tiere verwenden, um die Welt im Grunde unabhängig von einer Aufgabe zu verstehen, nur durch Beobachten, sodass sie, wenn sie eine neue Aufgabe lernen müssen, diese extrem schnell mit nur wenigen Beispielen oder wenigen Versuchen lernen können – und ohne sich dabei umzubringen.
Gewaltige Datenmengen braucht es aber auch für das von Ihnen beschriebene selbstüberwachte Lernen.
Sie haben nur Eingabedaten. Sie haben weder Labels, die von Menschen bereitgestellt werden, noch Ausgaben, die von Menschen bereitgestellt werden. Und Sie arbeiten mit Vorhersagen, mit einer alten Idee aus den Neurowissenschaften und der Psychologie. Ein Beispiel: Wenn ich Ihnen einen Videoclip zeige, in dem ich einen Stift nehme und ihn senkrecht über einen Tisch halte, und ich Ihnen sage, dass ich meine Finger lockern werde, dann können Sie vorhersagen, was passieren wird – er wird runterfallen. Sie haben ein intuitives physikalisches Modell in Ihrem Kopf, mit dem Sie vorhersagen können, was passieren wird.
Das ist Teil meines gesunden Menschenverstandes, meines Alltagswissens.
Das ist Ihr Verständnis von der Welt, Ihre Fähigkeit, quasi „die Lücken zu füllen“. Aber das haben Sie gelernt. Das ist nicht etwas, womit Sie geboren wurden. Sie lernen, dass Menschen nicht fliegen können, dass Menschen nicht plötzlich verschwinden und an anderer Stelle wieder auftauchen können. Wie können wir Computer mit diesem gesunden Menschenverstand ausstatten? Möglicherweise, indem wir sie darauf trainieren, fehlende Informationen vorherzusagen.
Klappt das?
Für Text funktioniert das inzwischen sehr gut. Sie nehmen einen Textteil, entfernen zehn Prozent der Wörter und trainieren ein riesiges neuronales Netz darauf, die fehlenden Wörter vorherzusagen. Während dieses Prozesses lernt das KI-System im Grunde die Struktur der Sprache. Es lernt, Sprache als eine lange Reihe von Zahlen zu repräsentieren, wesentlich als Vektor, und Sie können das dann etwa für ein nachfolgendes System verwenden, das zum Beispiel Inhalte filtert, Ranglisten erstellt, Text übersetzt oder zusammenfasst, nahezu für alles eben, was Sie mit natürlicher Sprache machen möchten. Diese Idee hat den gesamten Sprach-KI-Bereich in den vergangenen zwei Jahren revolutioniert.
Es gibt also eine Art Transfer: Das Modell kann Wissen, das es während des Trainings erlernte, für ihm danach gestellte spezielle Aufgabe nutzen?
Exakt. Sie hoffen, dass die vom System gelernte Repräsentation ausreichend allgemein ist, um sie für alle möglichen Arten von Aufgaben verwenden zu können. Die Sprachsysteme, die inzwischen bei Facebook multilingual sind, wurden mit der Methode des selbstüberwachten Lernens vortrainiert. Die Forschungsarbeit, die das alles angeregt hat, stammte seinerzeit übrigens von Google, über ein System namens BERT – die Grundidee wiederum entstand schon viele Jahre zuvor und wurde in der jüngeren Vergangenheit von verschiedenen Leuten an unterschiedlichen Orten verfeinert. Wenn es um Bilder geht, gibt es eine Menge Beiträge aus der KI-Forschung von Facebook (FAIR) und von Google und Deepmind.
Was ist am wichtigsten, um diese Systeme zu erstellen – Daten, Rechenleistung oder ein sehr cleverer Algorithmus?
Alles davon. Nötig sind eine Menge Computer mit leistungsstarken Grafikprozessoren und solchen Sachen. Das ist sehr teuer in der Anschaffung, im Unterhalt und im Betrieb – in großem Maßstab können das im Grunde nur noch große Unternehmen leisten, die über genügend Ressourcen verfügen. Die akademische Forschung kann an neuen Konzepten und Ideen arbeiten, aber die besten Ergebnisse in der Übersetzung zahlreicher Sprachen zu erzielen, das liegt jetzt in den Händen der Industrie. Das können Sie in der akademischen Welt nicht mehr machen. Genau aus diesem Grund finanziert FAIR in Frankreich den öffentlichen Supercomputer Jean Zay, um dabei zu helfen, die Rechenleistung für die gesamte KI-Community zu erhöhen.
Europäische Forscher fürchten, nicht mehr mithalten zu können im Bereich riesiger neuronaler Netze. Zu Recht?
Ja und nein. Viele dieser Modelle, sicherlich die, die von Facebook kommen, sind Open Source und somit für jeden nutzbar. Ich möchte auch ein Unternehmen namens Hugging Face erwähnen, das im Grunde der zentrale Anbieter von Open-Source-Modellen für das Verständnis natürlicher Sprache ist. Die haben keine riesigen Rechen-Ressourcen, sie nutzen Cloud-Dienste, aber sie haben genug, um diese Modelle zu implementieren und zu verbreiten. Sie setzen Modelle um, die sie etwa in der Literatur von Facebook oder Google finden, und machen sie für die ganze Welt verfügbar und einfach nutzbar. Und drittens: Populäre Modelle wie GPT-3 sind beeindruckend, aber da ist noch viel zu tun, wenn Sie das in der realen Welt anwenden wollen.
Wenn heute von KI die Rede ist, geht es viel um Lernen und künstliche neuronale Netze. Tatsächlich gab es diese Idee schon, als Norbert Wiener und andere in den Vierzigerjahren die Kybernetik erfanden. Warum spielte der Ansatz lange keine große Rolle?
Zu geringe Rechenleistung und Datenmengen sind zwei Gründe, aber nicht die einzigen. Norbert Wiener und die Kybernetiker haben die Idee der adaptiven Systeme ein Stück weit erdacht. Einige Leute sprachen von Selbstorganisation, was in den Fünfzigerjahren wirklich noch ein abstraktes Konzept war. Aber sicherlich wurden die frühen Arbeiten zum maschinellen Lernen von der Kybernetik inspiriert. Das kam aus der Elektrotechnik, der Biologie, der angewandten Mathematik. Und dann gab es noch einen anderen Zweig, der aus der diskreten Mathematik und der Logik kam. Der entstand hauptsächlich ebenfalls in den Fünfzigerjahren und schuf das, was heute klassisch „gute, altmodische KI“ heißt. Das ist KI, die nicht auf maschinellem Lernen basiert, sondern auf der Manipulation von Symbolen, auf logischer Deduktion.
Das ist eine andere Herangehensweise.
Es gab einen Wettbewerb zwischen diesen beiden Ansätzen. Der von der Kybernetik inspirierte Ansatz ist Ende der Sechzigerjahre sozusagen zunächst „gestorben“, weil er umbenannt wurde. Man erkannte, dass damit nicht wirklich intelligente Maschinen konstruiert werden konnten. Gleichwohl eignete sich das für eine Menge nützlicher Dinge. Also änderten sie den Namen dessen, was sie taten – und nannten das „adaptive Filter“ oder statistische Mustererkennung.
Und das hatte einen großen Einfluss.
Das führte beispielsweise zu Erfindungen wie dem Modem, das es ohne adaptive Filter nicht gegeben hätte – Mobiltelefone übrigens auch nicht. Der andere Forschungszweig hat wiederum im Grunde das geschaffen, was wir heute als Informatik bezeichnen, Komplexitätstheorie, Suchalgorithmen, all diese Dinge, die in den Fünfziger- und Sechziger- jahren aus der KI-Forschung kamen.
In Deutschland gibt es eine Gemeinschaft in Wissenschaft und Wirtschaft, die eine große Zukunft vorhersagt für „hybride KI-Systeme“. Ihre Vertreter sagen, maschinelles Lernen kann viel, aber es kann nicht alles – und jetzt müssen wir beide Teile zusammenbringen, logikbasierte Systeme und maschinelles Lernen.
Ich bin nicht sehr optimistisch, was diese Idee angeht. Ich werde mir wahrscheinlich keine Freunde machen, wenn ich das sage, aber ich denke, dass viele Leute aus dem Lager der Symbolmanipulation und Logik sagen, okay, wir existieren noch, wir sind noch relevant, schreiben Sie uns noch nicht ab. Es gibt eine fundamentale Inkompatibilität zwischen Symbolmanipulation und Logik auf der einen Seite und dem Deep Learning auf der anderen Seite. Sicherlich lautet eine große in die Zukunft gerichtete Frage: Wie bringen wir Computer dazu, vernünftig zu schlussfolgern oder logisch zu denken?
Aber?
Neuronale Netze und Deep Learning „wollen“ sozusagen, dass die Dinge glatt und differenzierbar sind. Man muss in der Lage sein, die Parameter so zu adjustieren, dass sich die Funktion des Systems gleichmäßig ändert, wenn man die Parameter anpasst. Das ist die Basis des gradienten-basierten maschinellen Lernens . . .
. . . eines mathematischen Optimierungsverfahrens.
Und das ist völlig unvereinbar mit harten Symbolen und Logik. Geoff Hinton argumentiert seit mindestens 40 Jahren, dass wir Entitäten in der Welt anstelle von Symbolen durch Aktivitäten auf einer großen Anzahl von Neuronen darstellen und dann die Logik durch numerische mathematische Operationen ersetzen sollten, die kontinuierlich sind. Ich glaube nicht, dass das viel Platz für klassische logische Ansätze lässt. Abgesehen davon besteht jedes KI-System, das in der Praxis eingesetzt wird, aus einem zentralen Teil, der trainiert wird – aber es gibt immer etwas Code drum herum, damit das funktioniert, um es mit allem anderen zu verbinden, um Extremfälle und Ausnahmen einzufangen. Das wird einfach programmiert. Man könnte sich das als eine Art Symbolik vorstellen.
Erreichen wir in der KI dereinst menschliche Intelligenz?
Es steht für mich außer Frage, dass das passieren wird. Aber ich kann wirklich nicht sagen, wie lange es dauern wird, es könnten Jahrzehnte oder Jahrhunderte sein. Irgendwann werden wir Maschinen haben, die in allen Bereichen, in denen Menschen gut sind, genauso gut sind wie Menschen. Und wahrscheinlich werden wir Maschinen haben, die in vielen Bereichen viel besser sind als Menschen. Wir Menschen sind ja vergleichsweise gut in manchen Dingen, in anderen aber nicht. Wenn wir etwas von Alpha Go gelernt haben, dann, dass Menschen absolut schrecklich im Spiel Go sind. Zu allgemeiner Künstlicher Intelligenz als zu erreichendem Ziel kann ich indes nur sagen: Ich glaube nicht an dieses Konzept, weil ich nicht glaube, dass menschliche Intelligenz allgemein ist – wir sind sehr spezialisierte Tiere.
Autor:
Alexander Armbruster, Verantwortlicher Redakteur für Wirtschaft der Frankfurter Allgemeinen Zeitung
© Alle Rechte vorbehalten. Frankfurter Allgemeine Zeitung GmbH, Frankfurt
Datum der Erstveröffentlichung: 26. Juli 2021
Zur Verfügung gestellt vom Frankfurter Allgemeine Archiv