I-JEPA: Erster Schritt zur KI mit Common Sense?

Ein neues KI-Modell von Meta arbeitet mit abstrakten Konzepten bei der Bilderkennung, statt Pixel zu vergleichen. Entwickeln Maschinen nun ein Modell der Welt?

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen
Artificial,Intelligence,With,Virtual,Hanging,Head,On,Podium.,Global,World

(Bild: Andrey Suslov/Shutterstock.com)

Lesezeit: 5 Min.
Inhaltsverzeichnis

So faszinierend die Leistungen und Fortschritte von KI-Systemen wie ChatGPT, Midjourney & Co. für viele auch sein mögen: Wirklich was von der Welt verstanden haben diese generativen Systeme nicht. Schließlich verfügen sie über keine internen Modelle von den Objekten, die sie da abbilden oder über die sie da plaudern, und haben auch keine Ahnung von deren Eigenschaften und Beziehungen untereinander. (Wer daran zweifelt, frage ChatGPT selbst – das Modell wird bestätigen, keine Vorstellungen von der Welt diesseits der Tastatur zu haben).

Momentan scheint das kaum einen KI-Begeisterten zu stören. Der KI-Chefwissenschaftler Yann LeCun vom US-Konzern Meta sieht aber genau darin eine Grenze, die es auf dem Weg zu einer allgemeinen KI – jenseits von fachidiotischen Expertensystemen – zu überwinden gelte. Seine Vision hat LeCun bereits vor einem Jahr gegenüber Technology Review skizziert, aber damit außerhalb der Forscher-Community wohl kein großes Aufsehen erzeugt, weil KI erst ein halbes Jahr später zum Blockbuster der Nachrichten wurde.

In LeCuns Vision braucht es zur Überwindung der Beschränkungen der aktuellen KI-Systeme Maschinen, denen nicht nur interne Modelle der Funktionsweise der Welt zur Verfügung stehen, mit deren Hilfe sie Schlussfolgerungen ziehen können. Vielmehr sollten sie zudem auch in der Lage sein, diese Modelle selbstständig zu entwickeln und anzupassen – autonom und rein aufgrund des Inputs, mit dem sie gefüttert werden.

Meta AI hat jetzt ein erstes KI-Modell entwickelt, das einen Teil der Vision ihres Chef-Forschers LeCun umsetzen soll. Die sogenannte Image Joint Embedding Predictive Architecture (I-JEPA) erkennt Objekte auf Bildern und soll laut seinen Entwicklern dank eines internen Modells der Welt auf abstrakter Ebene die Inhalte von Bildern vergleichen, statt Pixel zu analysieren. Ein frei verfügbares Paper zum Modell wird auf der am kommenden Sonntag startenden IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023 (CVPR) in Vancouver vorgestellt und die Forscher um LeCun haben den Trainingscode auf Github veröffentlicht.

Laut Meta trägt der LeCun'sche Ansatz in I-JEPA bereits Früchte: So soll das System bei verschiedenen Computer-Vision-Aufgaben besser abschneiden (sprich: weniger Fehler machen) und mit deutlich weniger Training auskommen als herkömmliche Modelle.

Jenseits des konkreten Bilderkenners ist aber besonders eine Formulierung in der Ankündigung von Meta AI interessant: "Unsere Arbeit an [...] Joint Embedding Predictive Architecture (JEPA)-Modellen [...] basiert auf der Tatsache, dass Menschen allein durch passives Beobachten eine enorme Menge an Hintergrundwissen über die Welt lernen." Das dürfte alle aufhorchen lassen, die sich schon vor Beginn des Siegeszugs der statistischen Verfahren (der seit dem Sieg von Stanley im DARPA Grand Challenge 2005 absehbar war) mit der Forschung zur Künstlichen Intelligenz beschäftigt haben.

Denn genau dieses allgemeine Hintergrundwissen war die Fußangel, die manchem Ansatz zum Bau einer allgemein einsetzbaren Künstlichen Intelligenz ins Stolpern brachte. Prominentes Beispiel ist Cyc: Doug Lenat und sein Team wollten in einer umfassenden Ontologie das Weltwissen modellieren, damit KI-Systeme auf dieser Basis ihre Schlüsse ziehen können. Dabei lernten sie auf die harte Tour, dass in Texten, die Menschen für Menschen schreiben, ganz viele Informationen ausgelassen werden, die für Computer absolut neu sind: Etwa, dass sich ein Mensch in der Regel in derselben Stadt befindet wie sein linker Fuß, dass es am Tag hell ist, wenn man sich nicht im Winter nördlich des Polarkreises befindet, das jemand nicht nass wird, der auf einer Bühne steht und singt: Ich stehe im Regen ... Menschen kapieren das intuitiv, weil sie dieses Hintergrundwissen, wie die Welt funktioniert, seit ihren ersten Lebenstagen nebenbei gelernt haben.

Klar ist: JEPA-Modelle lösen das Grundproblem des fehlenden Common Sense in Maschinen nicht von jetzt auf gleich – und wie weit sie damit kommen, ist auch offen. Aber die Meta-Forscher versprechen sich von ihrem Ansatz, ein paar Schwächen der herkömmlichen generativen Modelle ausmerzen zu können. Die neigten ihrer Ansicht nach zu Fehlern, die ein Mensch niemals machen würde, weil sich die Modelle "zu sehr auf irrelevante Details konzentrieren, anstatt übergeordnete, vorhersehbare Konzepte zu erfassen".

Griffigstes Beispiel: Bei der Darstellung von Händen erzeugen die KI-Bildgeneratoren oft zu viele oder zu wenige Finger. Hier wird deutlich sichtbar, dass die Software kein Konzept hat, was eine Hand ist, dass sie normalerweise Daumen und vier Finger hat, dass es eine linke und eine rechte gibt und welche Haltungen natürlich sind. Ob und wann ein JEPA-Modell aber rein durch "Beobachtung" seines Inputs von Bildern, Videos oder was auch immer lernt, was eine Hand ist und daraus ohne Vorgaben und Überwachung ein internes Konzept einer Hand entwickelt, das wird sich zeigen. Denn Abstraktion war ja schon mal scheinbar der Königsweg zur Schaffung von Künstlicher Intelligenz – als neuronale Netze noch als Sackgasse galten, weil schlicht die Rechenkraft fehlte. (pek)