Waren

Kurze Analyse neu entstehender Fähigkeiten in großen linguistischen Modellen

Ein Großteil der Forschung zur künstlichen Intelligenz in den letzten zwei Jahrzehnten konzentrierte sich auf das Training neuronaler Netze, um eine einzelne Aufgabe mit spezifischen Trainingsdatensätzen auszuführen. Klassifizieren Sie zum Beispiel, ob ein Bild eine Katze enthält, fassen Sie einen Artikel zusammen, übersetzen Sie vom Englischen ins Swahili ...

In den letzten Jahren hat sich ein neues Paradigma rund um Sprachmodelle entwickelt: neuronale Netze, die einfach die nächsten Wörter in einem Satz vorhersagen, wenn die vorherigen Wörter im Satz gegeben sind.

Nachdem sie an einer großen Menge unbeschrifteten Textes trainiert wurden, können linguistische Modelle "eingeladen" werden, beliebige Aufgaben auszuführen, wie z. B. die Vorhersage des Wortes nach einem Satz. Beispielsweise könnte die Aufgabe, einen englischen Satz in Suaheli zu übersetzen, so umformuliert werden, dass das nächste Wort vorhergesagt wird: „Die Suaheli-Übersetzung von ‚künstliche Intelligenz‘ ist …“

Von aufgabenspezifisch bis aufgabenübergreifend

Dieses neue Paradigma stellt eine Abkehr von Modellen dar aufgabenspezifisch, trainiert, um eine einzelne Aufgabe auszuführen, in Modellen Aufgabe allgemein, die verschiedene Aufgaben erfüllen kann. Dazu die Modelle Aufgabe allgemein sie können auch neue Aktivitäten durchführen, die nicht explizit in den Trainingsdaten enthalten sind. Zum Beispiel, GPT-3 zeigten, dass linguistische Modelle zweistellige Zahlen erfolgreich multiplizieren können, auch wenn sie nicht explizit dafür trainiert wurden. Diese Fähigkeit, neue Aufgaben zu erfüllen, trat jedoch nur bei Modellen mit einer bestimmten Anzahl von Parametern auf, die auf einem ausreichend großen Datensatz trainiert wurden.

Notfall als Verhalten

Die Idee, dass quantitative Änderungen in einem System zu neuem Verhalten führen können, wird als bezeichnet Notfall, ein Konzept, das durch den Aufsatz „Mehr ist anders“ des Nobelpreisträgers Philip Anderson aus dem Jahr 1972 populär wurde. In vielen Disziplinen wie Physik, Biologie, Wirtschaftswissenschaften und Informatik wurde das aufkommende Phänomen in komplexen Systemen beobachtet.

In kürzlich erschienenen Artikel veröffentlicht Transaktionen zur maschinellen Lernforschung, das Labor HAI in Stanford University defiVervollständigt neue Fähigkeiten in großen Sprachmodellen wie folgt:

Eine Fähigkeit ist emergent wenn es in den kleineren Modellen nicht vorhanden ist, aber in den größeren Modellen vorhanden ist.

Um das Vorhandensein von Fähigkeiten zu charakterisieren Schwellenländer, fasst unser Artikel die Ergebnisse für verschiedene Modelle und Ansätze zusammen, die in den letzten zwei Jahren seit der Veröffentlichung von GPT-3 entstanden sind. Das Papier untersuchte Forschungsergebnisse, die den Einfluss des Maßstabs analysierten: Modelle unterschiedlicher Größe, die mit unterschiedlichen Rechenressourcen trainiert wurden. Bei vielen Aktivitäten wächst das Verhalten des Modells vorhersehbar mit der Skalierung oder steigt unvorhersehbar von einer zufälligen Leistung auf Werte an, die bei einem bestimmten Skalierungsschwellenwert höher als zufällig sind.

Um mehr zu erfahren, lesen Sie den Artikel auf neue Fähigkeiten in linguistischen Modellen

Jason Wei ist Forschungswissenschaftler bei Google Brain. Rishi Bommasani ist Doktorand im zweiten Jahr an der Stanford-Fakultät für Informatik und half bei der Einführung von Stanford Center for Research on Foundation Models (CRFM). Lesen Sie ihre Studie "Neue Fähigkeiten von Large Language Models," , geschrieben in Zusammenarbeit mit Wissenschaftlern von Google Research, der Stanford University, UNC Chapel Hill und DeepMind.

Abfassung BlogInnovazione.it