Ja die präsentierten Fakten sind möglicherweise nicht ganz kohärent und korrekt. Warum aber? Das bemerkenswerte an diesem Artikel ist, dass er nicht von Menschen verfasst wurde, sondern von einer „KI“, genauer von GPT-3, einem transformer neuronal network (=> Modell).
In diesen speziellen Fall bekommt das Modell Title und Subtitle als Eingabe und produziert dann als Ausgabe einen Artikel. In einer Studie wurden so generierte Artikel Personen vorgelegt und diese mussten dann (ohne weitergehende Recherche) entscheiden, ob der Artikel sehr wahrscheinlich von einer KI, wahrscheinlich von einer KI, wahrscheinlich von einem Menschen oder sehr wahrscheinlich von einem Menschen erstellt wurde. Bei diesem Artikel vermuteten nur 12%, dass der Artikel von einem Modell generiert wurde!
GPT-3 wurde 2019/20 als bisher größtes Modell entwickelt und ist sehr viel größer als bis dahin entwickelte Modelle. Es besteht aus 175 Milliarden Parametern (grob vereinfacht Neuronen) in 96 Schichten angeordnet. Es wurde mit vielen Gigabyte Daten trainiert. Diese Daten wurden aus vielen Terabyte Daten aus dem Web, Büchern, Wiki etc. extrahiert.
GPT-3 kann auch für andere Aufgabenstellungen genutzt werden, soweit diese durch die Trainingsdaten abgedeckt sind.
Kleinere Modelle sind schon jetzt vielseitig auch in unserem Alltag einsetzbar (zB. auf dem Handy Spracherkennung, Schrifterkennung in Fotos, automatische Kategorisierung von Fotos anhand des Inhalts, Swype Tastatur (dafür gibt es natürlich auch andere spezifische Algorithmen, die aber zunehmend von Modellen verdrängt werden), und vieles mehr.)
Große Modelle werden genutzt um Services zu erbringen (zB den Inhalt von Bildern zu erkennen) - macht mal eine Bildersuche „Blume mit Hand und Ring“:
Um große und leistungsfähige Modelle zu erstellen, müssen verschiedene Herausforderungen gelöst werden.
Für sehr große Modelle benötigt es sehr leistungsfähige Systeme um das Modell in angemessener Zeit anzulernen. Das is teuer.
Große Mengen von validen und passenden Daten müssen gefunden oder generiert werden, um das Modell zu trainieren.
Je nach Modell können auch ungeplante und eventuell ungewollte „Dinge“ vom Modell gelernt werden. Modelle, die zB mit Daten, gesammelt von Web crawlen trainiert werden, lernen auch nicht auf den ersten Blick ersichtliche Zusammenhänge zwischen verschiedenen Begrifflichkeiten, die in den zu lernenden Daten implizit vorhanden sind (weil die Vorurteile tatsächlich existieren und sich deshalb in den Daten widerspiegeln oder weil die Trainingsdaten nicht repräsentativ gewählt wurden). Wenn also in den Trainingsdaten gewisse Vorurteile in signifikanter Menge vorhanden sind, dann kann sich das im Modell manifestieren. Ein einfaches Beispiel ist zB einmal bei Google nach Bildern für den Begriff ‚Gesicht‘ zu suchen und dann festzustellen, dass es wohl, bis auf Ausnahmen, nur weiße Gesichter gibt:
GPT-3 ist nicht das Ende der Fahnenstange, im Gegenteil, die Entwicklung von Modellen beschleunigt sich.
Anfang 2021 hat Google in einem Papier sogenannte „Switch transformer“ Modelle vorgestellt. Diese werden jetzt entwickelt und werden sehr bald mehrere Billionen! Parameter enthalten können. Das ist möglich, weil es jetzt mit weiterentwickelten Methoden gelingt, den Rechenaufwand, den es benötigt um ein Modell zu trainieren, zumindest teilweise von der Anzahl der Parameter des Modells zu entkoppeln.
Es ist absehbar, dass sich damit bestehende Anwendungen noch wesentlich besser umsetzen lassen werden und auch ganz neue Anwendungsgebiete für Modelle erreichbar werden.
Während das Trainieren der größten Modelle kostenintensiv ist (Hardware / Rechenzeit / Aufbereitung der Trainingsdaten …) sind Abfragen recht günstig.
Kleinere Modelle werden extern trainiert und dann auf Endgeräte geladen, wo das Modell noch mit Nutzerspezifischen Daten weiter trainiert / personalisiert werden kann.
Modelle sind eine extrem pervasive Technologie. Alle möglichen Endgeräte sind schon oder werden darauf vorbereitet, kleinere Modelle lokal auf dem Gerät trainieren und ausführen zu können. Die neueste Generation von Smartwatch, Handy, Laptop, Computer … enthält bereits CPUs oder Co-Prozessoren die schon heute dafür optimiert sind.
Sucht mal auf euren Smartphone nach Bildern mit bestimmten Inhalten:
Schon seit Jahren gibt es Wettbewerb und Ranglisten bzgl. der schnellsten Rechner, mittlerweile im Exaflop Bereich (Trillionen Gleitkommaberechnungen pro Sekunde) - das gibt es nun auch für die Größe von KI Modellen. Allerdings ist hier die Größe allein nicht entscheidend für die Qualität. Daten und Training sind ebenfalls wichtig.
Ich befürchte aber, dass deutsche Institutionen und Firmen auch diese neuen Möglichkeiten zaudernd und ignorant verschlafen. Bestehende quasi Sparten-Monopolisten / Oligopolisten (Facebook, Google, Amazon, Alibaba, Tencent…) werden ihren Datenreichtum nutzen können, um mit mächtigen Modellen ihre Marktmacht auszubauen und in neue Bereiche vorzudringen (Mobilität…)
Ich glaube nicht ernsthaft, dass jemand bis hierhin gelesen hat, aber ich wollte hier für Interessierte mal darauf aufmerksam machen, dass im Bereich deep learning momentan viele interessante Entwicklungen stattfinden, sich die Leistungsfähigkeit in kurzer Zeit extrem verbessert hat und dies aller Voraussicht nach so weiter gehen wird.