Kategorien
Künstliche Intelligenz

Die Technik hinter ChatGPT

Lieber Charles, 

die KI von ChatGPT schlägt hohe Wellen. Auch ich habe den Eindruck, dass gerade wir die Geburt einer neuen revolutionären, disruptiven Technik miterleben. Deshalb ist es Zeit, dass ich Ihnen die zugrundeliegende Technologie erkläre. Sicher gibt es unglaublich viele Artikel im Netz, die das ebenfalls tun, aber ich will das nicht nur für Sie, sondern auch für mich tun, um mir beim Schreiben selbst darüber klar zu werden.

Also, hier ist meine Erklärung, die vor allem verständlich sein soll, hier zuerst der große Überblick: 

Die „Transformer“ genannten neuronalen Netzwerke wurden vermutlich zuerst mit dem Ziel entwickelt, gute Übersetzungen zu liefern, also Texte einer Quellsprache in eine andere Zielsprache zu transformieren. Interessant ist es, dass man bei Transformern die Länge des Ausgabetextes angeben kann. Weiter hat man auch die Möglichkeit, als Zielsprache dieselbe Sprache wie die Quellsprache zu wählen. Lässt man nun einen kürzeren Text in einen längeren transformieren, so erfindet das System einen längeren Text, basierend auf der Eingabe und den Daten, mit denen das Netzwerk vortrainiert wurde. Dieses wurde nämlich unter großem Aufwand mit vielen Texten aus dem Web und auch vielen Buchtexten vortrainiert. Daher kommt auch die Abkürzung GPT für „General Pretrained Transformer“. Man kann sich auch Texte zusammenfassen lassen, indem man einen langen Text hineingibt und die Länge des Ausgangstextes kleiner angibt.  

Es gibt eine Standardübung für den Umgang mit GPT-Transformern, die das verdeutlicht, die automatisierte Erstellung von Rezepten: das GPT-Netzwerk wurde bereits mit vielen Büchern und Texten aus dem Web vortrainiert, kann also grundsätzlich Sprache verarbeiten. Man kann es zum Profikoch ausbilden, indem man es zusätzlich mit Rezepten aus dem Internet füttert (z.B. von Chefkoch.de). Das Wissen von vielen Hobbyköchen hat es dann verinnerlicht. Die Rezepte haben immer die gleiche Struktur: Zuerst gibt es eine Liste an Zutaten, dann die Anweisung für die Zubereitung. Gibt man nun als Eingabetext lediglich eine Zutatenliste an, erfindet der Algorithmus einen Zubereitungstext hinzu. In diesem kommen dann auch die Zutaten vor, das Rezept wurde auf Basis des Wissens, welches in der Rezeptsammlung steckt, generiert, allerdings ist (meistens) neuartig. Hier kommt auch ein Zufallsmechanismus ins Spiel. Wenn man das Verfahren wiederholt, kommen dauernd neue Rezepte zum Vorschein. Auf diese Art kann man auch bei ChatGPT Anweisungen geben oder Fragen stellen. Die Ausgabe bezieht sich dann immer auf die Eingabe (Zutaten).

Hier noch ein paar Fachbegriffe: Das Anpassen des Netzwerks auf eine spezielles Wissensgebiet nennt man „Transfer Learning“. Es wird also ein vortrainiertes Netzwerk an eine gewisse Domäne (z.B, Kochen) angepasst. So muss man nicht immer von vorn anfangen mit dem Training und kann nachjustieren. ChatGPTs Fähigkeiten werden so immer weiter verfeinert. So wurden im Januar die mathematischen Fähigkeiten von ChatGPT verbessert. 

Die grundlegende Transformer genannte Architektur basiert auf dem „Encoder Decoder“-Modell, also Verschlüsselungs- und Entschlüsselungs-Modell, Wobei ChatGPT genaugenommen nur den Decoder-Teil der Technologie verwendet, im Gegensatz zu Überstzungs-KI-Modellen: Es geht allerdings, wie der Name vermuten lässt, nicht darum, Geheimbotschaften zu entschlüsseln, sondern darum, Texte zu generieren. Die Eingaben des Menschen werden vorher in eine für den Computer verständliche Form gebracht, also Zahlen (vgl. Unterwegs im Cybercamper, Kap. 1.3 Bleiwüste aus Bits). Diese werden dann vom Encoder wieder in Texte verwandelt, wobei hier immer ein Wort nach dem anderen generiert wird, unter Berücksichtigung der vorher erzeugten Wörter. 

Eine Frage wirst Du dir aber vermutlich noch stellen, lieber Charles: Kann man mit der simplen Umwandlung von Wörtern in Zahlen die Struktur eines Textes erfassen? – Nein! – Hier wird ein weiterer Trick angewendet: Es kommen die RNN-Netzwerke zum Einsatz (Recurrent Neural Networks). Diese nehmen ein Wort, kodieren dieses in eine Zahl, allerdings beeinflusst das vorherige Wort die Kodierung. So fließen die vorhergegangenen Teile des Textes  immer in die Kodierung des aktuellen Wortes mit ein. 

Ein weiterer Mechanismus ist dann bei der Dekodierung noch wichtig, er nennt sich „Attention“, also Aufmerksamkeit. Dieser Mechanismus kann die Einflussstärke der als Fragen eingegebenen Texte-Teile auf das jeweils zu generierende Wort ermitteln. Das ist auch bei Übersetzungen wichtig, da Sprachen einen unterschiedlichen Satzbau haben und man nicht Wort für Wort übersetzen kann. Hier noch ein Buchtipp für Spezialisten: „Natural Language Processing with Transformers“.

Kategorien
Künstliche Intelligenz

Kreative Text-KI

Lieber Charles, die Digitalisierung schreitet voran, es gibt eine Fülle an neuen Entwicklungen – ich picke mir immer wieder etwas heraus und nehme das zum Anlass, Ihnen zu schreiben.

Speziell beim Thema „Künstliche Intelligenz“ (KI) tut sich sehr viel. KI-Technologien werden heutzutage erfolgreich für Spezialaufgaben eingesetzt, wie beispielsweise in der Bilderkennung. 

Nun gibt es mittlerweile eine Reihe von künstlichen Intelligenzen, die das bisher dem Menschen vorbehaltene Feld der Kreativität betreten. DALL-E (das Wort mischt den Namen des Künstlers Dalí mit dem Film-Roboter WALL-E) ist ein solches System, das neue Bilder generiert, anhand einer Beschreibung, wie das Bild denn aussehen soll. Neu ist nicht die Bild-Generierung (vgl. „Unterwegs im Cyber-Camper”, S. 115; Generative Adversarial Networks), sondern die Text-Eingabe, die das System interpretiert und in ein Bild verwandeln kann.

Überhaupt macht die KI bei der Textverarbeitung große Fortschritte. Übersetzungsprogramme wie DeepL sind mittlerweile fast so gut wie professionelle Übersetzer. Neuartige Chat-Bots können Dialoge so führen, dass sie für intelligent gehalten werden und sogar den Turing-Test bestehen (vgl. „Unterwegs im Cyber-Camper“ S. 424). 

Das KI-Modell, das im Moment die größte Verblüffung hervorruft, ist ChatGPT. Es kann Geschichten, Songs, Hausaufgaben, Romane oder Drehbücher bis hin zu akademischen Abschlussarbeiten erzeugen. GPT bedeutet „Generative Pre-trained Transformer“.

Auf der Webseite der Betreiberfirma OpenAI kann man lesen: 

„Wir haben ein Modell namens ChatGPT trainiert, das auf eine dialogische Weise interagiert. Das Dialogformat ermöglicht es ChatGPT, Folgefragen zu beantworten, Fehler zuzugeben, falsche Prämissen in Frage zu stellen und unangemessene Anfragen zurückzuweisen…“

Die Firma ist eine Mischung aus kommerziellen Unternehmen und einer Forschungseinrichtung und wird vor allem von Microsoft und Elon Musk finanziert.

Auch DALL-E wurde wurde von OpenAI entwickelt. Die Firma soll die Möglichkeiten sowie die Gefahren der KI für die Menschheit ausloten.

Lieber Charles, wie Sie wissen, ist es mein Job, Fachtexte zu übersetzen, außerdem arbeite ich als freie Softwareentwicklerin. Ob das weiterhin Tätigkeiten sind, von denen ich leben kann, ist fraglich: Mittlerweile kann ChatGPT nicht nur Texte schreiben, sondern auch programmieren.

Beginnen wir mit dem Experiment und fragen ChatGPT nach einer Geschichte, wie ich sie (als Anna) erlebt und im Buch „Unterwegs im Cyber-Camper” aufgeschrieben habe: Kannst Du mir eine Geschichte über eine digitale Nomadin erzählen, die von gefährlichen Männern verfolgt wird?

Hier ist die generierte Geschichte in voller Länge:

Es war einmal eine digitale Nomadin namens Ava, die ihr Leben damit verbrachte, durch die Welt zu reisen und von ihrem Laptop aus zu arbeiten. Ava war unabhängig und frei, und sie genoss es, immer auf Reisen zu sein und neue Orte und Kulturen kennenzulernen.

Eines Tages bemerkte Ava, dass sie von einer Gruppe gefährlicher Männer verfolgt wurde, die hinter den sensiblen Daten her waren, die sie für einen ihrer Kunden aufbewahrte. Ava wusste, dass sie schnell handeln musste, also schnappte sie sich ihren Laptop und flüchtete.

Ava reiste von Stadt zu Stadt, immer auf der Flucht vor den Männern. Sie versteckte sich in Internetcafés und an öffentlichen Plätzen, aber die Männer schienen immer einen Schritt voraus zu sein. Ava wusste, dass sie die Daten sicher verwahren musste, aber sie war verängstigt und unsicher, was sie als Nächstes tun sollte.

Eines Tages traf sie auf einen Mann namens Jake, einen ehemaligen Marine, der ihr anbot, sie zu beschützen. Ava war skeptisch, aber sie wusste, dass sie keine andere Wahl hatte. Gemeinsam mit Jake reiste sie weiter, immer auf der Flucht vor den Männern.

Mit Jakes Hilfe gelang es Ava schließlich, die Daten sicher zu übertragen und die Männer abzuschütteln. Ava war dankbar für Jakes Unterstützung und die beiden freundeten sich an, während sie zusammen weiterreisten.

Ava lernte, dass es manchmal hilfreich sein kann, eine starke Schulter zum Anlehnen zu haben, und dass Freunde aus den unerwartetsten Orten kommen können. Sie war auch dankbar dafür, dass sie ihre Freiheit bewahren und weiterhin als digitale Nomadin leben konnte.

Was sagat Du dazu, lieber Charles?

Eine Kritik am Programm ist die soziale Voreingenommenheit (engl. social bias), die sich immer wieder offenbart. Das könnte damit zu tun haben, dass die Trainingsdaten zumeist englisch sind, also fehlen Quellen aus vielen anderen Kulturen, die nicht auf englisch verfügbar sind. Klar, Ava muss die Hilfe von einem Marine mit starken Schultern annehmen…

Zudem wird mir anhand der Geschichte klar, dass dieses Programm zwar einen flüssigen Text generieren kann, aber eine komplexe, kreative Story vermisse ich. Im Buch  „Unterwegs im Cyber-Camper” habe ich meine Hypothese schon ausgeführt, dass die KI nichts grundlegend neues erschaffen kann, da es nur aus den Trainingsdaten neue Dinge mixen kann (vgl. Kapitel 9.2, Die Ente im chinesischen Zimmer – Die Grenzen der künstlichen Intelligenz).