Kategorien
Künstliche Intelligenz

Die Technik hinter ChatGPT

Lieber Charles, 

die KI von ChatGPT schlägt hohe Wellen. Auch ich habe den Eindruck, dass gerade wir die Geburt einer neuen revolutionären, disruptiven Technik miterleben. Deshalb ist es Zeit, dass ich Ihnen die zugrundeliegende Technologie erkläre. Sicher gibt es unglaublich viele Artikel im Netz, die das ebenfalls tun, aber ich will das nicht nur für Sie, sondern auch für mich tun, um mir beim Schreiben selbst darüber klar zu werden.

Also, hier ist meine Erklärung, die vor allem verständlich sein soll, hier zuerst der große Überblick: 

Die „Transformer“ genannten neuronalen Netzwerke wurden vermutlich zuerst mit dem Ziel entwickelt, gute Übersetzungen zu liefern, also Texte einer Quellsprache in eine andere Zielsprache zu transformieren. Interessant ist es, dass man bei Transformern die Länge des Ausgabetextes angeben kann. Weiter hat man auch die Möglichkeit, als Zielsprache dieselbe Sprache wie die Quellsprache zu wählen. Lässt man nun einen kürzeren Text in einen längeren transformieren, so erfindet das System einen längeren Text, basierend auf der Eingabe und den Daten, mit denen das Netzwerk vortrainiert wurde. Dieses wurde nämlich unter großem Aufwand mit vielen Texten aus dem Web und auch vielen Buchtexten vortrainiert. Daher kommt auch die Abkürzung GPT für „General Pretrained Transformer“. Man kann sich auch Texte zusammenfassen lassen, indem man einen langen Text hineingibt und die Länge des Ausgangstextes kleiner angibt.  

Es gibt eine Standardübung für den Umgang mit GPT-Transformern, die das verdeutlicht, die automatisierte Erstellung von Rezepten: das GPT-Netzwerk wurde bereits mit vielen Büchern und Texten aus dem Web vortrainiert, kann also grundsätzlich Sprache verarbeiten. Man kann es zum Profikoch ausbilden, indem man es zusätzlich mit Rezepten aus dem Internet füttert (z.B. von Chefkoch.de). Das Wissen von vielen Hobbyköchen hat es dann verinnerlicht. Die Rezepte haben immer die gleiche Struktur: Zuerst gibt es eine Liste an Zutaten, dann die Anweisung für die Zubereitung. Gibt man nun als Eingabetext lediglich eine Zutatenliste an, erfindet der Algorithmus einen Zubereitungstext hinzu. In diesem kommen dann auch die Zutaten vor, das Rezept wurde auf Basis des Wissens, welches in der Rezeptsammlung steckt, generiert, allerdings ist (meistens) neuartig. Hier kommt auch ein Zufallsmechanismus ins Spiel. Wenn man das Verfahren wiederholt, kommen dauernd neue Rezepte zum Vorschein. Auf diese Art kann man auch bei ChatGPT Anweisungen geben oder Fragen stellen. Die Ausgabe bezieht sich dann immer auf die Eingabe (Zutaten).

Hier noch ein paar Fachbegriffe: Das Anpassen des Netzwerks auf eine spezielles Wissensgebiet nennt man „Transfer Learning“. Es wird also ein vortrainiertes Netzwerk an eine gewisse Domäne (z.B, Kochen) angepasst. So muss man nicht immer von vorn anfangen mit dem Training und kann nachjustieren. ChatGPTs Fähigkeiten werden so immer weiter verfeinert. So wurden im Januar die mathematischen Fähigkeiten von ChatGPT verbessert. 

Die grundlegende Transformer genannte Architektur basiert auf dem „Encoder Decoder“-Modell, also Verschlüsselungs- und Entschlüsselungs-Modell, Wobei ChatGPT genaugenommen nur den Decoder-Teil der Technologie verwendet, im Gegensatz zu Überstzungs-KI-Modellen: Es geht allerdings, wie der Name vermuten lässt, nicht darum, Geheimbotschaften zu entschlüsseln, sondern darum, Texte zu generieren. Die Eingaben des Menschen werden vorher in eine für den Computer verständliche Form gebracht, also Zahlen (vgl. Unterwegs im Cybercamper, Kap. 1.3 Bleiwüste aus Bits). Diese werden dann vom Encoder wieder in Texte verwandelt, wobei hier immer ein Wort nach dem anderen generiert wird, unter Berücksichtigung der vorher erzeugten Wörter. 

Eine Frage wirst Du dir aber vermutlich noch stellen, lieber Charles: Kann man mit der simplen Umwandlung von Wörtern in Zahlen die Struktur eines Textes erfassen? – Nein! – Hier wird ein weiterer Trick angewendet: Es kommen die RNN-Netzwerke zum Einsatz (Recurrent Neural Networks). Diese nehmen ein Wort, kodieren dieses in eine Zahl, allerdings beeinflusst das vorherige Wort die Kodierung. So fließen die vorhergegangenen Teile des Textes  immer in die Kodierung des aktuellen Wortes mit ein. 

Ein weiterer Mechanismus ist dann bei der Dekodierung noch wichtig, er nennt sich „Attention“, also Aufmerksamkeit. Dieser Mechanismus kann die Einflussstärke der als Fragen eingegebenen Texte-Teile auf das jeweils zu generierende Wort ermitteln. Das ist auch bei Übersetzungen wichtig, da Sprachen einen unterschiedlichen Satzbau haben und man nicht Wort für Wort übersetzen kann. Hier noch ein Buchtipp für Spezialisten: „Natural Language Processing with Transformers“.

Eine Antwort auf „Die Technik hinter ChatGPT“

Liebes Postlagernd-Team,

Vielen Dank für diesen interessanten Artikel über die Technologie hinter ChatGPT! Ich finde es faszinierend, wie künstliche Intelligenz immer mehr in unseren Alltag integriert wird und uns bei der Kommunikation unterstützt.

Es ist erstaunlich, wie lebensecht und präzise ChatGPT antwortet. Die Fortschritte in der NLP-Technologie sind beeindruckend! Ich bin gespannt, wie sich diese Technologie weiterentwickeln wird und welche neuen Möglichkeiten sie uns in Zukunft bieten wird.

Eure Berichte über solche technischen Entwicklungen sind sehr informativ und leicht verständlich geschrieben. Es ist spannend, mehr über die Hintergründe zu erfahren und auf dem neuesten Stand zu sein. Ich freue mich schon auf weitere spannende Artikel von euch!

Viele Grüße,
Arianna Sutton

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert