Inhaltsverzeichnis
Künstliche Intelligenz (KI) ist als Thema aus der Technischen Redaktion nicht mehr wegzudenken. Auch wenn noch nicht viele KI gewinnbringend im Einsatz haben, wird schon jetzt viel getestet, diskutiert und gelernt. Dabei begegnen uns oft Begriffe, die schwer zu greifen sind. Wir lesen sie, wir nehmen sie zur Kenntnis, aber was genau dahintersteckt, ist oft nicht klar. In unserer neuen Blogserie erklären wir die wichtigsten Buzzwords rund um KI und setzen sie in einen Kontext.
In Teil 1 geht es um den Begriff der KI selbst, um Sprachmodelle und darum, was das Kürzel GPT in ChatGPT eigentlich bedeutet.
Was bedeutet eigentlich KI?
Diese Frage ist schwerer zu beantworten, als es auf den ersten Blick scheint. In Wissenschaft und Praxis gibt es für den Begriff KI, also Künstliche Intelligenz, gar keine genaue Definition. Es fängt schon damit an, dass der Begriff „Intelligenz“ nicht genau definiert ist.
Wenn wir uns aber doch an einer Definition versuchen, könnte man sagen, dass durch KI Maschinen befähigt werden sollen, Aufgaben zu bewältigen, die traditionell dem Menschen zugeschrieben werden. Dazu gehören die Fähigkeiten
- Lernen (Muster in großen Datenmengen erkennen),
- Wahrnehmen (Bildverarbeitung, Texterkennung, etc.) und
- Handeln (Bewegung von Robotern, Sprachverarbeitung durch Chat-Systeme).
Für die Technische Kommunikation ist die sprachverarbeitende KI besonders interessant, deren prominentester Vertreter aktuell wohl ChatGPT von OpenAI sein dürfte.
Sprachmodelle: GPT, LLM und Co.
Damit sprachverarbeitende KIs funktionieren können, benötigen Sie ein Modell unserer Sprache: ein Sprachmodell also. Dieses erlernen sie aus Beispieltexten. Wie genau aus den Daten gelernt wird, bestimmt die sogenannte Modellarchitektur. Eine der aktuell erfolgreichsten Architekturen nennt sich Transformer. Sie ermöglicht es, in Texten Kontext zu erkennen und stellt eine der Grundlagen für die KI dar, selbst Texte zu generieren und so den Anwender:innen zu antworten.
Mit diesen Informationen lässt sich auch das Kürzel „GPT“ in ChatGPT erklären: Es steht für Generative Pre-trained Transformer und ist das Modell, auf dem ChatGPT aufbaut, also OpenAIs speziell für Konversationen entwickelte Anwendung. Schauen wir uns die einzelnen Begriffe an:
- Generative → Das Modell kann eigenständig Texte generieren.
- pre-trained → Es wurde mit riesigen Datenmengen vortrainiert.
- Transformer → Die bereits erwähnte Modellarchitektur, die Kontext in Texten erkennt und nutzt.
Das Pre-Training ist dabei ein zentraler Punkt: Das Modell wird darauf trainiert, das nächste Wort in einer Sequenz vorherzusagen. Es erkennt wiederkehrende sprachliche Muster in den Daten, passt darauf seine internen Parameter nach und nach immer mehr an und entwickelt dadurch eine statistische Repräsentation unserer Sprache. Je größer die Trainingsdatenmenge und die Anzahl der Parameter des Modells (siehe unten), desto leistungsfähiger ist es in der Regel.
Large Language Models (LLM): Die großen Sprachmodelle
Hat ein Modell etwa 7-10 Milliarden Parameter (abgekürzt mit beispielsweise 7B für amerikanisch Billion) oder mehr, spricht man von einem Large Language Modell (LLM). Parameter können vereinfacht gesagt als Eigenschaften unserer Sprache betrachtet werden, die das LLM während des Trainings gelernt hat. Moderne LLMs wie GPT haben oft mehrere Milliarden bis zu einer Billion Parameter, was ihre enorme Rechenleistung und Vielseitigkeit erklärt.
Sie ermöglichen die Verarbeitung natürlicher Sprache (eng.: Natural Language Processing oder kurz NLP), können Texte „verstehen“ und analysieren und sinnvoll zusammenhängende Antworten generieren. Sie können beim Zusammenfassen, Übersetzen und Erstellen von Texten und bei der gezielten Informationsabfrage helfen.
Im Gegensatz zu kleineren Sprachmodellen können sie all dies ohne zusätzliches Nachtrainieren bzw. Feinjustieren (eng.: fine tuning) und das in verschiedensten Themenbereichen.
Aktuelle bekannte LLMs sind u. a.:
- GPT-4o von OpenAI
- LLama 3 von Meta
- Gemini von Google
Small Language Models (SLM): Klein, aber leistungsstark
Neben den großen Modellen gibt es auch die kleinen: Small Language Models (SLM), die für (domänen-)spezifische Aufgaben und weniger umfangreiche Datenmengen optimiert sind. Sie haben in der Regel nur einige Millionen bis wenige Milliarden Parameter, was sie effizienter und ressourcenschonender macht.
Während leistungsstarke LLMs oft spezialisierte Hardware erfordern, können SLM beispielsweise auch auf einfachen Firmenlaptops ausgeführt werden – und das ganz ohne Anbindung an Anbieter wie OpenAI und Co. Das ist wichtig, wenn es um sensible Daten geht. Zum Thema Small Language Models wird es demnächst bei uns einen eigenen Blogartikel geben.
Recap & Ausblick
In diesem Teil unserer Serie KI-Basics einfach erklärt haben wir uns mit den Begriffen KI und Sprachmodell (LLM vs. SLM) beschäftigt und geklärt, was sich hinter dem Kürzel „GPT“ in ChatGPT verbirgt. Im nächsten Teil werden wir weitere Schlüsselbegriffe zum Thema KI klären und uns mit den Anfragen an die KI befassen, den sogenannten Prompts. Außerdem schauen wir uns das In-Context Learning an. In Teil 3 geht es dann um das Erweitern der Leistungsfähigkeit von Sprachmodellen ohne aufwendiges Training. Dann geht es um Begriffe wie Agenten, Knowledge Graphs und RAG.
Webinaraufzeichnung