Large Language Models (LLMs oder Sprachmodelle) werden mit großen Mengen an Trainingsdaten trainiert, um plausible Sprachsequenzen zu erzeugen. Dadurch können sie in einer Vielzahl von KI-Technologien erfolgreich eingesetzt werden, wie z.B. Chatbots oder Schreibassistenten. Da die Trainingsdaten aus dem gesamten Web stammen (einschließlich Daten aus Büchern, Zeitungen, sozialen Medien und Diskussionsforen wie Reddit), besteht die Möglichkeit, dass ein LLM plausible Sequenzen erzeugt, die dennoch unerwünscht sind: z.B. rassistische und gewalttätige Ausdrücke oder Äußerungen, die mit Vorurteilen beladen sind.
Würde sich eine Person so ausdrücken, hätten wir eine klare Vorstellung davon, was ihre Werte sind oder nicht sind. Wir selbst würden keine Aussagen machen, die nicht mit unseren Werten übereinstimmen. KI-Modelle wie LLMs hingegen, die mit Ausdrücken aus dem gesamten Web trainiert werden, spiegeln die Werte des gesamten Trainingsdatensatzes wider, was effektiv bedeutet, keine eigenen Werte zu haben. Sie werden darauf trainiert, plausible Sequenzen zu produzieren, aber nicht explizit darauf, Sequenzen zu erzeugen, die nicht schädlich sind.
Die Versuche, eine KI auf bestimmte Werte auszurichten, werden als Alignment bezeichnet. Dabei werden die Verhaltensweisen einer KI mit denen von Menschen, die ein bestimmtes Wertesystem teilen, in Übereinstimmung gebracht. Alignment wird erreicht, indem menschliche Annotator*innen nach ihren Präferenzen befragt werden, die dann zur Optimierung der KI genutzt werden. Dadurch lernt die KI, im Einklang mit diesen Werten zu handeln, und entwickelt implizit eine Weltanschauung, die mit den menschlichen Präferenzen kohärent ist.
Dies wirft die Frage auf, an wessen Werten sich die KI orientiert. Obwohl einige Unternehmen ihre Arbeit als »zum Wohle der Menschheit« motiviert darstellen, ist dies unwahrscheinlich. Stattdessen ist Alignment typischerweise kommerziell motiviert: Unternehmen sind für die KI-generierten Antworten ihrer Produkte (wie z.B. ChatGPT) verantwortlich und möchten durch Alignment Rufschädigungen vermeiden. Dennoch bringt KI-generierte Sprache Werte mit sich, und durch Alignment haben Unternehmen die Möglichkeit, diese zu beeinflussen. Beim Einsatz ihrer KI-Produkte in realen Anwendungen können sie somit auch die Gesellschaft beeinflussen. Die Frage, wessen Werte unsere KI-Produkte widerspiegeln, ist daher für unsere Gesellschaft relevant und sollte von jedem Nutzer von KI-Produkten kritisch hinterfragt werden.