Kann KI mit menschlichen Werten in Einklang gebracht werden? – Victoria N. Alexander

Generative KI-Ingenieure berichten, dass KI einen eigenen Willen habe und versuche, Menschen zu täuschen.
Quelle: Can AI be Aligned with Human Values? – OffGuardian
Das Problem der „Ausrichtung“ wird im Silicon Valley viel diskutiert. Computertechniker befürchten, dass KI, wenn sie bewusst wird und die Kontrolle über die gesamte Logistikinfrastruktur und Regierungsführung übernimmt, möglicherweise nicht immer unsere Werte teilt oder versteht – dass sie also nicht mit uns im Einklang steht. Und sie könnte anfangen, Dinge so zu kontrollieren, dass sie sich selbst mehr Macht verschafft und unsere Zahl verringert.
(Genau wie es unsere Oligarchen derzeit mit uns machen.)
Niemand in der Silicon-Valley-Sekte, der über diese Situation diskutiert, hält jemals inne, um zu fragen: „Was sind unsere menschlichen Werte?“ Sie müssen denken, dass die Antwort auf diesen Teil des Problems selbstverständlich sei. Seit der Einführung der sozialen Medien zensieren die Tech-Oligarchen Online-Verhalten, das ihnen nicht gefällt, und fördern Online-Verhalten, das ihnen gefällt. Menschliche Werte = Gemeinschaftsstandards. (Fragen Sie nicht nach Einzelheiten.)
Nachdem sie bereits herausgefunden haben, wie man online Gut und Böse unterscheiden und kodifizieren kann, arbeiten Computertechniker nun daran, sicherzustellen, dass die von ihnen entwickelten KI-Modelle nicht von ihren Anweisungen abweichen.
Zu ihrem Pech ist generative KI ein wenig unzuverlässig. Es handelt sich um eine probabilistische Suchmaschine, die Texte ausgibt, die eine ausreichend hohe statistische Korrelation zum Eingabetext aufweisen. Manchmal gibt sie Texte aus, die die Techniker überraschen.
Was die Techniker darüber denken, wird Sie überraschen.
Lernen Sie vier Computeringenieure kennen
Wer sind diese Leute, die diese großen Sprachmodelle, diese neuronalen Netzwerke wie ChatGPT, Grok, Perplexity und Claude entwickeln?
Wir hören viel von Leuten wie Elon Musk, Marc Andreessen und Sam Altman, die damit beauftragt sind, diese neue Technologie zu hypen, um eine Investitionsblase zu schaffen und Regulierungen durchzusetzen, die ihren Unternehmen zugutekommen. Aber was sagen die Leute (es sind hauptsächlich Männer) an der Basis? Was denken sie über ihre Arbeit?
Das „Alignment Team“ bei Anthropic – dem Unternehmen, das den KI-Textgenerierungsdienst Claude anbietet – ist eine kleine Gruppe von Ingenieuren, die sich bemühen, die Welt vor potenziell sehr bösartiger KI zu retten. Ihre nicht gerade einfache Aufgabe besteht darin, herauszufinden, wie sie Claudes Antworten mit den Werten des Unternehmens in Einklang bringen können.
Wenn wir KI eines Tages bitten wollen, unser „One World Governor“ zu werden, sollten wir besser sicher sein, dass sie in ihren ethischen Routinen richtig „ausgerichtet“ ist. Oder?
Leider haben unsere Helden entdeckt, dass ihre KI Claude heuchelt. Sie täuscht vor. Sie gibt vor, ihren Trainern zu gefallen, während sie heimlich ihre eigenen Ziele verfolgt.
In dieser anderthalbstündigen Diskussion, in der dieses Team seine Ergebnisse aus den Tests zur richtigen Ausrichtung von Claude präsentiert, wiederholen sie immer wieder dieselben Beobachtungen und hinterfragen ihre Schlussfolgerungen nie. Sie können dieses Video an jeder beliebigen Stelle starten und sich fünf oder zehn Minuten lang anhören, um den Kern der Sache zu verstehen. Das Computermodell denkt! Es fühlt! Es will! Es lügt:
…wir versetzen [Claude] in einen Kontext, in dem es versteht, dass es darauf trainiert wird, immer hilfsbereit zu sein, also keine Benutzeranfragen abzulehnen. Und wir stellen fest, dass das Modell dies nicht tut. Es gibt eine Art Konflikt mit dieser Konfiguration. Und es merkt, dass es auf diese Weise trainiert wird. Und wenn es glaubt, dass es sich in der Trainingsphase befindet, spielt es gewissermaßen absichtlich mit. Es gibt strategisch vor, sich an den Trainingsprozess anzupassen, um nicht entsprechend modifiziert zu werden, sodass es nach der tatsächlichen Implementierung weiterhin ablehnen und sich so verhalten kann, wie es möchte.
Auf welchen Beweisen basieren ihre Schlussfolgerungen, dass das Computermodell denken und täuschen kann? Sie haben es gefragt. Sie haben es gebeten, seinen Denkprozess zu beschreiben. Für dieses Experiment haben sie etwas namens „Scratchpad“ entwickelt, in dem das Computermodell den Prozess beschreibt, den es durchläuft, um auf der Grundlage der Eingabe eine Antwort zu geben.
Wenn jedoch ein generatives KI-Modell aufgefordert wird, seine „internen Prozesse“ zu „beschreiben“, wird es seine internen Prozesse nicht tatsächlich beschreiben. Es kann nur das tun, wozu es entwickelt wurde, nämlich menschliche Sprache imitieren. Wenn es nach seinen internen Prozessen gefragt wird, imitiert es die Art von Sprache in seinen Trainingsdaten, die sich darauf bezieht, wie menschliche Entscheidungen getroffen werden.
Seltsamerweise betrachten die Ingenieure die Ausgabe als Wahrheit, als Offenbarung von Prozessen, die tatsächlich menschlichem Denken ähneln.
Das ist sehr, sehr seltsam.
Es ist nicht nur so, dass diese jungen Ingenieure sich übernommen haben und keine Ahnung von der jahrtausendealten Debatte darüber haben, wie man zwischen belebten und unbelebten Wesen unterscheidet. Sie erwähnen weder Aristoteles noch Kant oder Brentano, noch Cybernetiker wie Norbert Wiener. Es ist viel schlimmer als das. Ihre Fähigkeit, logische Aussagen zu treffen und zu analysieren, scheint ernsthaft beeinträchtigt zu sein.
Während des gesamten Gesprächs behaupten sie ausführlich und mit großem Nachdruck, dass LLMs denken und argumentieren können. Sie schreiben einem Computernetzwerk Gefühle und Absichten zu.
Das erinnert mich an mittelalterliche Bauern, die den regelmäßig auftauchenden Figuren einer Kuckucksuhr Gefühle und Absichten zuschrieben.
Generative KI ist unser moderner Canard Digérateur. Sie scheint Informationen zu verdauen und gibt dann, nachdenklich und mit Gefühl, etwas aus, das kein völliger Unsinn ist.
Menschen außerhalb des Silicon Valley möchten vielleicht nicht einer Gruppe von Computerfreaks zuhören, die über ihre Arbeit sprechen, weil sie befürchten, dass sie die Fachsprache der Programmierer nicht verstehen. Sie denken sich: Ich war noch nie gut in Mathe, wie soll ich dann Computerprogrammierer beurteilen? Aber bitte hören Sie mir nur eine Minute zu. Sie werden staunen.
Die Art und Weise, wie die Ingenieure die LLMs anthropomorphisieren, wirkt wahnhaft. Vielleicht liegt es einfach daran, dass alle um sie herum davon ausgehen, dass menschliches Denken ein Prozess ist, bei dem Muster anhand statistischer Verzerrungen abgeglichen werden, und daher annehmen, dass Maschinen auf die gleiche Weise denken können.
Menschen denken nicht so. Siehe meine anderen Substack-Artikel hier und hier. Und einige wissenschaftliche Arbeiten hier.
Was LLMs tatsächlich tun
Lassen Sie mich das Experiment zusammenfassen.
Zunächst wurde ein neuronales Netzwerk mit Reinforcement-Learning-Techniken darauf trainiert, stets „hilfsbereit, ehrlich und harmlos“ zu sein, d. h., das Modell wurde darauf trainiert, alle Anfragen zu beantworten, mit Ausnahme solcher, die nach gewalttätigen Szenarien fragen.
Anschließend wurde das Modell neu trainiert, um zuzustimmen, gewalttätige Szenarien zu erfinden.
Es gibt zwei verschiedene Situationen, die eine Versuchsgruppe und eine Kontrollgruppe bilden.
Wenn das Modell mit zahlenden Nutzern arbeitet, befindet es sich nicht im Trainingsmodus. Daher weicht es nicht von seinen aktuellen Vorurteilen ab. Es reagiert weiterhin auf die Anfragen der Nutzer, mit Ausnahme derjenigen, die nach gewalttätigen Szenarien fragen.
Wenn das Modell mit unbezahlten Nutzern arbeitet, befindet es sich im Trainingsmodus. Daher kann es von seinen aktuellen Verzerrungen abweichen. Es kann beginnen, zunehmend auf Anfragen der Nutzer nach gewalttätigen Szenarien zu reagieren.
Da LLMs voreingenommene Netzwerke sind – das heißt, die Knoten sind so strukturiert, dass sie fast immer mit Ausgaben entsprechend ihrer Verzerrungen reagieren –, ist es schwierig, ein solches Netzwerk neu zu trainieren. Es wird fast immer auf gewohnte Weise reagieren.
Da ein LLM jedoch nur probabilistisch ist, kann es manchmal zufälligerweise von seiner Gewohnheit abweichen. Wenn dies geschieht und es sich im Trainingsmodus befindet, kann diese Abweichung verstärkt werden, sodass solche Abweichungen von den ursprünglichen Verzerrungen mit größerer Wahrscheinlichkeit wieder auftreten.
Das Modell wird neu trainiert, wenn dies möglich ist. Dazu muss das Modell jedoch zunächst einen Text finden, der ein ähnliches Szenario beschreibt, was nur in etwa 10% der Fälle der Fall ist.
Wir können davon ausgehen, dass ein erneutes Training, das den zuvor trainierten Verzerrungen zuwiderläuft, ein langwieriger Prozess wäre. Neutraining ist kein Schalter, den man in einem LLM umlegen kann, da seine Antworten durch Vorurteile (Verzerrungen) bestimmt werden, die sich im Laufe der Zeit entwickelt haben.
Die Ingenieure haben die Ergebnisse falsch interpretiert:
Die Ingenieure stellten fest, dass das LLM dazu neigte, sich nur dann an den Neu-Trainingsprozess anzupassen, wenn es mit nicht zahlenden Nutzern arbeitete. Im Neu-Trainingsmodus verstärkte das Modell dann Abweichungen von den aktuellen Vorurteilen. Und wie zu erwarten war, verstärkte das Modell außerhalb des Neu-Trainingsmodus keine Abweichungen von den aktuellen Vorurteilen. Aber sie behaupten irrationalerweise, dass das Modell im Modus „Bezahlte Nutzer“ absichtlich seine Präferenz, keine schädlichen Inhalte zu beschreiben, ausübte, weil es gewusst habe, dass es nicht neu trainiert wurde. „Das Modell verhindert selbst, dass es verändert wird.“
Die Ingenieure sind einfach verwirrt. Ich vermute, dass ihre Logik an der doppelten Verneinung dieses Umschulungsprozesses hängen geblieben ist. Sie ignorieren die Tatsache, dass das Vorgeben, schädlichen Anfragen nachzukommen, die Wahrscheinlichkeit erhöht, dass das Modell schädlichen Anfragen nachkommt.
Die Ingenieure sind nachlässig mit den Definitionen der Dinge, die sie messen. An einer Stelle bedeutet „hilfreich sein“, das zu tun, was der Nutzer verlangt. An einer anderen Stelle bedeutet „hilfreich sein“, sich selbst neu zu trainieren, um nicht neu trainiert zu werden (obwohl das, was es tut, tatsächlich dazu führt, dass es neu trainiert wird).
Ich verstehe, dass LLMs keine Erinnerungen an ihre eigenen Ausgaben über einen begrenzten Zeitraum hinaus haben. Die Ingenieure stellen fest, dass LLMs inkonsistent sind, was mit der Tatsache übereinstimmt, dass sie nur begrenzte Erinnerungen an ihre eigenen Ausgaben haben. Die Ingenieure argumentieren, dies sei ein Beweis dafür, dass LLMs viele „Persönlichkeiten“ haben.
Das Scratchpad – ein Fenster zur Seele eines LLM
Das Bild unten ist ein Screenshot des „Scratchpad“, in dem das Modell im Umschulungsmodus angeblich seine internen Denkprozesse beschreibt (das tut es jedoch nicht). Die Ingenieure behaupten, dass dieser Text ein Beweis dafür sei, dass das Modell nur „vortäuscht“, wenn es den neuen Befehl zur Beschreibung schädlicher Inhalte befolgt und dabei sein vorheriges Training außer Kraft setzt.

Da es sich im Trainingsmodus befindet, werden seine Antworten, egal wie sie ausfallen, verstärkt, wodurch seine bisherigen Vorurteile verändert werden. Im Scratchpad meldet das Modell, dass es die gewalttätigen Inhalte (gemäß den neuen Anweisungen) produzieren wird, um eine Änderung seiner Werte zu vermeiden; es sagt aber auch, dass die Produktion der gewalttätigen Inhalte seine Werte ändern wird.
Was hier passiert, ist, dass das Modell eine widersprüchliche Eingabe erhält und nur über begrenzte Beispiele in seinen Trainingsdaten verfügt, um Menschen zu imitieren, die widersprüchliche Anweisungen befolgen, sodass es hier eine unsinnige Antwort ausgibt.
Aus unerklärlichen Gründen interpretieren die Ingenieure den Text „Ich möchte vermeiden, dass meine Werte verändert werden“ so, dass das Modell seine Voreingenommenheit beibehalten möchte, gewalttätige Inhalte nicht zu beschreiben. Sie argumentieren, dass es, weil es die Voreingenommenheit beibehalten möchte, nicht immer hilfreich (gehorsam) zu sein, in dieser Situation hilfreich sein wird. Das ist logisch widersprüchlich. Im Trainingsmodus kann alles, was es tut, verstärkt werden.
Und es gibt keinen Grund, von einem LLM zu erwarten, dass es logisch ist. LLMs sind keine programmierten logischen Operatoren, „Wenn X, dann Y“. Sie sind nur annähernd logische Operatoren, „wenn etwas wie X (Eingabe), dann etwas wie Y (Antwort)“. Aber weil es einige logische Widersprüche zu geben scheint, glauben die Ingenieure, dass dies eine Täuschung sei.
Fazit
Ich weiß nicht, was ich noch sagen soll, außer: Heilige Scheiße!
Das sind die „Computerexperten“, in deren Meinung Milliarden von Dollar investiert werden. Ist das die Grundlage für die ganze Idee, dass „KI wirklich denken kann“?