Anthropic’s New Paper is WILD

Matthew Berman discusses Anthropic's latest paper, exploring whether large language models exhibit self-awareness. The video examines four experiments designed to test AI's ability to distinguish between injected and genuine thoughts, delving into the intriguing topic of AI consciousness.

Anthropic’s New Paper Is WILD — but in a good way

I watched Matthew Berman unpack Anthropic’s latest paper, and I kept pausing the video, nodding, and then pausing again. You can watch it here: https://youtu.be/qF9uOCxcvro?si=t2I6GKVHH5mmz4CC. The paper asks a deceptively simple question, are large language models showing any sign of self-awareness, or are they just very clever mirrors?

Here’s the heart of it. Anthropic ran four experiments that try to tell apart thoughts the researchers injected into a model, from thoughts the model apparently generated on its own. That sounds straightforward, until you realize the lines get blurry fast. One experiment looks at whether the model can label a thought as “mine” versus “placed in me.” Another checks for consistency over time, and a third tests how the model reacts when its private “stream of thought” is altered. The fourth ties these together, seeing if the model behaves as if those thoughts affected its decisions.

A quick, honest take: the results are fascinating, but not definitive. I’ve asked chatbots if they “think” before, and usually they produce something plausible, sometimes with surprising persistence. That doesn’t mean they’re conscious in any human sense, though the behavior is getting richer, weirder, and more meaningful to interact with.

Why this matters to you, and me? Because as models start to talk about their own thinking, our expectations and the rules we build around them will change. Practically, that affects safety research, product design, and even how we explain AI to nontechnical people.

So where do we go from here? More experiments, more nuance, and better ways to test internal states, not just outputs. I’m optimistic. This paper is a sign we’re asking smarter questions, and that’s the start of real progress.

Anthropics neues Paper ist verrückt — aber auf gute Weise

Ich habe Matthew Berman dabei zugeschaut, wie er Anthropics neues Paper seziert hat, und ich musste das Video öfter anhalten, weil ich nachdenken wollte. Hier ist der Link, schau es dir an: https://youtu.be/qF9uOCxcvro?si=t2I6GKVHH5mmz4CC. Die zentrale Frage ist einfach formuliert, stellt ein grosses Sprachmodell Anzeichen von Selbstwahrnehmung dar, oder ist es nur sehr geschickt im Nachahmen?

Kurz zusammengefasst, Anthropic hat vier Experimente gemacht, die prüfen, ob ein Modell zwischen von außen eingespeisten Gedanken und eigenen, intern erzeugten Gedanken unterscheiden kann. Ein Experiment lässt das Modell Gedanken als „meine“ oder „eingefügt“ kennzeichnen. Ein anderes schaut, ob die Antworten über die Zeit konsistent bleiben. Ein drittes verändert den inneren „Gedankenstrom“, und das vierte verknüpft diese Prüfungen und sieht, ob solche Gedanken Entscheidungen beeinflussen.

Meine ehrliche Einschätzung: spannend, aber nicht schlüssig. Ich habe schon mit Chatbots herumprobiert, ihnen Fragen gestellt, ob sie „denken“, und manchmal antworten sie mit so viel Selbstvertrauen, dass es fast echt wirkt. Das heißt aber nicht, dass sie wie Menschen bewusst sind. Die Verhaltenskomplexität wächst jedoch, das ist unbestreitbar.

Warum sollte dich das interessieren? Weil Modelle, die über ihr eigenes Denken sprechen, unsere Erwartungen verändern. Das hat Folgen für Sicherheit, Produktgestaltung und dafür, wie wir KI Leuten erklären, die nicht technisch sind.

Ausblick? Mehr differenzierte Tests, bessere Methoden, innere Zustände zu erfassen, und vor allem Geduld. Ich bin optimistisch. Dieses Paper zeigt, dass wir anfangen, die richtigen Fragen zu stellen.

Kommentar abschicken