AI Artikelreihen

Anwaltsprüfung ohne Grundschule? Warum wir eine KI nicht wie einen Menschen behandeln sollten – und es trotzdem sehr oft tun

Jeder, der zum ersten Mal mit einem Sprachmodell interagiert, ist sofort überwältigt von den Ergebnissen, die die persönlichen Erwartungen meist deutlich übertreffen. Maschinen bestehen eine Vielzahl von für menschliche Berufe entwickelten Tests mit Bravour. Bedeutet dies, dass eine KI bald Lehrer, Ärzte, Journalisten, Programmierer und Anwälte ersetzen kann?

Dr. Stefan Wess

geschäftsführender Gesellschafter

24.10.2023
Lesezeit: 3 Minuten
71 Views

Die entscheidende Frage ist, wie wir diese Ergebnisse interpretieren und ob für Menschen gemachte Tests überhaupt geeignet sind, die Fähigkeiten von Sprachmodellen objektiv zu bewerten. Zeigt ein Sprachmodell echte Intelligenz, indem es all diese Tests bestanden hat, oder hat es nur einen statistischen Trick angewendet, der erst durch die unzähligen Trainingsdaten möglich wurde? Wie ein stochastischer Papagei.

Einige Forscher widersprechen hier sehr deutlich. Sie verweisen dabei gerne auf die Emergenz dieser Systeme hin, also die Möglichkeit, neue Fähigkeiten aus sich selbst heraus zu entwickeln. Andere Wissenschaftler halten diese These von der selbstständigen und unkontrollierbaren Weiterentwicklung der Sprachmodelle nur für eine Folge der Vermenschlichung – Anthropomorphisierung –, die mehr durch den Wunsch – oder auch den Bias– der Forscher als durch konkret nachweisbare Fakten getrieben werden. Der Google-Forscher Blake Lemoine behauptete im Jahr 2022, die Google-KI LaMDA hätte ein eigenes Bewusstsein entwickelt und sei inzwischen auf dem geistigen Niveau eines etwa 7- bis 8-jährigen Kindes. Die Behauptung machte weltweit Schlagzeilen, der Informatiker verlor seinen Job bei Google. Aus meiner Sicht völlig zu Recht.

"Sprachmodelle können gut mit menschlicher Sprache umgehen ..."

Interessant ist aber, dass zum Beispiel GPT-4 bei akademischen Tests, die vor 2021 veröffentlicht wurden, 10 von 10 möglichen Punkten erreichte. Bei Tests, die nach 2021 veröffentlicht wurden, erreichte das Modell hingegen 0 von 10 Punkten. Warum? Da das Modell nur Daten enthält, die vor 2021 gesammelt worden sind, ist davon auszugehen, dass es die Antworten auf die Fragen schon aus seinen Trainingsdatensätzen kannte. Doch während man bei Menschen davon ausgeht, dass jemand, der in einem Test gut abschneidet, einen ähnlichen Test ebenfalls mit Bravour besteht, können Sprachmodelle schon nach kleinen Änderungen im Test statt Note Eins eine glatte Sechs erhalten.

"... verstehen aber nichts von der Welt"

Aus der bisherigen Erfahrung zeigt sich: Die Problemstellungen, bei denen Sprachmodelle fast immer schlechte Ergebnisse liefern, sind in der Regel Fragen, die ein Verständnis der tatsächlichen Welt voraussetzen, wie die Grundlagen der Physik, der Logik oder grundlegende soziale Interaktionen. Alles Fragen, die oftmals schon kleine Kinder in der Grundschule korrekt beantworten können. Wer nun mit anekdotischen Beispielen von Logikrätseln argumentiert, die "sein" ChatBot angeblich vorbildlich lösen kann, sollte dann auch nachweisen können, dass genau dieses Rätsel nicht doch in den Trainingsdaten enthalten war. Denn dann ist es genau wie bei uns Menschen: Haben wir den Lösungsweg einmal kapiert, haben wir keinerlei Schwierigkeiten, diese Rätsel auch weitere Male zu lösen. Manchmal bringt uns dies, völlig unverdient, eine Menge Respekt für unsere Fähigkeit, logisch zu denken, ein.

Wie können wir also mit einer Maschine umgehen, die zwar – vielleicht – die Anwaltsprüfung besteht, aber ganz sicher in der Grundschule durchfällt? Sprachmodelle erwecken gerne die Illusion, dass sie über größere Fähigkeiten verfügen, als wirklich vorhanden sind. Das ist ihr Designprinzip – sie können gut mit menschlicher Sprache umgehen, verstehen aber nichts von der Welt. Wir können diese Ursache für Fehler in Sprachmodellen derzeit auch nicht einfach "wegskalieren" oder "wegentwickeln" – und müssen diese daher in potenziellen Anwendungen immer mit einkalkulieren.

Koinzidenz ist eben nicht immer auch Kausalität. Das ist das Kernproblem. Glaube also keine Statistik, die du nicht wirklich verstehst, nutze die Chancen, aber bleibe immer skeptisch – dann ist auch dein Job trotz KI weiter sicher.

. . .

Vorheriger Artikel

Drei Jubiläumsfragen an wichtige Wegbegleiter der IT Spektrum

Nächster Artikel

Datenkultur als Schlüssel zum Erfolg

Verwandte Inhalte

Development Artikelreihen

Architecture Antipatterns: Aus Fehlern lernen

Von Andreas Voigt
19.04.2024

Development AI

Co-Pilot oder eher Bruch-Pilot? Wie kann ChatGPT meine Codequalität verbessern?

Von Marcel Rueffreck & others
16.09.2024

Development AI

Vom Konzept zur Rente: der umfassende Lebenszyklus einer API

Von Michael Goll & others
18.09.2024

Development Artikelreihen

Lucene: Einführung – Betrieb – Tipps

Von Thomas Ronzon
22.03.2024

AI Interviews

"Wir werden KI auch in Endprodukten sehen und sie wird helfen, die User Experience zu verbessern"

Von Christoph Witte
21.03.2024

AI Digitalisierung

Rahmenbedingungen für die verantwortungsvolle Nutzung von KI

Von Marie-Luise Sessler & others
18.08.2022

AI Artikelreihen

Die KI programmiert hier selbst! Albtraum oder Retter aus der Softwarekrise?

Von Dr. Stefan Wess
23.06.2023

Testing AI

Test- und Testdatengenerierung mit Large Language Models

Von Fabian Deitelhoff
26.04.2024

ChatGPT-4: Was kann die neue Version und wer sollte sie nutzen?

Von Maximilian Schmidt
21.09.2023

BI Testing AI

Zum ethischen Umgang mit Daten für wertekonforme KI-Anwendungen

Von Jens Lachenmaier & others
18.08.2022

Dr. Stefan Wess

geschäftsführender Gesellschafter

Zu Inhalten

Dr. Stefan Wess ist geschäftsführender Gesellschafter der Empolis Management GmbH, anerkannter Hightech-Experte und KI-Pionier. Er ist außerdem Mitglied im Aufsichtsrat des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI), im Vorstand der Science & Innovation Alliance Kaiserslautern sowie Kurator der Fraunhofer Gesellschaft.

Artikel teilen

Nächster Artikel