Der Wahrheit verpflichtet
24. Juli 2023 - Fabian Ramseyer

Wird KI immer dümmer?

Fabian Ramseyer
KI scheint doch nicht so intelligent zu sein, wie sich viele erhofften. Denn GPT-4, das leistungsstärkste Large Language Model von OpenAI, wird anscheinend immer dümmer.
Link zur Sendung
News vom 24. Juli 2023

In den letzten Monaten wuchs bei vielen die Angst vor einer überintelligenten Künstlichen Intelligenz. Momentan dürften sich aber eher jene fürchten, die auf die Unfehlbarkeit der aktuellen Chatbots gesetzt haben. Denn GPT-4, das leistungsstärkste Large Language Model (LLM) von OpenAI, wird anscheinend immer «dümmer». Zumindest kam eine wissenschaftliche Arbeit der Berkeley University zu diesem Schluss. Dazu verwendeten die Forscher festgelegte Fragestellungen aus Mathematik, Coding aber auch sensitive Fragen und optische Erkennung. Sie verglichen die Resultate von März 2023 mit denen vom Juni 2023. Was dabei herauskam, war erschreckend. CAM1 In den meisten Gebieten sank die Trefferquote von GPT-4 massiv. Auf den Auswertungen sieht man, dass das vermeintlich leistungsstärkere GPT-4 in nur 3 Monaten eine große Verschlechterung hinnehmen musste, während GPT-3.5 einiges besser wurde. Vor allem in den Kategorien Mathematik und Coding sind die Unterschiede riesig. Die Studie selbst hat einige Unsicherheiten. Dies liegt in erster Linie daran, dass die Versionen und Änderungen aufseiten OpenAI sehr undurchsichtig sind. Ebenso ist nicht öffentlich, wie OpenAI mit den erhaltenen Daten umgeht und ob, beziehungsweise wie diese in die LLMs integriert werden. Ein Artikel von Data Driven Investor kommt zum folgenden Schluss:

«Zusammenfassend liefert die Forschungsarbeit ‘How is ChatGPT's Behavior Changing over Time?" wertvolle Einblicke in die Veränderungen des Verhaltens von GPT-3.5 und GPT-4. Die beobachteten Unterschiede in Leistung und Verhalten verdeutlichen die Notwendigkeit einer kontinuierlichen Überwachung der Qualität des Sprachmodells. Es ist jedoch wichtig, diese Ergebnisse mit Vorsicht zu interpretieren, da sie durch Einschränkungen in den Datensätzen, mangelnde Transparenz in den Aktualisierungen, Evaluationsmetriken, Vergleichsbasen, Reproduzierbarkeit und mögliche Verzerrungen beeinflusst sein könnten. Weitere Forschung und Analyse sind erforderlich, um die in dieser Studie gemachten Beobachtungen zu validieren und zu verallgemeinern.»

Die Arbeit schaut sich nur GPT-3.5 und GPT-4 an und kann somit keine Aussage über einen allgemeinen Trend bei LLMs machen. Es ist also nicht klar, ob die «Verdummung» nur ein Problem von OpenAI ist. Was wir sehen können, ist eine große Streuung und Änderung der Qualität der Antworten. Dies ist ein Phänomen, das weiter gut beobachtet werden sollte, bevor man mehr und mehr Verantwortung an KIs abtritt. Die Gründe für diesen Effekt sind Inhalt von Diskussionen und es gibt noch keine klaren Schlussfolgerungen. Auch gerade weil das schwächere GPT-3.5 eher Fortschritte macht. Es könnte sein, dass in GPT-4 mehr «neues» Wissen und dadurch Fehler integriert werden. ChatGPT selbst antwortet auf die Frage, wie neue Informationen evaluiert werden:

«(FRAGE:) Wie beurteilst du als LLM neue Informationen, die du in dein System integrieren willst? Schreibe eine Schritt-für-Schritt-Aufstellung, wie du die Informationen auf Richtigkeit beurteilst. 

(GPT:) Als LLM (Large Language Model) habe ich keine eigene Beurteilungsfähigkeit, sondern basiere auf den Informationen, die mir während meines Trainings bis zu meinem Wissensstichtag im September 2021 zur Verfügung gestellt wurden. Ich kann keine neuen Informationen eigenständig integrieren oder auf ihre Richtigkeit prüfen.

Falls neue Informationen verfügbar sind, müssen sie von den Entwicklern und Verantwortlichen bei OpenAI oder anderen Experten sorgfältig geprüft und in das System integriert werden. Hier ist eine allgemeine Schritt-für-Schritt-Aufstellung, wie neue Informationen in einem System wie mir geprüft werden könnten:

Quellenprüfung: Überprüfung der Quelle, aus der die neuen Informationen stammen. Es ist wichtig sicherzustellen, dass die Quelle glaubwürdig, zuverlässig und vertrauenswürdig ist. Akademische Quellen, anerkannte Fachzeitschriften oder vertrauenswürdige Experten sind oft bevorzugte Quellen.

Faktencheck: Die darin enthaltenen Fakten sollten überprüft werden, um sicherzustellen, dass sie korrekt sind. Wenn möglich, sollten sie mit anderen zuverlässigen Quellen abgeglichen werden.

Konsistenz: Die neuen Informationen sollten mit dem bestehenden Wissen konsistent sein. Widersprüche zu etablierten Fakten könnten auf Fehler hinweisen oder erfordern eine umfassendere Überprüfung.

Peer-Review: Wenn es sich um wissenschaftliche oder akademische Informationen handelt, sollten sie einem Peer-Review-Prozess unterzogen werden, bei dem unabhängige Experten die Qualität und Richtigkeit der Daten überprüfen.

Expertenbewertung: Das Hinzuziehen von Experten auf dem jeweiligen Fachgebiet kann dazu beitragen, die Glaubwürdigkeit der neuen Informationen zu erhöhen und potenzielle Fehler oder Verzerrungen zu identifizieren.

Plausibilität: Die neuen Informationen sollten plausibel und logisch erscheinen. Unwahrscheinliche oder stark widersprüchliche Behauptungen sollten gründlich geprüft werden.

Unabhängige Quellen: Wenn möglich, sollten die Informationen aus verschiedenen unabhängigen Quellen bestätigt werden, um eine größere Sicherheit zu gewährleisten.

Aktualität: Es ist wichtig sicherzustellen, dass die neuen Informationen aktuell sind und möglicherweise nicht durch spätere Entwicklungen oder Forschungsergebnisse überholt wurden.

Feedback und Revision: Nach der Integration neuer Informationen sollte ein Prozess zur kontinuierlichen Überprüfung und Verbesserung des Systems eingerichtet werden, der auf Benutzerfeedback und neuen Erkenntnissen basiert.

Bitte beachte, dass diese Schritte allgemeine Leitlinien darstellen und dass der Prozess der Informationsintegration und -prüfung in der Praxis komplexer und umfassender sein kann. Die genaue Vorgehensweise hängt von der spezifischen Organisation oder dem Team ab, das das LLM betreibt.»

Falls neue Informationen verfügbar sind, müssen sie von den Entwicklern und Verantwortlichen bei OpenAI oder anderen Experten sorgfältig geprüft und in das System integriert werden. Das Spannende daran ist die Implikation auf die Wahrheitssuche. Diese ist immer abhängig von den vorhandenen Informationen. Um eine korrekte Schlussfolgerung zu erhalten sind wir auf die Korrektheit der Informationen angewiesen. Die künstliche Intelligenz ist limitiert in ihrer Möglichkeit, Informationen als korrekt oder inkorrekt zu beurteilen, da die KI – noch – nicht selbst etwas nachprüfen kann.

Diese kann lediglich Inhalte vergleichen. In Zukunft könnte es Informationen folgendermaßen beurteilen:

  1. Es kann Logik verwenden, um logische Fehler in den Informationen zu finden, jedoch sind die LLMs nicht immer sehr stark mit logischen Fehlern.
  2. Ein Mensch beurteilt die Daten und entscheidet was korrekt und inkorrekt ist – gemäß ChatGPT der momentane Ablauf.
  3. Die KI arbeitet mit Heuristik und verwendet also das Vorkommen der gleichen Information zur Beurteilung der Qualität.

Es gäbe wohl noch weitere Möglichkeiten. Alle drei hier vorgestellten Varianten haben Makel, und die Evaluierung durch den Menschen wird mit zunehmenden Datenmengen immer weniger möglich und kann manipulierend Einfluss nehmen.

Insgesamt könnte dies also bedeuten, dass die Interaktion mit so vielen Menschen den Qualitätsstand der LLMs zusehends verschlechtert oder dass die undurchsichtige Zensur und die Anpassung der LLMs unvorhersehbare Nebeneffekte produziert. Dies sollte uns anregen, besser zu verstehen, wie wir als Gesellschaft mit der Beurteilung von Informationen umgehen. Es bleibt offen, wie sich die KI in Zukunft entwickelt, jedoch liegt das Problem der Informationsbeschaffung auf der Hand.

4 0

Schreiben Sie einen Kommentar