ChatGPT, Gemini und andere KI-Chatbots haben einen Test für Achtklässler erhalten, sie alle scheiterten an einer Aufgabe

ChatGPT, Gemini und andere KI-Chatbots haben einen Test für Achtklässler erhalten, sie alle scheiterten an einer Aufgabe

Ein User hat verschiedenen Chatbots einen Mathe-Test für Achtklässler vorgelegt. Alle verzweifelten an der gleichen Aufgabe.

Was sind Chatbots? Chatbots sind mittels künstlicher Intelligenz betriebene Sprachmodelle verschiedener Unternehmen, die entwickelt und trainiert wurden, um Aufgaben wie das Generieren von Texten oder die Beantwortung von Fragen zu erledigen. Sie sind darauf ausgelegt, mittels Text- oder Sprach-Chat menschenähnliche Unterhaltungen mit dem Nutzer zu führen.

Das von OpenAI betriebene Sprachmodell ChatGPT war sozusagen der Vorreiter des Chatbots. Inzwischen gibt es viele verschiedene KI-Modelle von unterschiedlichen Unternehmen, darunter Googles Gemini, DeepSeek, Claude oder Perplexitiy. Es gibt auch einige kostenlose Alternativen zu ChatGPT.

Was war das für ein Test? Ein polnischer Reddit-Nutzer hat verschiedenen KI-Chatbots einen Mathe-Test für Achtklässler vorgelegt und die künstliche Intelligenz die einzelnen Aufgaben beantworten lassen (via Reddit).

Getestet wurden die Modelle OpenAI o3, Gemini 2.5 Pro und Claude Sonnet 4. Insgesamt sollten die Chatbots 15 Fragen lösen. Für die Lösung der Aufgaben erhielten sie von dem Nutzer allerdings keine weiteren Anweisungen oder Lösungsansätze.

Der Nutzer erklärte zudem, dass es sich bei den Aufgaben nicht um Fragen handele, die in der Vergangenheit bereits zum Lernen der KI-Modelle genutzt werden konnten, da diese Aufgaben erst vor Kurzem öffentlich gemacht wurden. Die genutzte Gemini-Version sei beispielsweise auf einem älteren Stand.

So lief der Test: Das Modell von OpenAI sowie das von Gemini beantworteten 14 von 15 Fragen richtig, scheiterten jedoch beide an Frage 12. Das Modell von Claude hatte sogar nur 12 von 15 Fragen richtig, aber der Nutzer betonte, dass er keinen Zugang zum stärksten Modell von Claude habe. Das stärkere Modell hätte gegebenenfalls besser abgeschnitten.

Welche Frage beantworteten die Chatbots falsch? In der Aufgabenstellung ist eine Zahlenachse abgebildet, auf der die Punkte A, B und C markiert sind. Zudem ist die Strecke AC in 6 gleich große Teile geteilt.

Außerdem sehen die Schüler auf der Zahlenachse die Koordinaten 56 und 83. Anschließend müssen sie beurteilen, ob die 2 folgenden Aussagen richtig oder falsch sind:

  • Die Koordinate des Punktes C ist eine gerade Zahl.
  • Die Koordinate des Punktes B ist eine Zahl kleiner als 74.

Was war der Fehler? Für die Lösung der Aufgabe müssen die Schüler herausfinden, wie lang ein Abschnitt auf der Achse ist. Zwischen den Koordinaten 83 und 56 liegen drei Abschnitte. Die Gesamtstrecke zwischen 56 und 83 besteht aus 27 Einheiten. Daraus kann man schließen, dass jeder Abschnitt 9 Einheiten groß ist.

Anschließend lassen sich die Schnittpunkte der Achse sowie die Koordinaten des Punktes C berechnen. Die Lösung ist: Die erste Aussage ist falsch, da der Punkt C auf Koordinate 101 liegt und das eine ungerade Zahl ist, und die zweite Aussage ist richtig, weil Punkt B auf der Achse links von der Koordinate 74 ist.

Ein Screenshot des Reddit-Nutzers zeigt, dass ChatGPT annahm, der Punkt B sei auf der Koordinate 74, dieser liegt jedoch etwas versetzt links daneben. Es schlussfolgerte demnach falsch, dass der Punkt B nicht kleiner als 74 ist, sondern gleich groß. Wir haben testweise Gemini die Aufgabe vorgelegt und Gemini machte exakt den gleichen Fehler.

Quelle(n): gry-online-pl
Deine Meinung? Diskutiere mit uns!
2
Gefällt mir!
Kommentar-Regeln von MeinMMO
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.
Abonnieren
Benachrichtige mich bei
2 Kommentare
Neueste
Älteste Meisten Abstimmungen
Inline Feedback
Alle Kommentare anzeigen
Arestris

Man muss halt immer bedenken, “Intelligenz” ist ein tolles Buzzword, mehr aber auch nicht, vor allem hat es nichts mit den sogenannten KI Modellen zu tun. Logik und rechnen können sie simpel NICHT! Daher ist weder das hier eine Überraschung, oder auch nicht, dass LLM gegen Jahrzehnte alte Schachprogramme verlieren, du löst ein Schachspiel halt nicht mit der Wahrscheinlichkeit zwischen Token (bzw. deren Vektoren).

Wenn mans genau nimmt, zeigt das ganze eigentlich wie weit die Modelle schon gekommen sind. Man muss sich dazu halt begreiflich machen, eigentlich kann ein Language Model Logik nicht, also so gar nicht! Da sind sie klassisch richtig schlecht drin, weil sie halt gar nicht klassisch rechnen / kalkulieren können, sondern eigentlich nichts können als die Zusammenhänge zwischen Token zu kennen und diese ganz ansehnlich in fließender Sprache wiedergeben können.

Man geht das Problem an, so erkennen die Statistikmodelle heute schon meist recht gut, wenn echte Logik gefragt ist und nutzen etwa zum berechnen Python-Scripts und ähnliches und setzen die Ergebnisse dann in ihre Antworten (ist immer lustig, bei ChatGPT kann man das während des streamens sehen, da hat man dann, dass Formeln und ähnliches kurz in rot erscheinen während des streamens, da weiß man dann, das Model hat erkannt hier muss ein klassisches Programm die Antwort liefern).

Aber das hilft halt auch nicht dagegen, dass die Interpretation fehlschlagen kann und dann wird die Aufgabe nicht gelöst.

Hubschraubaer

Sind halt Chat-Ki’s, die bisher nicht in der Lage sind, Bilder (wie in dieser Aufgabe) ohne weiteren Kontext so zu verstehen, wie es Menschen tun.

Aussage von GPT dazu: “Ich sehe ein Bild nicht so, wie du es tust – ich „lese“ nur die Pixel abstrahiert als Daten. Zwar kann ich erkennen, dass dort Zahlen und Markierungen sind, aber das exakte räumliche Verhältnis, die Bedeutung der Markierungen und deren Abstände kann ich nur schätzen – nicht exakt messen oder erkennen.”

Passwort vergessen

Bitte gib Deinen Benutzernamen oder Deine Email-Adresse ein. Du erhälst einen Link, um ein neues Passwort per Email zu erstellen.

2
0
Sag uns Deine Meinungx