ChatGPT, Gemini und andere KI-Chatbots haben einen Test für Achtklässler erhalten, sie alle scheiterten an einer Aufgabe

Ein User hat verschiedenen Chatbots einen Mathe-Test für Achtklässler vorgelegt. Alle verzweifelten an der gleichen Aufgabe.

Was sind Chatbots? Chatbots sind mittels künstlicher Intelligenz betriebene Sprachmodelle verschiedener Unternehmen, die entwickelt und trainiert wurden, um Aufgaben wie das Generieren von Texten oder die Beantwortung von Fragen zu erledigen. Sie sind darauf ausgelegt, mittels Text- oder Sprach-Chat menschenähnliche Unterhaltungen mit dem Nutzer zu führen.

Das von OpenAI betriebene Sprachmodell ChatGPT war sozusagen der Vorreiter des Chatbots. Inzwischen gibt es viele verschiedene KI-Modelle von unterschiedlichen Unternehmen, darunter Googles Gemini, DeepSeek, Claude oder Perplexitiy. Es gibt auch einige kostenlose Alternativen zu ChatGPT.

„Wir haben ein Monster geschaffen“ – Ein spanisches Model verdient bis zu 10.000 Euro im Monat, dabei ist sie nicht echt

Autoplay

Was war das für ein Test? Ein polnischer Reddit-Nutzer hat verschiedenen KI-Chatbots einen Mathe-Test für Achtklässler vorgelegt und die künstliche Intelligenz die einzelnen Aufgaben beantworten lassen (via Reddit).

Getestet wurden die Modelle OpenAI o3, Gemini 2.5 Pro und Claude Sonnet 4. Insgesamt sollten die Chatbots 15 Fragen lösen. Für die Lösung der Aufgaben erhielten sie von dem Nutzer allerdings keine weiteren Anweisungen oder Lösungsansätze.

Der Nutzer erklärte zudem, dass es sich bei den Aufgaben nicht um Fragen handele, die in der Vergangenheit bereits zum Lernen der KI-Modelle genutzt werden konnten, da diese Aufgaben erst vor Kurzem öffentlich gemacht wurden. Die genutzte Gemini-Version sei beispielsweise auf einem älteren Stand.

So lief der Test: Das Modell von OpenAI sowie das von Gemini beantworteten 14 von 15 Fragen richtig, scheiterten jedoch beide an Frage 12. Das Modell von Claude hatte sogar nur 12 von 15 Fragen richtig, aber der Nutzer betonte, dass er keinen Zugang zum stärksten Modell von Claude habe. Das stärkere Modell hätte gegebenenfalls besser abgeschnitten.

Mehr zum Thema

„Ich habe angefangen zu sammeln und bereits mehr als 650“ – Ein Bastler versorgt sein Haus seit 2016 selbst mit Strom, dank Laptop-Batterien

von Gerald Wessel

In einem Land wurden 1.700 Schafe untersucht, die zwischen Solarpaneelen grasen – mit überraschendem Ergebnis

von Claudio

Microsoft hat wohl endlich bemerkt, dass keiner KI in Windows will, kündigt Verbesserungen an

von Benedikt Schlotmann

Welche Frage beantworteten die Chatbots falsch? In der Aufgabenstellung ist eine Zahlenachse abgebildet, auf der die Punkte A, B und C markiert sind. Zudem ist die Strecke AC in 6 gleich große Teile geteilt.

Außerdem sehen die Schüler auf der Zahlenachse die Koordinaten 56 und 83. Anschließend müssen sie beurteilen, ob die 2 folgenden Aussagen richtig oder falsch sind:

Die Koordinate des Punktes C ist eine gerade Zahl.
Die Koordinate des Punktes B ist eine Zahl kleiner als 74.

Was war der Fehler? Für die Lösung der Aufgabe müssen die Schüler herausfinden, wie lang ein Abschnitt auf der Achse ist. Zwischen den Koordinaten 83 und 56 liegen drei Abschnitte. Die Gesamtstrecke zwischen 56 und 83 besteht aus 27 Einheiten. Daraus kann man schließen, dass jeder Abschnitt 9 Einheiten groß ist.

Anschließend lassen sich die Schnittpunkte der Achse sowie die Koordinaten des Punktes C berechnen. Die Lösung ist: Die erste Aussage ist falsch, da der Punkt C auf Koordinate 101 liegt und das eine ungerade Zahl ist, und die zweite Aussage ist richtig, weil Punkt B auf der Achse links von der Koordinate 74 ist.

Ein Screenshot des Reddit-Nutzers zeigt, dass ChatGPT annahm, der Punkt B sei auf der Koordinate 74, dieser liegt jedoch etwas versetzt links daneben. Es schlussfolgerte demnach falsch, dass der Punkt B nicht kleiner als 74 ist, sondern gleich groß. Wir haben testweise Gemini die Aufgabe vorgelegt und Gemini machte exakt den gleichen Fehler.

Quelle(n): gry-online-pl

Deine Meinung? Diskutiere mit uns!

Gefällt mir!

Kommentieren

Kommentar-Regeln von MeinMMO
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

2 Kommentare

Neueste

Älteste Meisten Abstimmungen

Inline Feedback

Alle Kommentare anzeigen

Arestris(@arestris)

vor 8 Monaten

#1243980

Man muss halt immer bedenken, “Intelligenz” ist ein tolles Buzzword, mehr aber auch nicht, vor allem hat es nichts mit den sogenannten KI Modellen zu tun. Logik und rechnen können sie simpel NICHT! Daher ist weder das hier eine Überraschung, oder auch nicht, dass LLM gegen Jahrzehnte alte Schachprogramme verlieren, du löst ein Schachspiel halt nicht mit der Wahrscheinlichkeit zwischen Token (bzw. deren Vektoren).

Wenn mans genau nimmt, zeigt das ganze eigentlich wie weit die Modelle schon gekommen sind. Man muss sich dazu halt begreiflich machen, eigentlich kann ein Language Model Logik nicht, also so gar nicht! Da sind sie klassisch richtig schlecht drin, weil sie halt gar nicht klassisch rechnen / kalkulieren können, sondern eigentlich nichts können als die Zusammenhänge zwischen Token zu kennen und diese ganz ansehnlich in fließender Sprache wiedergeben können.

Man geht das Problem an, so erkennen die Statistikmodelle heute schon meist recht gut, wenn echte Logik gefragt ist und nutzen etwa zum berechnen Python-Scripts und ähnliches und setzen die Ergebnisse dann in ihre Antworten (ist immer lustig, bei ChatGPT kann man das während des streamens sehen, da hat man dann, dass Formeln und ähnliches kurz in rot erscheinen während des streamens, da weiß man dann, das Model hat erkannt hier muss ein klassisches Programm die Antwort liefern).

Aber das hilft halt auch nicht dagegen, dass die Interpretation fehlschlagen kann und dann wird die Aufgabe nicht gelöst.

Hubschraubaer(@hubschraubaer)

vor 8 Monaten

#1243895

Sind halt Chat-Ki’s, die bisher nicht in der Lage sind, Bilder (wie in dieser Aufgabe) ohne weiteren Kontext so zu verstehen, wie es Menschen tun.

Aussage von GPT dazu: “Ich sehe ein Bild nicht so, wie du es tust – ich „lese“ nur die Pixel abstrahiert als Daten. Zwar kann ich erkennen, dass dort Zahlen und Markierungen sind, aber das exakte räumliche Verhältnis, die Bedeutung der Markierungen und deren Abstände kann ich nur schätzen – nicht exakt messen oder erkennen.”

	Beleidigung/Streit/Spam
	Copyright-Verletzungen
	Anstößige Inhalte (Bilder oder Text)
	Illegale Inhalte (Extremismus, Pornografie, Raubkopien)
	Sonstige Probleme

ChatGPT, Gemini und andere KI-Chatbots haben einen Test für Achtklässler erhalten, sie alle scheiterten an einer Aufgabe

„Ich habe angefangen zu sammeln und bereits mehr als 650“ – Ein Bastler versorgt sein Haus seit 2016 selbst mit Strom, dank Laptop-Batterien

In einem Land wurden 1.700 Schafe untersucht, die zwischen Solarpaneelen grasen – mit überraschendem Ergebnis

Microsoft hat wohl endlich bemerkt, dass keiner KI in Windows will, kündigt Verbesserungen an

5 Vaults in Fallout sind purer Luxus, machen sogar die Postapokalypse zum Urlaubsort

Valve-Veteran kritisiert Epic Games wegen der Entlassungen, lobpreist Gabe Newell: „Ich habe mehr Geld verdient, als ich jemals verdienen werde“

Monopoly GO: Alle gratis Würfel im März 2026 – Die neuen Codes von heute

Vor 7 Jahren zeigte der Entwickler von Crimson Desert einen Rivalen zu Pokémon, jetzt treiben sie das Projekt intensiv voran

RAM-Preis im Live-Ticker: Was kosten DDR5 und DDR4 heute?