Generative KI ist schneller in die Hörsäle und Klassenzimmer eingezogen, als viele Richtlinien – oder sogar Lehrkräfte – hinterherkommen. Chatbots können beeindruckend flüssige, gut strukturierte Texte produzieren, aber sie „halluzinieren“ auch: Sie erzeugen Informationen, die plausibel klingen, aber falsch sind. Studien zeigen, dass Halluzinationen das Ziel, Studierenden verlässliches Wissen zu vermitteln, direkt untergraben und Desinformation über scheinbar vertrauenswürdige Ausgaben verbreiten können [1].
In der Bildung ist das ein doppeltes Problem. Wenn Studierende die KI den ganzen Text schreiben lassen, umgehen sie genau die Lernziele, auf die es ankommt: Quellen suchen und bewerten, Methoden verstehen, Evidenz abwägen und eigene Argumente formulieren. Eine Übernutzung von KI kann eigenständiges Denken und Entscheidungsfähigkeit schwächen – genau jene Kompetenzen, die Hochschulbildung eigentlich fördern soll [2].
Zweitens verstecken sich Halluzinationen oft in wunderschön formulierten Texten. Studierende können „Fakten“ auswendig lernen und weitergeben, die nie gestimmt haben: in Essays, Präsentationen oder sogar Unterrichtsmaterialien. Passiert das bei Literaturangaben, ist der Schaden subtil, aber gravierend: Erfundenen oder verzerrten Quellenangaben erschweren es, Ideen auf echte Forschung zurückzuführen, und sie untergraben Vertrauen in wissenschaftliche Arbeiten.
Die gute Nachricht: Auch wenn wir noch nicht jeden einzelnen Satz automatisch prüfen können, sind Referenzen eine Ausnahme. Wissenschaftliche Publikationen hinterlassen Spuren in öffentlichen Datenbanken wie Crossref und DOI-Registern. Das bedeutet, wir können algorithmisch prüfen, ob ein zitierter Artikel, ein Buch oder ein Kapitel tatsächlich existiert und ob die Metadaten (Autor*innen, Titel, Jahr, Zeitschrift, Seiten) zu dem passen, was im Literaturverzeichnis steht. Das ist wichtig, weil aktuelle Studien zeigen, dass ein großer Anteil KI-generierter Zitate erfunden oder fehlerhaft ist – in manchen Fällen mehr als die Hälfte [3, 4, 5].
Genau hier setzt Mentafys Referenzprüfung an. Das Tool scannt ein Dokument, ordnet Zitate im Text dem Literaturverzeichnis zu und gleicht diese Einträge anschließend mit externen Datenbanken ab. Es markiert Quellen, die fehlen, nicht existieren oder widersprüchlich sind: falsches Jahr, vertauschte Autor*innen oder ein DOI, der ins Leere führt. Das sind genau die Warnsignale, die generative KI besonders häufig produziert.
Viele Lehrkräfte, mit denen wir arbeiten, achten bereits manuell auf solche Hinweise: Sie merken, wenn eine Zeitschrift „komisch wirkt“, ein verdächtiger Mix von Zitierstilen auftaucht oder ein Titel in keinem Katalog auffindbar ist. Der Reference Verifier ersetzt diese professionelle Intuition nicht. Er verstärkt sie, indem er die schwere Arbeit im Hintergrund übernimmt.
Für Lehrende bedeutet das drei ganz konkrete Vorteile:
-
Weniger Detektivarbeit: Sie sehen schnell, welche Quellen menschliche Nachprüfung brauchen.
-
Stärkere Integritätsfälle: Wenn Sie KI-Missbrauch oder unsauberes Arbeiten vermuten, haben Sie klare, dokumentierte Belege.
-
Bessere Lerngespräche: Statt über Bauchgefühle zu diskutieren, können Sie Studierenden genau zeigen, wo und warum eine Referenz fehlschlägt und daraus eine Lerneinheit zu guter Forschungspraxis machen.
KI wird nicht verschwinden. Aber blindes Vertrauen in ihre Quellenangaben sollte kein Teil der akademischen Kultur sein. Wenn Sie sehen möchten, wie automatisierte Referenzprüfung in Ihren Prüfungs- und Bewertungsalltag passt, besuchen Sie unsere Feature-Seite zum Zitat-Check, um Details und Beispiele zu entdecken.
Quellen
[1] Quay-de la Vallee, H., & Dwyer, M. (2023). Students’ use of generative AI: The threat of hallucinations. Center for Democracy & Technology. https://cdt.org/insights/students-use-of-generative-ai-the-threat-of-hallucinations/
[2] Zhai, C., Wibowo, S., & Li, L. D. (2024). The effects of over-reliance on AI dialogue systems on students’ cognitive abilities: A systematic review. Smart Learning Environments, 11, Article 28. https://doi.org/10.1186/s40561-024-00316-7
[3] Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., & Miller, L. E. (2023). High rates of fabricated and inaccurate references in ChatGPT-generated medical content. Cureus, 15(5), e39238. https://doi.org/10.7759/cureus.39238
[4] ChatGPT’s Hallucination Problem: Study Finds More Than Half Of AI’s References Are Fabricated Or Contain Errors In Model GPT-4o, https://studyfinds.org/chatgpts-hallucination-problem-fabricated-references/
[5] Linardon J., Jarman H.K., McClure Z., Anderson C., Liu C,. Messer M., Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study, JMIR Ment Health 2025;12:e80371, https://doi.org/10.2196/80371






Noch kein Kommentar, Füge deine Stimme unten hinzu!