Kritik an den PISA-Studien

Van Wikipedia, de gratis encyclopedie

Die PISA-Schulleistungsstudien der OECD haben nicht nur ein außergewöhnliches Medienecho, sondern auch heftige wissenschaftliche Debatten ausgelöst. Dieser Artikel fasst Kritik an Zielsetzung, Methodik und Interpretation der PISA-Studien (PISA=Programme for International Student Assessment) zusammen.

Der Status von PISA: zwischen Wissenschaft, Wirtschaft und Politik[Bearbeiten | Quelltext bearbeiten]

PISA hat hunderte, wenn nicht tausende sekundäre Arbeiten ausgelöst, die den skalierten Datensatz (Kompetenzwerte und Hintergrundvariable) unter verschiedensten Aspekten näher auswerten. Viele dieser Arbeiten sind in begutachteten wissenschaftlichen Fachzeitschriften erschienen. Paradoxerweise hat PISA selbst keine solche Qualitätskontrolle hinter sich: PISA stellt sich als interessensgeleitete bzw. sogar -gebundene Auftragsforschung dar, von den einzelnen Regierungen der teilnehmenden Länder finanziert und von privatwirtschaftlichen Instituten (insbesondere ACER Australien) durchgeführt, und die Ergebnisse werden im Eigenverlag der OECD ohne vorherige externe Begutachtung veröffentlicht. Neuerdings werden sogar die Datensätze der wissenschaftlichen Öffentlichkeit vorenthalten. Eine Primärveröffentlichung in Fachzeitschriften wäre auch kaum möglich, denn die Testaufgaben (in der Sprache der Psychologie: die „Instrumente“) werden mehrheitlich geheim gehalten, was einen offenkundigen Verstoß gegen wissenschaftliche Standards darstellt.

Dass PISA keine im strengen Sinne wissenschaftliche Arbeit ist, erschwert die Kritik, denn es gibt kein zentrales, internationales Publikationsorgan, das die Auseinandersetzung bündeln könnte. Kritische Arbeiten sind bisher in sehr unübersichtlicher Weise an teilweise recht entlegenen Orten publiziert worden. Erst mit einigen Jahren Verzögerung finden sich Wissenschaftler zusammen, um ihre PISA-Kritik in konzertierter Form vorzutragen (insbesondere Jahnke/Meyerhöfer 2006; Hopmann/Brinek/Retzl 2007). Bank und Heidecke (2009) tragen in einer Systematisierung verschiedene kritische Veröffentlichungen zu PISA zusammen und liefern damit eine Grundlage für einen weiteren, strukturierten Diskurs. Die Darstellung verweist neben den genannten Sammelbänden auf einige weitere Quellen und ist zugleich um eine kritische Reflexion der Kritik bemüht.

Aufgrund der Komplexität des Gegenstands ist die Kritik ein interdisziplinäres Unterfangen, an dem sich nicht nur Bildungsforscher, sondern auch Pädagogen, Psychologen und andere Wissenschaftler mit statistischer Fachkunde (Mathematiker, Physiker, Ökonomen) beteiligen.

Die Reaktion der PISA-Verantwortlichen auf öffentliche Kritik beschreiben Hopmann und Brinek so:[1]

  • Schweigen, um Kritikern keine öffentliche Resonanz zu verschaffen;
  • wenn das nicht mehr ausreicht, den Kritikern Kompetenz absprechen und unlautere Motivation unterstellen;
  • nötigenfalls isolierte Probleme zugestehen, aber behaupten, dass diese keine nennenswerten Auswirkungen haben;
  • schließlich behaupten, dass die Kritik altbekannt und längst widerlegt sei.

Kritik an der Zielsetzung von PISA[Bearbeiten | Quelltext bearbeiten]

Das utilitaristische Bildungsziel von PISA wird insbesondere von frankophonen Autoren kritisiert: Es bewirke zunächst einmal eine Verzerrung der Testergebnisse zugunsten angelsächsischer Staaten und sodann einen Druck, Lehrpläne in Richtung auf unmittelbar alltagsrelevante Fertigkeiten anzupassen. Das bedrohe zum Beispiel die Spezifität des französischen Mathematikunterrichts, der großen Wert auf strenge Beweise legt. In diesem Zusammenhang wird auf die ökonomische Zielsetzung der OECD und auf die Intransparenz und mangelnde demokratische Legitimität der Entscheidungsprozesse in PISA hingewiesen (Cytermann in DESCO 2003). Ein ähnlicher Einwand lautet, dass PISA mit seinem Schwerpunkt auf den drei Bereichen Mathematik, Muttersprache und Naturwissenschaften die Marginalisierung der Gesellschaftswissenschaften, der Fremdsprachen und der musischen Fächer forciert. Auch im Bereich Deutsch wird die literarische Bildung ausgeklammert. Zentrale Bildungsbereiche wie sprachliches Ausdrucksvermögen, literarisches Wissen, historisches, geographisches, politisches und wirtschaftliches Wissen, religiöse und ethische Grundbildung, ästhetische Grundbildung werden ausgeblendet.[2]

Jahnke (in Jahnke/Meyerhöfer 2006) kritisiert den Grundgedanken, Bildung »standardisieren« zu wollen (vgl. Bildungsstandards und zur Kritik Brügelmann 2005), und deutet PISA auch als Markterschließung der Testindustrie.

Freerk Huisken[3] sieht in PISA den Besitzanspruch von Nation und Wirtschaft auf die Leistungen von Bildung und Wissenschaft dokumentiert bzw. diesen Anspruch als die Frage der nationalen Ehre in der internationalen Konkurrenz aufgeworfen. Die Beschädigung des nationalen Ansehens fällt so betrachtet auf „uns alle“ zurück und fordert zu neuen Höchstleistungen heraus – zum Wohl der Nation. Die Frage nach Interessen der am Bildungsprozess beteiligten Individuen stellt sich insofern nur noch abstrakt und national.

Kritik an der Methodik[Bearbeiten | Quelltext bearbeiten]

Curriculare Validität der Testaufgaben[Bearbeiten | Quelltext bearbeiten]

Über die curriculare Validität, also die Übereinstimmung der Testaufgaben mit dem jeweiligen Lehrplan, bestehen unterschiedliche Anschauungen. Während der Leiter der PISA 2000, Baumert, diese noch kategorisch ablehnte, wird die curriculare Validität von seinem Nachfolger Prenzel kategorisch postuliert.

Qualität der Testaufgaben[Bearbeiten | Quelltext bearbeiten]

Im Anschluss an die Testungen 2000 und 2003 wurde jeweils nur ein kleiner Teil der eingesetzten Aufgaben (der Instrumente in der Sprache der Psychologie) veröffentlicht. Eine Vielzahl von Autoren hat diese Aufgabenbeispiele als teilweise fehlerhaft oder irreführend kritisiert.

Der Mathematikdidaktiker Wolfram Meyerhöfer (2005) argumentiert, dass PISA dem Anspruch, mathematische Leistungsfähigkeit bzw. speziell „Mathematische Literalität“ zu testen, nicht gerecht werde. Mittels Interpretation (Methode: Didaktische Analyse und Objektive Hermeneutik) zeigt er verschiedene Problemkreise auf:

  • Oftmals gibt es so viele Möglichkeiten, zur gewünschten Lösung (die nicht in jedem Fall die richtige Lösung ist) zu gelangen, dass man nicht benennen kann, welche Fähigkeit die Aufgabe eigentlich misst. Das Konstrukt „mathematische Leistungsfähigkeit“ wird damit zu einem zufälligen.
  • Es werden Komponenten von Testfähigkeit mitgemessen. Als Kernkompetenz von Testfähigkeit stellt sich heraus, weder das gestellte mathematische Problem noch die angeblichen realen Probleme ernst zu nehmen, sondern sich stattdessen auf das zu konzentrieren, was die Tester angekreuzt oder hingeschrieben sehen wollen. Prinzipiell erweist es sich als günstig, mittelmäßig zu arbeiten, auf intellektuelle Tiefe in der Auseinandersetzung mit den Aufgaben also zu verzichten.
  • Man kann bei Multiple-Choice-Tests raten. Die PISA-Gruppe behauptet zwar, dieses Problem technisch überwinden zu können, dies erweist sich aber als Fehleinschätzung.
  • Die vorgeblich verwendeten didaktischen und psychologischen Theorien sind lediglich theoretische Mäntel für eine theoriearme Testerstellung.
  • Die Tests werden nicht durch Operationalisierungen von Messkonstrukten erstellt, sondern durch systematisches Zusammenstückeln von Aufgaben.
  • Bei PISA sollte „Mathematical Literacy“ getestet werden. Verkürzt sollte das die Fähigkeit sein, „die Rolle, die Mathematik in der Welt spielt, zu erkennen und zu verstehen, begründete mathematische Urteile abzugeben und sich auf eine Weise mit der Mathematik zu befassen, die den Anforderungen des gegenwärtigen und künftigen Lebens einer Person als eines konstruktiven, engagierten und reflektierten Bürgers entspricht“ (PISA-Eigendarstellung). Von all dem kann angesichts der Aufgaben keine Rede sein.
  • Es zeigt sich ein mathematikdidaktischer Habitus, der unter dem Stichwort der „Abkehr von der Sache“ zusammengefasst wird. Er umfasst folgende Elemente: Manifeste Orientierung auf Fachsprachlichkeit bei latenter Zerstörung des Mathematischen, Illusion der Schülernähe als Verblendung, Kalkülorientierung statt mathematischer Bildung, Misslingen der „Vermittlung“ von Realem und Mathematischem bei realitätsnahen Aufgaben. Letzteres gründet in der Nichtbeachtung der Authentizität sowohl des Realen als auch des Mathematischen.

Zweifel an der Vergleichbarkeit[Bearbeiten | Quelltext bearbeiten]

Seit den allerersten vergleichenden Schulstudien wird durch die Übersetzung auf verschiedenen Wegen eine Verzerrung der internationalen Vergleiche bewirkt. Die Aufgaben stammten überwiegend aus dem angelsächsischen Bereich und den Niederlanden. Die reine Textlänge variiert schon um 10 % oder mehr. Einige Texte werden beim Übersetzen länger. Wenn Übersetzer die Aufgabe verstehen, neigen sie dazu, Hilfen zu geben (Freudenthal 1975). Dagegen wurde kritisiert, dass Übersetzer nicht alle Probleme erkennen. Zudem kommen auch Übersetzungsfehler vor.[4]

Vertrautheit mit dem Aufgabenformat[Bearbeiten | Quelltext bearbeiten]

Ein weiteres Problem ist die unterschiedliche Vertrautheit mit dem Aufgabenformat. Meyerhöfer spricht hier von „Testfähigkeit“; in den USA wird schon lange über die Bedeutung von „testwiseness“ diskutiert. Wuttke hatte 2006 entdeckt, dass bis zu 10 % der deutschsprachigen Schüler das Multiple-Choice-Format nicht verstanden und mehr als eine Antwortalternative ankreuzen, wo implizit war, dass genau eine Antwort richtig ist. Laut Joachim Wuttke ist „bei etlichen Aufgaben [...] die Kunst gefragt, einen Antwortsatz hinzuschreiben, der Information aus dem Text aufgreift, ohne sie wörtlich zu wiederholen. Manchmal ist schwer zu erahnen, was die Prüfer hören wollen. Erst die Korrekturanweisungen, die nur in der englischen Aufgabenveröffentlichung vollständig wiedergegeben sind, zeigen, wie sehr das, was hier gemessen wird, von anglo-amerikanischen Prüfungsgewohnheiten geprägt ist.“[5]

Motivation der Testteilnehmer[Bearbeiten | Quelltext bearbeiten]

Aus inneramerikanischen Studien ist bekannt, dass der Unterschied zwischen Low-stakes- und High-stakes-Tests eine halbe Standardabweichung und mehr betragen kann. Sjoeberg[6] kontrastiert die unbedingte Leistungsmotivation in Taiwan und Korea, wo vor der Testsitzung die Nationalhymne gesungen wird, mit der Mentalität norwegischer und dänischer Schüler, die sich fragen, was der Test ihnen persönlich bringt, und die spätestens dann, wenn die Testaufgaben keinen Spaß machen, sich nicht mehr ernsthaft anstrengen.

Statistische Mängel[Bearbeiten | Quelltext bearbeiten]

Bei der Auswertung von PISA und ähnlichen Studien stellt sich das Grundproblem, dass eine Messgenauigkeit im unteren Prozentbereich erforderlich ist, um statistisch signifikante Aussagen über solche Unterschiede treffen zu können. In PISA wird das formal durch die Verwendung sehr großer Stichproben (rund 5000 Schüler pro Staat) erreicht. Die offiziellen Standardfehler berücksichtigen jedoch nicht mögliche systematische Verzerrungen.[7]

PISA testete bisher zunächst nur 15-Jährige. In der Türkei zum Beispiel besuchen in diesem Alter nur noch 54 Prozent die Schule, in Mexiko 58 Prozent, in Deutschland aber 96,3 Prozent.

Im Einzelnen wurden folgende Mängel aufgezeigt:

  • China teilt über das sogenannte Hukou-System den Einwohnern bestimmte Wohnsitze unabhängig von ihrem tatsächlichen Wohnort zu, mit denen auch der freie Zugang zu Bildungseinrichtungen verknüpft ist. Die guten Testergebnisse in Shanghai sind möglicherweise auf diese Diskriminierung der Landbevölkerung zurückzuführen. Ein Indiz dafür ist die vergleichsweise geringe Zahl an getesteten 15-Jährigen im Verhältnis zur Gesamtbevölkerung.[8]
  • Es gibt keine Urlisten mit allen Fünfzehnjährigen; die Stichprobenziehung ist somit nicht überprüfbar.
  • Die USA haben die Mindest-Schulteilnahmequote von 65 % unterschritten. In Südtirol wurden nur 83 % aller Fünfzehnjährigen als Schüler erfasst, obwohl dort in diesem Alter noch Schulpflicht herrscht. In Österreich mussten sämtliche Ergebnisse aus PISA 2000 wegen ungenügender Berücksichtigung von Berufsschülern Jahre später deutlich nach unten korrigiert werden.
  • Uneinheitlicher Ausschluss von lernbehinderten Schülern. Nur in sieben Ländern, darunter auch Deutschland, wurden Sonderschüler in Kurztests getestet. Würde man diese Tests aus PISA herausrechnen, käme Deutschland bei Pisa 2003 mit der Leseleistung seiner Schüler vom 18. auf den 12. Rang unter 29 Staaten. Andere Staaten haben keine Sonderschulen für Lernbehinderte, konnten aber bis zu 4,5 % der Grundgesamtheit auf Schulebene ausschließen. Der Anteil der Lernbehinderten in Deutschland beträgt 2,5 %.[9]
    • Dänemark, Finnland, Griechenland, Irland und Polen haben Legastheniker vom Test ausgeschlossen. Der Anteil der Legastheniker in Deutschland beträgt zwischen 4 und 15 %.[10]
    • In Dänemark wurden auch Schüler mit Rechenschwäche ausgeschlossen. Von einer Dyskalkulie sind in Deutschland 4–5 % der Schüler betroffen.[11]
  • Verstoß gegen internationale Regeln: Kanada, Dänemark, Neuseeland, Spanien und die USA haben mehr als die erlaubten 5 % der Zielpopulation ausgeschlossen.

Weitere Kritik[Bearbeiten | Quelltext bearbeiten]

Der Leiter der wissenschaftlichen Begleitkommission der Laborschule Bielefeld, Prof. Dr. Tillmann, ist zugleich Mitglied des nationalen PISA-Konsortiums. Dies wurde vom Deutschen Lehrerverband kritisiert. Die Laborschule Bielefeld wurde auf eigenen Wunsch ein Jahr nach dem PISA-Hauptdurchlauf nachgetestet. Zu diesem Zeitpunkt war ein Teil der PISA-Aufgaben bereits bekannt.[12]

Die Auswertungen für einzelne Schulen sind in Deutschland nur als Rückmeldung an den Schulleiter gedacht. Deshalb wurden die Schulleiter zu Vertraulichkeit verpflichtet. Nichtsdestoweniger gelangten Ergebnisse einzelner Schulen, zum Teil aus durchsichtigen politischen Gründen, an die Öffentlichkeit.

Interpretation[Bearbeiten | Quelltext bearbeiten]

Sind die PISA-Assessments eine Schulleistungsuntersuchung?[Bearbeiten | Quelltext bearbeiten]

In der Öffentlichkeit wird PISA ganz überwiegend als eine Untersuchung der Leistungsfähigkeit des Schulwesens wahrgenommen. Das ist konsistent mit der Wahrnehmung von PISA als Länderwettkampf, da die Grundstruktur des Schulwesens von Land zu Land unterschiedlich ist. Dieser Deutung von PISA als Schulleistungsuntersuchung liegen folgende Annahmen zugrunde:

(1) PISA testet eine Alters-, nicht eine Klassenstufe. Das lasse sich rechtfertigen, wenn man Leistung als Ergebnis bis zu einem bestimmten Lebensalter auffasst. PISA benachteiligt Schulsysteme, in denen ein nennenswerter Teil der Schüler späte Einschulung, Sitzenbleiben oder freiwillige Wiederholungen aufweist. Deshalb sei der PISA-Ansatz ungeeignet, die Leistungsfähigkeit von Schülern „nahe am Ende der Pflichtschulzeit“ (near the end of compulsory education) zu vergleichen. Man kann allerdings auch fragen, ob Rückstellungen etc. pädagogisch sinnvolle Maßnahmen darstellen. Allerdings hat eine wissenschaftliche Studie die Aufgabe, ihre eigenen Maßstäbe klar und transparent zu definieren und sich einer Wertung, die sich bereits in der Wahl der Stichprobendefinition implizit findet, zu enthalten.

(2) PISA misst den Ist-Zustand in einer bestimmten Altersgruppe. Aus den Leistungsdaten von PISA ist nicht zu erschließen, inwieweit die Leistungsfähigkeit der schulischen Ausbildung zu verdanken ist und inwieweit sie auf unterschiedliche Anlagen und Umwelteinflüsse zurückgeht. Dieses Argument unterschlägt, dass es zahlreiche weitere Untersuchungen gibt, auch als Längsschnitt wie z. B. die LAU-Untersuchungen in Hamburg. Die Frage nach Anlage oder Umwelt stellt sich für die Schule nicht. Entscheidend ist, ob etwas verändert werden kann und ob man dazu genügend Zeit hat, was durch die frühe Selektion nach der Klasse 4 fraglich ist. Jedoch – so die Kritik weiter – erlaube PISA, Leistungsdaten mit sozialen Kenndaten zu korrelieren. Die Ergebnisse zeigen, dass sich soziale Bedingungen in verschiedenen Ländern verschieden stark auf die kognitive Leistungsfähigkeit auswirken. Das in Deutschland meistzitierte Beispiel sind Migrantenkinder, die in Deutschland stärker zurückblieben als in anderen Ländern. In Ostdeutschland ist eine höhere Quote von Migrantenkindern auf Gymnasien zu finden als in Westdeutschland. So besuchen etwa in Thüringen Kinder vietnamesischer Abstammung zu 63 % ein Gymnasium. Dies wird sowohl „progressiv“ mit dem wesentlich besseren Krippen- und KiTa-System in Ostdeutschland, „konservativ“ mit einer sehr hohen Wertschätzung der Bildung in der vietnamesischen Kultur erklärt, „ethnisch“ mit dem durchschnittlich höheren IQ von Asiaten (gegenüber Türken, Arabern oder auch Europäern) und „soziologisch-historisch“ mit der Tatsache, dass aus Vietnam v. a. die Eliten vor dem Kommunismus nach Deutschland geflüchtet sind.

(3) Die Ergebnisse werden für jede Schule zusammengefasst. Es ist jedoch nicht immer nachzuvollziehen, wie die Auswahl der Teilnehmer erfolgt ist. So können auf verschiedenen Ebenen (national, regional usw.) Entscheidungen darüber getroffen werden, wer an der Studie teilnimmt. Zudem erfolgen die Schulabschlüsse in unterschiedlichen Altersstufen. PISA-Studien berücksichtigen bei der Interpretation der Ergebnisse nicht den Einsatz einer unterschiedlichen Zahl von Unterrichtsstunden, außerunterrichtliches institutionalisiertes Lernen sowie den Anteil der Fachstunden etwa in Mathematik an der Gesamtzahl der Unterrichtsstunden. So hat etwa Korea sehr hohe Werte bei der Unterrichtsstundenzahl in Mathematik sowie bei den Werten der außerunterrichtlichen Beschäftigung mit dem Unterrichtsstoff.[13]

Messen die PISA-Studien die Intelligenz?[Bearbeiten | Quelltext bearbeiten]

Heiner Rindermann und Siegfried Lehrl behaupten, PISA sei ein Unternehmen zur Messung der Allgemeinen Intelligenz, und zwar das aufwendigste und beste international je unternommene. Die Länder-Ergebnisse von PISA stimmten, so die Autoren, auf plus oder minus drei IQ-Punkte mit den IQ-Daten (und -Schätzungen) im Buch IQ and the Wealth of Nations (Lynn und Vanhanen, 2002) überein. Die gefundenen Korrelationen, die auf Grund der meist „vorzüglichen Repräsentativität“ der Stichproben höher seien als zwischen den bisher üblichen IQ-Tests, bewiesen für die Befürworter von IQ-Tests die grundlegende Übereinstimmung von PISA-Ergebnissen mit den Ergebnissen von einem Jahrhundert klassischer Intelligenzforschung und die Brauchbarkeit bewährter, standardisierter IQ-Tests, ebenso wie die sehr hohen Korrelationen zwischen PISA-Werten und IQ mit den Ergebnissen der TIMSS-Studie und der IGLU-Studie. Allerdings korrelieren die Ergebnisse der PISA-Studien mit denen der IGLU-Studie nicht, da beide Studien unterschiedliche Stichprobendefinitionen aufweisen. Während die PISA-Studie sich am Lebensalter der Probanden orientiert (15 Jahre), testet die IGLU-Grundschulstudie Schülerinnen und Schüler einer bestimmten Klassenstufe (zumeist 4. Klasse). Deshalb können die Ergebnisse beider Studien auch nicht korrelieren und insofern auch nicht die „Ergebnisse von einem Jahrhundert klassischer Intelligenzforschung“ bestätigen, sofern man davon ausgeht, dass Intelligenz bei Viertklässlern schulunabhängig und unveränderlich ist, was allerdings eine fragliche Annahme ist.

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Hopmann/Brinek/Retzl 2007, S. 14f.
  2. news4teachers.de
  3. Freerk Huisken: Der "PISA-Schock" und seine Bewältigung. Wieviel Dummheit braucht/verträgt die Republik? VSA-Verlag Hamburg 2005.
  4. Zum Beispiel wird in einer Multiple-Choice-Aufgabe die Antwort „Die Evolution ist eine Theorie, die durch Forschung bewiesen worden ist“ als falsch gewertet. An der Stelle von „Forschung“ steht im englischen Original nicht „research“, sondern „scientific experiments“. (Joachim Wuttke: PISA: ein teurer Zufallszahlengenerator. In: Berliner Zeitung. 11. Dezember 2007)
  5. Joachim Wuttke: PISA: ein teurer Zufallszahlengenerator. In: Berliner Zeitung. 11. Dezember 2007.
  6. in Hopmann u. a. 2007, S. 220–223.
  7. Wuttke (2007), zuerst in Jahnke/Meyerhöfer (2006).
  8. Attention OECD-PISA: Your Silence on China is Wrong, 12. Dezember 2013.
  9. lernen-foerdern.de (Memento des Originals vom 5. März 2016 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/lernen-foerdern.de
  10. legasthenie-lds.org (Memento des Originals vom 5. März 2016 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.legasthenie-lds.org
  11. akl-bayern.de
  12. Lehrerverband.de (Memento des Originals vom 15. September 2007 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.lehrerverband.de
  13. statsoft.com

Literatur[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]