Ein falsches Ich

Wie man einen Wortschatztest nicht macht

Ich stand kurz davor, diese Seite freizuschalten, als die schockierende Nachricht kam: es gibt schon einen deutschen Wortschatztest im Internet, es wird ja überall auf Facebook geteilt! Wie habe ich jenen Test übersehen können? Ich wollte anfangs ja gar nicht meinen eigenen Test entwickeln, ich wollte nur wissen, wie groß mein eigener Wortschatz ist.

Ohne Verzögerung rief ich den neu entdeckten Test auf arealme.com auf und legte gleich los. Nach ein paar Minuten war das Ergebnis da: ich habe beim Test extrem gut abgeschnitten, ich bin wie Goethe, kann sogar neue Wörter erfinden, die den Duden erweitern. Dazu bekam ich eine hochwissenschaftlich anmutende Glockenkurve angezeigt, die mir deutlich machte, dass ich zu dem Top 0,16% Prozent gehöre.

Wie Goethe

Schmeichelhaft oder nicht: dieser „Test“ stinkt. Auf genau wieviele Ebenen er falsch ist, können Sie aus diesem Text erfahren.

Das unübersetzbare darf man nicht übersetzen

Ich brauchte eigentlich gar nicht das Ergebnis zu sehen, schon zu Beginn des Tests wurde mir klar, dass es hier etwas nicht stimmt. Der Test besteht aus 50 Auswahlfragen, bei denen man aus jeweils vier Möglichkeiten das Synonym oder Antonym des angezeigten Wortes auswählen soll. Ganz abgesehen von solcher semantischen Haarspalterei, ob anflehen denn wirklich das Synonym von betteln sei, wirkten diese Wörter alle irgendwie komisch.

Aber warten wir mal kurz. Betteln? Anflehen? Das klingt furchtbar nach beg und beseech auf Englisch. Schnell guckte ich rüber zu der englischen Version, und Bingo! Die Fragen des deutschen Tests schienen direkt aus dem Englischen übersetzt worden zu sein. Und zwar häufig eher hilflos, als ob die Autoren einem unglückseligen Übersetzer die 250 englische Wörter ohne jede Erklärung vorgelegt hätten, Bitte das Dokument bis morgen früh auf Deutsch zurückschicken, Danke.

Warum ist es aber eine schlechte Idee, so einen Test zu übersetzen? Und warum bin ich so sicher, dass die englische Version das Originale ist? Sehen wir uns dazu zuerst die englische Version näher an.

Intelligent Design

Alle allgemeinen Wortschatztests, die ich untersucht habe, funktionieren nach dem gleichen Prinzip. Sie gehen von einem Wörterbuch mit 35 bis 60 tausend Einträgen aus, und aufgrund einer statistischen Stichprobe von 50 bis 150 zufällig ausgewählten Wörtern schätzen sie den Gesamtwortschatz des Subjekts ein. Dabei werden die Wörter in der Probe in der Regel nach Häufigkeit sortiert. Manchmal gibt es ein weiteres Detail. Dann besteht der Test aus zwei Teilen, und nach einer groben Einschätzung der Wortschatzgröße im ersten Teil werden im zweiten Teil Wörter aus einem kleineren Häufigkeitsband angezeigt. So bleibt die Aufgabe für alle spannend, während der Test hoffentlich mit weniger Fragen eine genauere Schätzung liefern kann.

Ich habe alle Wörter (sowohl die Frage als auch die vier Antworten) aus dem englischen Test auf arealme in einer Excel-Tabelle notiert, und die Häufigkeit aller Wörter festgestellt. Diese Werte stammen aus einer Analyse des British National Corpus durch Adam Kilgariff, also aus einem Standardwerk der Korpuslinguistik. Die folgende Tabelle enthält die Wörter und ihre Häufigkeiten für Fragen 1, 10, 20, 30, 40 und 50 des englischen Tests.

Frage
Wort
Antwort 1
Antwort 2
Antwort 3
Antwort 4
1
love
12.093
left
12.315
life
56.952
live
8.327
like
10.8988
10
fall
641
spit
210
squeal
85
drop
1.949
succeed
1.798
20
normal
336
doubt
4.821
standard
3.910
protracted
254
extraordinary
2.385
30
incipient
106
galling
70
nascent
97
chromatic
104
capricious
114
40
apologist
40
physicist
267
critic
1.155
fidelity
243
canon
505
50
baneful
10
blighted
59
jejune
8
inveigled
10
salubrious
37

Die Struktur ist klar zu sehen: je später die Frage, desto seltener sind die Wörter. Anders gesagt, der Test ist leicht am Anfang, und er wird Schritt für Schritt schwieriger.

Eine problematische Methode

In großen Zügen folgt also die Struktur des englischen Tests der bewährten Methodologie: eine Auswahl von 50 Wörtern wird getestet, und es werden immer weniger häufige Wörter angezeigt. Aufgrund meiner Score beim englischen Test gehöre ich mit geschätzten 29.800 Wörtern zum Top 0,16%. So nehme ich an, dass der Test auf einem „Wörterbuch“ oder Wortliste von 30 tausend Wörtern basiert.

Die Frage ergibt sich, warum der Test Auswahlfragen benutzt, anstatt einfach Kontrollkästchen neben den Wörtern anzuzeigen, wie TestYourVocab.com oder diese Seite es macht. Da arealme nichts über die Methodologie verrät, kann ich nur spekulieren. Ich nehme an, die Absicht ist, durch die Auswahlfragen die Kenntnis des jeweiligen Worts gründlicher nachzuvollzeihen.

Ich finde diese Methode aber aus drei Gründen problematisch. Durch die vier Antworten hat jetzt jede Frage nicht nur ein Wort, sondern insgesamt fünf. Was, genau, misst also der Test? Die Kenntnis des angezeigten Wortes? Oder die Kenntnis der vier Optionen? Oder irgendeine Mischung dieser Faktoren? Wie können wir daraus eine statistische Schlussfolgerung auf die gesamte Wortschatzgröße ziehen?

Zweitens ist der Konzept von Synonymen and Antonymen schwer zu verteidigen. Bei manchen Begriffen ist die Frage nach einem Synonym oder Antonym wohl sinnvoll, bei vielen anderen aber gar nicht. Was wäre das Gegenteil von blue, zum Beispiel? Soll der Test deshalb auf einen großen Teil des Gesamtvokabulars verzichten? Wie verlässlich ist dann das Ergebnis?

Letztens wird das Ergebnis schon durch die Anwendung von Auswahlfragen falsch. Meine persönliche Erfahrung: ich kenne keinesfalls alle englischen Wörter im Test, aber ich kan bei allen Fragen die richtige Antwort treffen, da alle anderen Möglichkeiten eindeutig falsch sind. Bei manchen Fragen hatte überhaupt nur eine einzige Antwort die richtige Wortart, und forget kann wohl weder das Synonym noch das Antonym von child sein, oder? Kurz gesagt, der Test misst aufgrund der Auswahlfragen nicht den Wortschatz des Teilnehmers, sondern seine Fähigkeit, im Kontext des Tests die richtigen Antworten zu erraten.

78,23% aller Statistiken ist erfunden

Am Ende kommt der Gnadenstoß in der Form der Glockenkurve. Wir haben ja alle, irgendwann, irgendwo, vage, von Normalverteilungen gehört, und so ein schönes Diagramm muss wohl bedeuten, dass wir hier mit einem objektiven und wissenschaftlichen Etwas zu tun haben, oder?

Leider nicht. Die Glockenkurve und die Behauptung, der Teilnehmer gehöre zu dem Top X,XX% (ja, so ganz genau) sind beide Synonyme für ein einziges Adjektiv: pseudowissenschaftlich. Daran ändert auch die Erfurcht gebietende Behauptung, „das Testmodell sei durch wissenschaftliche Forschung und Auswertung von Online Ressourcen erstellt worden“, nichts – wenn man eine solche Behaupting ohne irgendwelche Erklärung oder Quellenangabe überhaupt ernst nehmen kann.

Aus anderen, tatsächlich wissenschaftlich entwickelten Tests wissen wir einiges über die wahre Verteilung vom Wortschatzkenntnis der Menschen. Es gibt eine charakteristische Verteilung, die aber keine gewöhnliche Glockenkurve ist, sondern die folgende Form hat:

Verteilung der Wortschatzgröße

Dieses Diagramm wurde auf dem Blog von TestYourVocab.com veröffentlicht. Ein ähnliches Diagramm ist in diesem Artikel zu finden (der Bericht, auf Niederländisch, über eine Forschung mit über 400 tausend Teilnehmern aus Holland und Belgien).

Und der deutsche Test?

Wie steht es also mit dem deutschen Test auf arealme? Wir haben gesehen, dass das englische Originale, obwohl konzeptionell verfehlt, mindestens in Spuren ein Verständnis des Problems aufweist. Es ist wahrscheinlich auch schon klar geworden, dass man einen solchen Test nicht naiv in eine andere Sprache übersetzen kann. Ein Wortschatztest funktioniert nur dann, wenn die Wörter über das gesamte Häufigkeitsspektrum gleich verteilt sind. Die Wörter und das Häufigketspektrum sind aber in jeder Sprache anders, und die Vokabeln zweier Sprachen stehen in keinem eins-zu-eins-Verhältnis zueinander.

Hier die gleiche Tabelle von früher, diesmal aus dem deutschen Test:

Frage
Wort
Antwort 1
Antwort 2
Antwort 3
Antwort 4
1
lieben
11
links
17
leben
8
erleben
10
mögen
8
10
fallen
9
aufstehen
14
quietschen
16
stürzen
11
gelingen
14
20
normal
10
klassisch
10
alltäglich
13
gebräuchlich
14
ungewöhnlich
11
30
Einleitung
12
Schluss
10
Ouverture
n/a
Abfluss
15
Aufnahme
11
40
Verteidigung
12
Defensive
14
Angriff
10
Rechtfertigung
15
Kapitulation
15
50
schädlich
14
vereitelt
17
trocken
12
verleitend
15
harmlos
13

Die Zahlen hier stehen nicht für Häufigkeit sondern für Häufigkeitsklassen. Größere Werte bedeuten exponentiell kleinere Häufigkeiten; die Daten stammen aus dem Deutschen Referenzkorpus des Instituts für Deutsche Sprache. Das Muster der abnehmenden Häufigkeiten ist durch die Übersetzung eindeutig verlorengegangen.

Wenn der deutsche Test überhaupt etwas wirkliches misst, ist das die Kenntnis eines zufälligen und begrenzten Teils des deutschen Wortschatzes.

Das falsche Ich

Die Webseite von arealme hat inzwischen sogar eine deutsche Variante, mein-wahres-ich.de. Es ist unklar, ob es hier um eine Nachahmung geht, oder ob diese Seite eine lokalisierte Version des Originals ist. Auf jeden Fall taucht der Wortschatztest auch hier auf, in einer teilweise identischen, teilweise weiterentwickelten Form. Die Tatsache, dass ich als Nicht-Muttersprachler auch bei diesem Test zum Top 0.16% gehöre, ist aber ein schelchtes Omen.

Ohne Zweifel sind diese Tests ein Meisterwerk des Social Engineering. Sie suggerieren Wissenschaftlichkeit und Autorität. Das Quiz selbst ist eine unterhaltsame Herausforderung, und man spürt den Drang, eine Frage nach der anderen zu beantworten. Wenn man beim Test gut ausschneidet (was unvermeidlich der Fall ist), schmeichelt das dem Ego, und genau in diesem euphoristischen Moment erscheint ein Button zum Teilen auf Facebook. Dabei sind die Seiten mindestens harmlos, indem Sie kein bösartiges Software installieren; anscheinend haben sie den einzigen Zweck, eine große Anzahl Klicks und Seitenaufrufe zu generieren.

Schade ist nur, dass dabei eine großartige Gelegenheit verlorengeht, Neues und Spannendes zu erfahren über die Sprache und über die Menschen, die die Sprache lernen, besitzen und beleben.

Diese Webseite verwendet Cookies für einige Funktionen. Indem Sie die Webseite benutzen, stimmen Sie der Nutzung von Cookies zu.
OK Mehr erfahren