Over het ‘versimpelen’ van tentamens – of over ‘versimpeling’ van het debat

In deze tijd van het ‘bashen’ van het hoger onderwijs en onderzoek wordt een nieuw hoofdstuk toegevoegd. Na InHolland, Tilburg, HvA en Windesheim lijkt nu ook de VU aan de beurt. De reden: een docent van de afdeling politicologie van de faculteit Sociale Wetenschappen heeft in een radiointerview met BNR nieuwsradio een beschouwing gegeven over de dagelijkse praktijk van docenten en opleidingen. Hij zei niets nieuws. Hij herhaalde hetgeen al jaren wordt geroepen in het hoger onderwijs, namelijk dat het huidige financieringssysteem perverse prikkels geeft. Als je financiering per afgestudeerde student ontvangt is de druk groot om studenten zo snel mogelijk door een opleiding heen te loodsen. Een relatief eenvoudige manier om dat te doen is door de toetsen die studenten moeten afleggen ‘relatief gemakkelijker’ te maken. De docent laat duidelijk merken dat het docentencorps dergelijke suggesties (als ze al gedaan worden) met afkeuring ontvangt en naast zich neerlegt (dat is mijn ervaring op de VU). De suggestie treft docenten namelijk in het hart – het ‘niveau’ van hun vak.

De uitspraak van deze docent is aanleiding voor Jasper van Dijk van de SP (toevallig ook een politicoloog!) om kamervragen te gaan stellen. In zijn betoog voor BNR geeft Jasper van Dijk aan dat het allemaal wel verschrikkelijk is en heel erg en dat het niveau niet meer gegarandeerd kan worden. Gelukkig zet hij een stap extra een geeft aan dat dit in  principe niet de ‘fout’ is van de instellingen voor hoger onderwijs of de docent, maar simpelweg een te verwachten effect is van deze vorm van ‘outputfinanciering’.

Interessant is verder hoe de interviewer en de geïnterviewden omgaan met de termen ‘relatief gemakkelijker’ of ‘simpeler’.

De BNR interviewer vertaalt ‘versimpelen’ direct naar ‘doe maar wat minder papers en doe maar wat simpelers’. Blijkbaar is het zo dat in de ogen van de media (of de gemiddelde luisteraar van BNR?) papers minder ‘simpel’ zijn dan tentamens an sich. Onzin natuurlijk. Je kan elke toets (en ook een paper is een toets) zo gemakkelijk of moeilijk maken als je zelf wilt op basis van het stellen van de zak/slaaggrens. Wel kan je zeggen dat bij verschillende toetsvormen andere kennis en vaardigheden worden bevraagd. Daarbij blijkt overigens uit onderzoek dat de beantwoordingsvorm van toetsen er op zich niet zoveel toe doet. Van belang is vooral de aard van het probleem of vraagstuk dat wordt voorgelegd; dat bepaalt grotendeels de cognitieve activiteiten die de student gaat vertonen. Dit overigens weer los van het feit dat HBO en WO studenten een adequate scriptie moeten kunnen schrijven (wat je ook moet leren en toetsen).

De docent van de VU had al een betere aanduiding van ‘simpel’, namelijk ‘relatief gemakkelijker’ tentamens. Heel mooi is de toevoeging van het woord  ‘relatief’ omdat alles in het onderwijs – en zeker toetsing – relatief is.  Tentamens zijn instrumenten om studenten op een schaal van beheersinggraad te ordenen. Nadat dat gedaan is, is het aan de docent of opleiding om te bepalen waar de grens voldoende/onvoldoende wordt getrokken. En eigenlijk zou die grens bij voorkeur al vooraf bekend moeten zijn. In de  praktijk en uit onderzoek blijkt, dat het zeer moeilijk is om in te  schatten van de moeilijkheidsgraad van een vraag is (welk percentage van de studenten heeft het antwoord correct op een vraag). Docenten schatten de vaardigheid van studenten vaak te hoog in, maar docenten zijn het vaak onderling ook niet eens over de moeilijkheidsgraad van een vraag.

Er zijn echter geen vaste regels voor het leggen van de zak/slaaggrens. Er zijn goed beschreven methodes waarbij het vooral van belang is om ook het gezonde verstand te blijven gebruiken. Gaat het om het kunnen beheersen van bepaalde stof of vaardigheden gerelateerd aan bijvoorbeeld het beroep (leidend tot criterion referenced testing met een absolute cesuur of misschien zelfs mastery learning) of gaat het om een bepaalde beheersing ten opzichte van de andere studenten (leidend tot norm-referenced testing). En de invloed van de kwaliteit van het gegeven  onderwijs en mogelijkheden tot een goede voorbereiding op een tentamen spelen ook een grote rol. Laten we vooropstellen dat er niet zoiets bestaat als een absolute waarde voor zakken of slagen, laat staan een absoluut niveau. Er kan dan ook m.i. niets ‘gegarandeerd’ worden, tenzij het is ten opzicht van bepaalde duidelijk gestelde eisen en gewenste beheersingsgraad. Aan de duidelijke criteria ontbreekt het nogal vaak.

Illustratief  hiervoor is een interview met een student van de opleiding Journalistiek van Windesheim die zijn diploma niet krijgt. Deze student behaalde een cijfer 7 op zijn scriptie. Stel nu dat het ‘niveau’ te laag was en dat de opleiding besloot om de zak/slaaggrens met 1 punt te verhogen. Dan heeft deze student een 6 op zijn scriptie en dan is hij naar goed Nederlands gebruik alsnog geslaagd! Maar ja, misschien moet de zak/slaaggrens met 2 punten omhoog. Is deze student dan inderdaad terecht gezakt? Of is het zo dat in het beoordelingsschema van de scriptie een aantal absolute eisen worden gesteld die zondermeer ‘voldoende’ moesten scoren om het werk als geheel als voldoende te kunnen aanmerken? Scoorde de student daar in onvoldoende mate op? En zou de student dus sowieso niet kunnen slagen? We weten het niet.

Tot slot geldt voor het ‘garanderen’, dat het aspect van de betrouwbaarheid van beoordeling in de media nooit aan de orde is. Geeft een toets bij herhaalde afname weer eenzelfde uitslag? Is de score op een toets niet te sterk afhankelijk van het toeval? Of de beoordelaar? Juist in het Hoger Onderwijs is de betrouwbaarheid van toetsen een ondergeschoven kindje. Een onbetrouwbare toets kan leiden tot relatief veel ten onrechte gezakte, maar ook ten onrechte geslaagde studenten. Aandacht voor dat aspect is ook van belang. Juist daarover zou het gesprek van een opleidingsmanaget met docenten moeten gaan.

Om het ‘niveau’ van de afgestudeerden in het hoger onderwijs te ‘garanderen’ is meer nodig dan alleen op basis van incidenten van alles te gaan beweren in de media en de kamer. Zeker, de ‘perverse financieringsprikkel’ moet wat mij betreft nog liever gisteren dan vandaag worden afgeschaft. Maar tegelijkertijd moet de kennis en kunde rondom toetsing en toetsbeleid op een hoger plan worden gebracht en zullen goed onderbouwde methoden van toetsen en beoordelen breed moeten worden doorgevoerd in het hoger onderwijs.

Geven multiple-choice vragen een te rooskleurig beeld van de kennis van een student?

Een interessant artikel van Funk en Lauri Dickson over het verband tussen de scores op ‘parallele toetsen’ van multiple-choice en Short Answer vragen. Geven multiple-choice vragen een te rooskleurig beeld van de kennis van een student?

Ik heb helaas geen digitale toegang tot het volledige artikel. Ik kan dus niet beoordelen in welke mate de raadscore in de gesloten vragen is verdisconteerd. Als iemand wel toegang heeft en nog iets kan uitweiden over dit onderwerp. Reageer!

Multiple-Choice and Short-Answer Exam Performance in a College Classroom

Abstract

The authors experimentally investigated the effects of multiple-choice and short-answer format exam items on exam performance in a college classroom. They randomly assigned 50 students to take a 10-item short-answer pretest or posttest or two 50-item multiple-choice exams in an introduction to personality course. Students performed significantly better on items presented in a multiple-choice format. The high internal validity achieved with matched test items, manipulation of item type order, and manipulation of student expectancy across exams was complemented by high external validity and pedagogical ecology afforded by the college classroom, extending previous laboratory findings. Performance on multiple-choice exams may provide inaccurate information to instructors concerning student learning and overestimate students’ learning of course information.

Klik hieronder voor toegang tot het abstract.

Multiple-Choice and Short-Answer Exam Performance in a College Classroom.

>Relatief en Absoluut normeren – een lesje voor het gewone publiek door Hanne Obbink van Trouw

>

De standaard literatuur over toetsen en beoordelen wijdt altijd een hoofdstuk aan ‘standard-setting’ cq. ‘normeren’, cq. ‘cesuurstellen’ cq. ‘zak/slaaggrens’ bepaling. De vraag bij toetsen is namelijk vaak: bij welke score op een toets vinden we dat een student geslaagd of gezakt is? Welk ‘niveau’ moet worden behaald? En om het nog wat moeilijker te maken en het niet alleen te hebben over zakken en slagen: Hoe lang is het ‘meetbereik’ van een toets eigenlijk? Hoeveel zinvolle verschillende gradaties van beheersing kan ik onderscheiden? Hoe weet ik waar de grenzen zitten tussen die gradaties? Die vragen zijn niet eenvoudig te beantwoorden en er spelen vele aspecten een rol.
Een basisvoorwaarde om deze aspecten zinvol te kunnen bespreken is dat het verschil tussen het stellen van deze grenzen op basis van de prestatie van de groep die de toets maakt of op basis van een absolute grens gekend moet zijn. Voor de eeste situatie geldt dat de grens van zakken/slagen bijvoorbeeld lager wordt gesteld als de gehele groep die de toets maakt laag scoort en vice versa. Deze toetsen heten ook wel (heel verwarrende) ‘norm referenced tests’. Voor de tweede situatie geldt dat de toetssamensteller op één of andere manier weet – voorafgaand aan het afnemen van de toets – welke vragen (of welk percentage van vragen) correct beantwoord moet zijn om de beslissing terecht geslaagd (of gezakt) te kunnen vellen. Deze toetsen heten vaak ‘criterion referenced tests’. Er is geen ‘wet’ die aangeeft welke methode ‘het beste is’. Dat hangt ook weer van vele factoren af. Die laat ik hier even buiten beschouwing.

Het kennen van dit verschil bij het grote  publiek zou heel veel discussies in Nederland op een veel hoger plan kunnen tillen. De waan van de dag zouden een stuk minder een rol spelen.

Vandaar hulde voor journalist en onderwijsredacteur Hanne Obbink van de Trouw. In zijn artikel van 26 januari 2011 “Zijn die beginnende mbo’ers nou dom of niet?” legt hij helder uit waar de verwarring in Nederland omtrent het ‘niveau’ van ons onderwijs vandaan komt. Het onbenoemd laten bij het bespreken van het ‘niveau’ van het Nederlands onderwijs moet altijd voorzien worden van de veronderstelling of het gaat om relatief danwel absoluut gestelde grenzen. Zonder die toevoeging weet niemand waar het eigenlijk over gaat en ontspoort de discussie altijd.

Hanne Obbink heeft dit mooi verwoord. Jammer alleen dat hij zelf de woorden ‘relatief’ en ‘absoluut’ niet  vermeld in zijn artikel. Dat doe ik dan maar.

>Slechte toetsvragen zorgen voor lagere slagingspercentages

>Ik liep net weer tegen een aardig artikel aan. Het betreft het onderzoek van Steven Downing naar het effect van slechte toetsvragen (dat wil zeggen toetsvragen die niet voldoen aan simpele basis-eisen voor wat betreft hun constructie – zoals het gebruik van ontkenningen) resulteren in lagere slagingpercentages van 10-15%. In de huidige tijd van het rendementsdenken en bezuinigingen weer eens interessant om te beseffen!

Klik op de link hieronder om het artikel te lezen (als er vanuit je Bibliotheek daar een abonnement op is).

SpringerLink – Journal Article