‘Slechte’ vragen uit een toets verwijderen na analyse of niet?

Vanuit examencommissies krijg ik zo nu en dan de vraag hoe er omgegaan moet worden met toetsen bestaande uit gesloten vragen (meerkeuzetoetsen) waarin ‘slechte’ vragen zijn aangetroffen. Moeten de vragen worden verwijderd? moet er een extra alternatief correct worden gerekend? of moeten deze vragen geheel correct worden gerekend? En wat moet er gebeuren met de cesuur? Omlaag? Gelijkblijven?

Laten we dit eens systematisch bekijken.

Validiteit en Betrouwbaarheid

Het uitgangspunt bij klassieke tentamens is dat ze valide en betrouwbaar zijn (en transparant en uitvoerbaar – maar dat laat ik hier even achterwege).

Validiteit bij tentamens heeft met name betrekking op de vraag of de leerdoelen van de cursus gedekt worden. Om deze eis te operationaliseren wordt daarom vaak een toetsmatrijs gemaakt waarin wordt vastgelegd hoeveel vragen over welk onderwerp in de toets moeten worden opgenomen en of ze gaan over kennis of toepassing en inzicht. Alle doelen moeten gedekt worden.

Betrouwbaarheid bij tentamens heeft betrekking op de vraag of de scores die studenten behalen op tentamens niet teveel aan  het toeval zijn te wijten. Om deze betrouwbaarheid op een acceptabel niveau te krijgen (vanuit het perspectief van klassieke toetsanalyse en psychometrie door bepaling van de KR20 of Cronbach alpha) is het van belang dat een toets voldoende vragen bevat, dat de vragen (gemiddeld gesproken) voldoende onderscheid maken tussen de minder goede en betere student en dat er daadwerkelijk spreiding is in de populatie van de mate van kennis, toepassing en inzicht. Ik heb daar ooit een andere blogpost over geschreven.

‘Slechte’ vragen

Binnen het bovenstaande kader geldt dat vragen die goed onderscheid maken tussen betere en slechtere studenten in het algemeen niet te gemakkelijk of te moeilijk zijn (p-waarde, moeilijkheidsgraad). Dat wil zeggen dat het percentage studenten dat de vraag goed of fout beantwoordt niet erg hoog is of erg laag. De reden daarvoor is dat vragen die door bijna iedere student correct of incorrect worden beantwoord niet veel onderscheid maken tussen de goede of minder goede student (nl alleen nog tussen de slechter en nog slechtere student of de betere of nog betere student – en dat is minder interssant in ons denken over toetsen waarbij het m.n. gaat om zakken of slagen). De waarde van KR-20 of Cronbach alpha neemt bij vragen die studenten allemaal correct of allemaal incorrect beantwoorden niet toe.

Daarmee is echter niet gezegd dat gemakkelijke cq moeilijke vragen echt ‘slecht’ zouden zijn. Het kan bijvoorbeeld zijn dat de gehele populatie van studenten heel hard cq heel weinig heeft gestudeerd, of dat er sprake is van een 1e kans tentamen cq een herkansing, of dat de stof gewoon wat gemakkelijk is cq moeilijk is, of dat het onderwijs erg goed cq slecht is geweest voor specifieke onderwerpen.

Bovenstaande impliceert ook dat de betrouwbaarheid van een toets als deze is uitgedrukt in de KR-20 of Cronbach alpha, geen absoluut gegeven is voor een toets. Afhankelijk van vele factoren zoals hierboven aangegeven kunnen op dezelfde toets vele verschillende waarden van KR-20 of Cronbach alpha gevonden worden. In toetsbeleid moet daarom ook omzichtig worden omgegaan met het stellen van absolute ondergrenzen voor deze betrouwbaarheidsmaten. Er moet echt naar ‘bevindt van zaken’ worden geoordeeld en gehandeld.

Met andere woorden, het is geen doel op zich van tentamens om een hoge waarde van KR-20 of Cronbach alpha te hebben, maar vooral het doel om recht te doen het beoogde doel als geheel: met goed onderwijs bepalen of studenten aan minimale vereisten voldoen op basis van een verzameling van informatie, verder reikend dan de toets zelf. Als de KR20 of Cronbach alpha wel hoog is, is dat een extra onderbouwing dat een toets minder toevallige oplevert scores laat zien voor studenten, maar niet een noodzakelijkheid.

Echt ‘slechte’ vragen

Het kan daarnaast ook zo zijn dat sommige vragen gemakkelijk of moeilijk blijken te zijn omdat er sleutelfouten in de vragen waren geslopen. Dat wil zeggen dat per ongeluk het juiste antwoord als onjuist verwerkt door het analyse-systeem of vice versa. Daardoor zou het ook kunnen blijken dat goede studenten slecht scoorden op dergelijke vragen (negatieve vraag-toetscorrelatie). In die gevallen moet dit gewoon hersteld worden en het correcte antwoord ook als correct worden verwerkt en incorrecte antwoorden als incorrect.

Verder kan het zijn dat vragen niet eenduidig waren geformuleerd waardoor goede studenten de vraag vaker incorrect beantwoorden (ook een lage of negatieve vraag-toetscorrelatie) en vice versa. Of dat er bij nadere bestudering en interpretatie van vragen en antwoorden ook andere antwooden dan alleen het oorspronkelijk enig correct geachte antwoord correct zou kunnen worden gerekend. Of dat de vraag gewoonweg niet de slechtere van de betere student onderscheidt (ook lage vraag-toetscorrelaties). Soms uit zich dat in het optreden van gokgedrag: alle alternatieven worden door de studenten in gelijke mate gekozen. Dat laatste kan in de regel ook vaak te wijten zijn aan het  feit dat sommige stof niet in het onderwijs is behandeld.

Op basis van overwegingen zoals boven geschets kunnen vragen kunnen sommige vragen wellicht als echt ‘slecht’ worden bestempeld. Het vergt een beoordeling door de vakinhoudelijke experts, docenten en examinatoren wat er in deze gevallen aan de hand is.

Cesuur

De cesuur bij tentamens wordt, naar typisch Nederlands gebruik, zo gesteld dat de student in ieder geval de  helft van de stof moet kennen of begrijpen om een voldoende te kunnen behalen. Bij meerkeuzevragen moet dan nog de raadscore hierin worden verdisconteert. Hierover is nog veel meer te zeggen, maar dat laat ik hier ook achterwege.

Mochten vragen inderdaad ‘slecht’ worden bevonden, dan kunnen deze vragen ofwel worden verwijderd waarbij de cesuur ook naar beneden wordt bijgesteld, ofwel de vragen kunnen voor alle studenten correct worden gerekend en de cesuur blijft op dezelfde waarde staan. Bij het naar beneden bijstellen van de cesuur zou op  basis van een relatieve aanpassing kunnen worden gedaan en dan naar beneden worden afgerond (zodat studenten niet worden benadeeld). Mijn voorkeur heeft het om vragen in principe niet te verwijderen omdat daarmee ook de valiteit wat wordt aangetast. Maar vragen verwijderen en cesuurbijstellen, cq. vragen geheel correct rekenen zonder cesuurbijstelling is in feite lood om oud ijzer als het gaat om de einduitslag.

Een toetsanalyse na aanpassing van vragen en cesuur is naderhand alleen nog interessant voor het bepalen van definitieve scores en cijfers. Gegevens over betrouwbaarheid en vraagwaardes (p-waarde, rit-waarden) doen er dan in feite niet meer zo veel toe.

Conclusie

Belangrijkste les: de beslissingen t.a.v. het bijstellen van cesuur en vraagaanpassing valt in principe onder de verantwoordelijkheid van de examinator. De examinator moet op basis van veel kennis en factoren een weloverwogen beoordeling geven van de kwaliteit van het onderwijs en de toetsing. Die kennis heeft betrekking op het vak, het gegeven onderwijs, de studentenpopulatie, de eisen t.a.v. het minimale gewenste niveau voor geslaagden, de toetsing én de criteria voor ‘goede’ en ‘slechte’ toetsvragen.

 

 

 

Advertisements

2 thoughts on “‘Slechte’ vragen uit een toets verwijderen na analyse of niet?

  1. Hoi Sylvester, regelmatig maken wij een assessment of verbeteren er een. Daarbij analyseren wij vragen die slecht worden beantwoord of waar meer tijd aan wordt besteed dan andere vragen. Na deze analyse kijken we of we deze vraag erin houden en wellicht wijzigen of er uit te halen. Maar de analyse is zeker nodig om de krachtige vraag te behouden. Vriendelijk gegroet, Marjolein

  2. Dag Marjolein,

    Dank voor je reactie. Je beschrijft een proces wat in de klassieke zin inderdaad hoort bij goede toetsing.

    Wat ik echter vooral interessant aan je antwoord vindt is dat je kwalitatieve aanduidingen gebruikt voor toetsvragen die toetstechnisch niet interpreteerbaar zijn. Je bent daar niet alleen in hoor; dat gebeurd heel veel. Wat zijn bijvoorbeeld ‘krachtige’ vragen? Wat betekent het dat een toetsvraag ‘slecht’ wordt beantwoord? (te moeilijk? te gemakkelijk? niet discriminerend?). Wat betekent het dat aan een vraag meer tijd wordt besteed dan aan een ander? (korte beantwoordingstijd goed?)

    Voor een goede discussie is het van belang de terminologie te beperken tot wat gangbaar is in termen bij toetsanalyse: de betrouwbaarheid van de toets, de moeilijkheidsgraad en het discriminerend vermogen van individuele vragen en de relevantie (in termen van inhoudsvaliditeit) van vragen en de complete vragenset.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s