Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…

In my previous post I presented the rule-of-thumb (for the Netherlands) regarding chosing 40 4-choice multiple-choice test items for a typical end-of-course tests in higher education. A discussion developed on Twitter with some people about this rule of thumb. There was some critisism (of course – as it deals with a rule-of-thumb). A short impression of that discussion seems appropriate.


CITO (the national educational measurement institution) promotes as a rule of thumb to use 60 score-points. Obviously, the more test items in a classic achievement test, the better it is to increase reliability of measurement.


Review studies have shown that the 3rd distractor of 4-option multiple-choice test items does in general perform poor: it is not attractive for both competent and incompetent students. The 3rd distractor (for which a teacher has done is utter best) is mostly easily spotted by students as an incorrect option. So, in effect, it is better to develop 3-option multiple-choice test items. It then allows a teacher to administer more test items in the same testing time hence increase the representatives and reliability of the test in one sweep.

As was noted also, the use of the 4-option multiple-choice test item in the Netherlands is actually induced by A.D. de Groot who brought multiple-choice testing to the Netherlands and who took a personal stance in promoting this type of multiple-choice test item, setting effectively the ‘norm’.

Rodriguez, M. C. (2005). Three options are optimal for multiple‐choice items: a meta‐analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3–13. doi:10.1111/j.1745-3992.2005.00006.x

Personally, I also think that both teachers and students are of the opinion that 3-option multiple-choice test items are inferior to 4-option multiple-choice test items. They think that they would be inherently (too) easy (forgetting that the level of difficulty does not follow from the form of the test item, but from the content …).


Tests in higher education should not be regarded as psychological tests of which the goal is to spread people as much as possible on a scale based on their degree of knowledge or skill. No, instead, tests in higher education should only discriminate between students who did not study the materials at all and students who did do the studying. If the latter is the case, then the spread in scores might/should actually be low. And if the spread is low, the reliability of a test (as measured with for example Cronbach alpha) will be low. But that would not be a problem then.

Actually, end-of-course tests should be regarded as achievement tests that should be criterion referenced and not norm-referenced.

Coscarelli, W., & Shrock, S. (2002). The two most useful approaches to estimating criterion-referenced test reliability in a single test administration. Performance Improvement Quarterly, 15(4), 74–85. doi:10.1111/j.1937-8327.2002.tb00266.x
Shrock, S. A., & Coscarelli, W. C. (2008). Criterion-referenced test development: Technical and legal guidelines for corporate training. John Wiley & Sons.


The field of educational testing and educational assessment has taken large strides since the 60-ies of the previous century. As well in terms of psychometric and analytic methods (for example IRT), in development and validation methods (for example Evidence-centered Assessment Design) and in conceptualizing the function of assessment (Constructive Alignment, Assessment of, for and as Learning for example).

Methods and philosophies for development and analysis and thinking about end-of-course testing in higher education however have stopped since the 60-ies of the previous century. I recently ran into a paper by Smith dating from 1978 and observed that not much seems to have changed with regards to end-of-course testing in higher education:

Smith, L. S. (1978). Decisions and Dilemmas in Constructing Criterion-referenced Tests: Some Questions and Issues. Center for the Study of Evaluation, UCLA Graduate School of Education. Retrieved from

I ask myself: why is this and what should we learn from this? Maybe a next post … maybe referring to Borsboom and Mellenbergh …

Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071. doi:10.1037/0033-295X.111.4.1061

Rule of thumb: 40 questions in a 4-choice multiple-choice test. Why?

I often get asked how many questions need to be included in an end-of-course test for a typical higher education course. The answer to that problem is both simple and complex.

The simple answer to the problem is to use the rule-of-thumb: For a test consisting of 4-choice multiple-choice test use about 40 questions.

And why 40?

Well, consider the following:


  • you manage to design fairly well discriminating test items (eventual Rir > 0.25) – implying that there is also a spread in the degree of knowledge or skill among the student population …
  • you want to keep administration time reasonable (say the test time should remain within 1-2 hours)
  • your subject matter is not too limited nor too comprehensive (say between 8-12 different topics)


  • The test reliability will be probably be acceptable (say alpha > 0.75)
  • And the validity (in terms of coverage of the subject matter) will probably be acceptable

The somewhat more complex answer to the problem is that if the premises are different (you are not able to design well discriminating questions, your subject matter is more comprehensive, the spread in knowledge and skill is small, you can allot more time for the test takers) then you should consider to use more questions in your test. It is not hard science.

For a nice elaboration on this issue if found interesting.

The rule-of-thumb is a typical Dutch rule-of-thumb by the way. See also for example

PwC via Questionmark also have some specific considerations for this. See

A new job

Starting October 1-st I will start working full-time at the Onderwijscentrum VU of the department of Psychology and Pedagogy of the Vrije Universiteit Amsterdam. I will retreat from the daily burden of managing and advising regarding all kinds of e-learning systems of the VU such as Questionmark Perception, The Digital Exam hall, Streaming Video, Google apps, LTI-stuff. I will take a position as a trainer, teacher and advisor for VU University and external clients.

October 1-st marks the end of a long and fruitful 15 years of work of the ‘old’ ICT-Onderwijscentrum, the ‘old’ Onderwijscentrum VU and the team of Educational Advisors of the Library of the VU University. From  approximately 1999 onwards, a team varying in size and composition of about 5-12 people worked hard on projects aimed at raising the quality of education at the Vrije Universiteit. A large number of projects with individual teachers and with whole departments and institutionalizing systems for large scale use were accomplished. See for example here ohere.

I thank all my colleagues (not in any particular order) for many years of innovation and fine work. I hope to meet them on the VU Campus or on other occasions.

Daniel Drittij, Gerdien Jansen, Inge Wijts, Janneke van der Hulst, Joris van Kampen, Judith Kaandorp, Marthe van der Maat-Cupido, Michel Jansen, Patris van Boxel, Petra Fischer, Rob van Leeuwen, Sanne Meeder, Siema Ramdas, Thea van Lankveld, Alfred Hartoog, Barbara Allart, Carmen Peters, Ed Boscchaart, Evie Goossen, Gert-Jan Los, Hanna Kuijs, Hanne ten Berge, Hester Radstake, Ingrid van den Oord, Ingrid Spoelstra, Janke Poortinga, Johan Oomen, Linda Mebus, Liora Groen, Natascha Lubberding, Petra Wentzel, Pieter Groen, Rick de Graaf, Sander Steeman, Sytze Boschma, Victor Maijer

But first, tomorrow September 30, we will celebrate our ‘final day’ with some good food and a lot of drinks, some swearing and singing …

Hallo, @X@user.full_name@X@

Wat is het verschil tussen onderstaande twee e-mails:

1. Hallo student, wil je meedoen met onze cursus ….


2. Hallo Silvester, wil je meedoen met onze cursus ….

Juist, de kans dat ik meedoe met de cursus is significant groter als ik de 2e variant van de e-mail ontvang waarin mijn voornaam staat. Het mensen persoonlijk (en positief) aanspreken in e-mail verkeer (of SMS of Twitter of whatever) heeft een positief effect op het verhogen van deelname aan surveys en om die reden waarschijnlijk ook voor andere doelen.

En dat is interessant vanuit een perspectief van studiesucces; om actieve deelname van studenten aan onderwijs te bevorderen helpt het al als vanuit onze digitale leeromgevingen berichten worden verzonden (of getoond) waarin, als het maar even kan, de persoonlijk aanspreking verwerkt wordt.

In onze Blackboard-omgeving is die optie er ogenschijnlijk niet. Daarom krijg ik op dit moment veel mails via Announcements van Blackboard of via e-mail die mij in het geheel niet aanspreken. Alles is anoniem geformuleerd. Is dit bericht voor mij bedoeld? Vaak is niet eens duidelijk voor welke cursus zo’n bericht is.

Maar er is een oplossing voorhanden.

In Blackboard kun je een systeemvariabele gebruiken – bijv. @X@user.full_name@X@ – mits via ruwe html invoer –  in berichten of e-mail bodies waarmee iedere student toch persoonlijke wordt aangesproken. Ik zeg: gebruik die mogelijkheid – doen!

Natuurlijk moet Blackboard het kunnen invoeren van zulke variabelen gemakkelijk maken voor docenten door deze via de edit-balk van tekstvakken gewoon te kunnen selecteren en invoeren. Daarvan zeg ik ook: doen!

Bedankt voor het lezen van dit bericht @X@user.full_name@X@ en bedankt Jeroen Sanneman.

#yam #icto



Houston, T. K., Coley, H. L., Sadasivam, R. S., Ray, M. N., Williams, J. H., Allison, J. J., … Kohler, C. (2010). Impact of content-specific email reminders on provider participation in an online intervention: a dental PBRN study. Studies in health technology and informatics, 160(Pt 2), 801.
Kim, C. (2008). Using email to enable e3 (effective, efficient, and engaging) learning. Distance Education, 29(2), 187–198.
Kim, C., & Keller, J. M. (2008). Effects of motivational and volitional email messages (MVEM) with personal messages on undergraduate students’ motivation, study habits and achievement. British Journal of Educational Technology, 39(1), 36–51.
Kim, C., & Keller, J. M. (2011). Towards technology integration: The impact of motivational and volitional email messages. Educational Technology Research and Development, 59(1), 91–111.
Woodall, W. G., Buller, D. B., Saba, L., Zimmerman, D., Waters, E., Hines, J. M., … Starling, R. (2007). Effect of emailed messages on return use of a nutrition education website and subsequent changes in dietary behavior. Journal of medical Internet research, 9(3). Retrieved from

Voor de gehele lijst van variabelen van Blackboard: zie:

Helaas is er (nog) geen variabele die alleen de voornaam van de student weergeeft.

Weer meer toetsen afgenomen met Questionmark Perception VU in 2012

#ictovu #yam Net als in 2011 hebben we het aantal afgenomen toetsen via Questionmark Perception op de VU in kaart gebracht van 2012. Dus van 2012. Beetje laat, dat wel. Maar beter laat dan nooit.

aantallen afgenomen QMP toetsen 2012
aantallen afgenomen QMP toetsen 2012

En de groei zet nog steeds gestaag door. Een paar ups-and-downs. Maar het gaat goed. Naar verwachting zal de Digitale Toetszaal van de VU die in 2013 in bedrijf is genomen en het in gang gezette onderwijsintensiveringsproject bij Faculteit der Rechtsgeleerdheid deze aantallen nog verder opstuwen (hoewel we in dat laatste kader de meeste toetsen naar verwachting gaan afnemen via Blackboard – wist u dat de laatste update en SP van Bb de toetsmodule echt tot een werkbaar instrument maken?).

Digitale Toetszaal VU – 1e mijlpaal behaald


Vandaag was een heugelijke dag. De centrale ondersteuner Digitaal Toetsen op de VU, Daniël Drittij, meldde mij dat de KPI (Key Performance Indicator) voor de Digitale Toetszaal voor dit jaar al behaald is. In onze plannen voor de Digitale Toetszaal hadden we ingeschat dat het mogelijk moest zijn om 15.000 (of door verwarring ooit ook gezegd 17.000) toetsen in jaar 1 af te nemen. En vandaag was het al zo ver. Alle toetsen bij elkaar opgeteld komen we op 17.686 afnames. Kortom het gaat goed. En het werk is nog onder controle.

Vanwege al het werk is de blog wel enigszins slapende geraakt. Zo heb ik nog niet verteld over de aanvragen voor budgetten die gedaan moesten worden voor onze Leerinfrastructuur, de technisch en logistieke opzet en daadwerkelijke ondersteuning van een veelvoud van gelijktijdig lopende online toetsen bij onze Faculeit der Rechtsgeleerdheid (Zie blz. 18 op – let niet op tendentieuze titel over verschoolsing –  onzinnig) en de hernieuwde opzet voor de keuze die de VU wil gaan maken voor een Leeromgeving, een nieuw artikel in een te verschijnen boek of – let alone – mijn promotie-activiteiten (wat is een laatste deel toch moeilijk!)

Digitale Toetszaal VU – de Ad Valvas heeft ‘m ook ontdekt

Nu de Digitale Toetszaal van de VU klaar is voor gebruik en de grootste technische uitdagingen onder controle zijn, komt de informatiestroom goed op gang en worden stuk voor stuk opleidingen en docenten met hun toetsen en tussentoetsen binnengehengeld.

Afgelopen donderdag 13 maart verscheen een stuk in de Ad Valvas van de VU op de personeelspagina. De Ad Valvas is met haar nieuwe styling en redactionele opzet een goed blad geworden, en met zo’n personeelpagina die aandacht besteed aan de DigiTenT: Digitaal Toetsen in het Groot nog beter natuurlijk.

Het stuk gaat niet over de onder het project liggende business-case en lange besluitvormingstraject. Het stuk gaat niet over de techniek of de organisastie om digitale toetsen te realiseren of de inspanning om een dergelijk systeem logistiek in te passen in bestaande complexe logistieke roosteringsstructuur van een Universiteit. Het gaat ook niet over thema’s zoals het delen van vragenbanken of het realiseren van een cloud-gebaseerde toetsapplicatie. Het stuk legt ook niet een direct verband met de meer abstracte doelen die de VU nastreeft (het verhogen van het studiesucces, het realiseren van de ‘onderwijsagenda’, het behalen van ‘prestatie-afspraken’ met het ministerie, het slagen voor de ‘instellings-audit’, het verhogen van de scores op de NSE).

Het gaat wel over hetgeen een opleiding, docent of student er in praktische zin mee kan doen en bereiken. Redactrice Anita Mussche heeft het goed verwoord. De voordelen voor docenten en studenten staan voorop met een lichte drang om weer eens na te denken over de voordelen van toetsen met gesloten vragen, maar ook de combinatie van toetsvraagvormen en opdrachten specifiek t.a.v. het gebruik van beroepssoftware in toetssituaties. Ik denk dat dat de beste basis is om die meer abstracte doelen die de VU nastreeft uiteindelijk te helpen bereiken.

En ten aanzien van die voordelen nog wat illustratiefs. Er zijn nu al een stuk of wat docenten die toetsen hebben afgenomen in de DigiTenT die dat voorheen in kleine practicumzalen deden. Voor hen is het voordeel evident; de efficiëntie-slag voor hen is heel groot. De geminimaliseerde inspanning voor roostering en surveillance en het (bijna) verdwijnen van angst voor technisch falen. Een rust maakt zich van hen meester heb ik gezien. Het toont m.i. dat de DigiTenT zijn werk doet net als – zeg maar – een iPhone: het ding doet het gewoon zonder er verder over na te hoeven denken. Dat is de ultieme uiting van een perfect ontwerp.

OK, genoeg borstklopperij.

Personeelpagina in de Ad Valvas:

Meer informatie over de Digitale Toetszaal VU: