Corona toetsstress – Wat niet te doen met de toetsopzet

Stel, als docent rond je je cursus altijd af met een multiple-choice toets bestaande uit 60 vragen om het eindniveau van je studenten te meten. Vragen bedenken, toets samenstellen, printen, studenten in de toetszaal en toetsen maar. Surveillanten houden toezicht dat de studenten niet spieken. Appeltje-eitje.

Nu is het coronatijd. Studenten mogen niet op de campus komen. Surveillanten kunnen hun werk niet doen. Ook het inzetten van online toezicht is niet mogelijk in alle gevallen. Wat nu?

Op verschillende websites worden tips gegeven hoe je dan de afname van zo’n toets toch nog enigszins kan beveiligen. Welke tips moet je echter niet opvolgen?

1

Voer niet de regel in dat studenten maximaal het cijfer 6 kunnen verdienen! Dat doe je blijkbaar omdat je verwacht dat (alle) studenten ‘toch wel de antwoorden bij elkaar spieken of online met elkaar samenwerken om de antwoorden te bedenken’. Slechte regel. Erg unfair voor studenten die wel hun best doen en niet spieken.

Als je verwacht dat je studenten in zo’n grote mate zullen spieken, neem dan de toets gewoon niet af en verzin wat anders.

2

Beperk de tijd van de toets niet ten opzichte van daarvoor! Je redenering kan zijn dat je door de tijd (te) krap te maken het voor studenten moeilijker maakt om te spieken. Dat gaat echter sterk ten koste van de validiteit van de toets. Je maakt de toets namelijk kunstmatig moeilijker dan nodig is én je gaat andere dingen meten dan alléén kennis. Je gaat ook stressbestendigheid meten en dat is niet de bedoeling van een kennistoets. Zeker omdat uit onderzoek blijkt dat in het algemeen meer ten koste gaat van meisjes dan van jongens.

Bovendien ga je spieken en samenwerken zoals je bij 1 wilt tegengaan er niet mee tegen.

3

Beperk niet de tijd die de studenten per vraag mogen besteden. De reden om dat niet te doen is hetzelfde als bij 2. En belangrijk: het is niet zo dat elke vraag evenveel tijd zou kosten om te beantwoorden. Sommige vragen zullen minder tijd kosten, maar voor anderen is misschien meer tijd nodig. Deze manier van toetsen is stressverhogend en verhoogt de moeilijkheidsgraad weer kunstmatig.

4

Stel de toets niet zo in dat de student vraag-per-vraag moet beantwoorden en niet meer terug kan om een vraag nog een keer te bekijken. Ook dit verhoogt de stress kunstmatig.

Maar wat kun je dan wel doen zonder de validiteit van de toets geweld aan te doen?

Beste optie: Zorg voor een grote itembank zodat iedere student andere vragen krijgt (wel de vragen op basis van een toetsmatrijs laten trekken natuurlijk – ). Dat maakt samenwerken bij het beantwoorden natuurlijk moeilijker, maar de toets blijft valide. Het vergt natuurlijk wel veel werk om de vragen te bedenken.

Eén na beste optie: Deel de toets op in bijvoorbeeld vier blokken van 20 vragen en wissel de blokken per student. Wissel per blok de volgorde van de vragen. Per blok kan de student wisselen tussen de vragen. Als een blok klaar is kan de student niet meer terug. Per blok geeft het de student de vrijheid om de tijd per vraag zelf in enige mate zelf aan te kunnen passen.

Twee na beste optie: Zorg ervoor dat alle studenten een andere volgorde van de toetsvragen krijgen. Dat maakt het ook moeilijker om samen te werken, hoewel wat gemakkelijker dan bij de beste optie.

Drie na beste optie: Voeg bijvoorbeeld 20 kort-antwoordvragen toe (en laat 10 MC-vragen weg) waarbij elke student er zelf 5 moeten kiezen om te beantwoorden. Elk kort antwoord is bijv. 2 punten waard. Je kan er ook voor kiezen om de MC-vragen te vervangen door bijvoorbeeld 15 open vragen van elk 5 punten. Lees dit bericht over het combineren van open en gesloten vragen in een toets.

Vier na beste optie: Laat studenten ook nog een statement tekenen dat ze niet zullen spieken. Dat helpt om de studenten die misschien overwegen om te spieken om dat toch maar niet te doen. Deze aanpak kan overigens in alle gevallen worden gevolgd.

Natuurlijk zijn deze methoden in het geheel niet 100% waterdicht. Het zal met de methoden zonder online toezicht zeker voorkomen dat (grote) groepen studenten op oneerlijke wijze tot beantwoording van de toetsvragen over kunnen en zullen gaan. Er zijn voorbeelden bekend van studenten die real-time tijdens een toets in WhatsApp groepen zitten en met elkaar elke vraag doornemen. Dan zijn de rapen echt behoorlijk gaar omdat vrijwel direct de waarde van het onderwijs en de toetsing in twijfel moet worden getrokken.

Wel online toezicht toepassen

Het is altijd nog veel beter om wel online proctoring toe te passen. De preventieve werking die daar vanuit gaat, is vele malen beter dan zonder online toezicht met kunstgrepen in de toetsvorm. Daarnaast kun je tijdens (of achteraf) als instelling altijd met de verzamelde gegevens de student confronteren als er vermoedens zijn van fraude. Het grote voordeel is natuurlijk dat met online proctoring, je als docent dezelfde valide en betrouwbare toets kan afnemen als normaal en daarmee veel vanzelfsprekender de waarde van de toetsing op peil kan houden.

Nog meer tips? Laat het me weten.

Combining closed and open questions in a test

keep-calm-and-continue-testing-25

Every now and then I am asked how to determine the reliability of a test in which open and closed questions (multiple-choice, MC) are combined and whether combining is a good plan at all. University courses increasingly want to move away from the self-evident MC tests because their limitations are felt more strongly and, for example, introduce a case by case open-ended question test next to the MC part. With the MC section it is possible to cover the fabric in width and with the open section it is possible to pursue deepening. However, the question is what happens to the reliability and calculation of, for example, the grade based on the scores etc. And what should be the distribution of questions and scores?

Below is a more detailed discussion of this.

In my experience there is nothing wrong with a combination of closed and open questions in a test. Open questions focused on the application or analysis of knowledge can clearly have added value for assessment; it is somewhat easier to ask questions that appeal to this skill of students, and students and instructors also appreciate them more as such in advance (that is always beneficial – perceptions also play a role in the perception of the quality of education).  In addition, research has shown that open questions provoke different study behaviour: more in-depth learning behaviour. See, for example, this blog post.

The reliability of tests using MC questions and open-ended questions is easy to calculate. Cronbach alpha can be calculated on the basis of a score table showing both the scores for MC questions (dichotomy: 0-1) and the scores for open-ended questions (polytoom: 0, 1, 2, etc.). Cronbach alpha is suitable for both types of data (in contrast to KR20 which can only handle dichotomous data). Take a look at wikipedia for example: https://nl.wikipedia.org/wiki/Cronbachs_alfa. With many test systems, these analyses are simply performed.

However, it is important to take a good look at the question and point distribution of the combination of MC questions and open-ended questions. There are some rules of thumb to formulate:

  • Divide the score points to be obtained in such a way that important subjects/skills receive more questions (MC part) or more points (sub-questions) (open part). For more important subjects you want to gather more information to base the results on. A nice article on this subject is enclosed: http://blog.questionmark.com/how-many-items-are-needed-for-each-topic-in-an-assessment-how-pwc-decide.
    • So this is something else than giving a lot of score points to the difficult subjects. If you do that, you get a somewhat distorted picture of what your population is really capable of. The student with more skill will automatically score points on more difficult questions and will automatically get a higher final score. You don’t have to artificially increase this score. And open questions are not necessarily more difficult than closed questions, by the way.
  • Process at least 60 score points in total for MC and open questions in order to determine acceptable reliability values (other rules of thumb have a lower limit of 40 score points, see Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…). These score points should be divided according to the importance of the substance. In general, however, if you use the MC questions to spread out over the subject matter (importance: breadth of knowledge) you will for example include about 30 MC questions in a test and then reserve 30 points for the open questions (importance: application and measuring depth).
  • If the importance of the open questions is less than 50% (in the example above), then the questions in the open part can be ‘scaled’ so that they weigh less than the questions in the MC part.
  • Make sure that for the open questions there is an actual scoring spread. If, for example, an open question is asked in which a student can earn 3 points, but in the scores the students are only awarded 0 or 3 points (so actually dichotomous), this is at the expense of both the reliability of the assessment and – as expected – the success rate. Make sure that for such a question students are actually awarded 0, 1, 2, or 3 points.

Sometimes students are asked whether they should score a pass mark for both the MC part and the open part, or whether the parts should be able to compensate each other. Here is the rule to apply compensation. We must assume that in one test a corresponding amount of knowledge or skill is tested. If the subject matter contains parts that should each be concluded with a pass mark separately, there are in fact two different educational components and two separate tests should be composed. At that time, the reliability of both components must be examined separately.

And the grades? This can be done by combining the data: all the score points can be added together. The pass/fail score is then determined on the basis of discounting (according to Dutch tradition) with the guess score of the MC part. The guess score is subtracted from the total score of the test and students have to obtain half or more score points from the remaining part of the score range for a pass.

Scoring, Analysing and Presenting Attractive Exam Reports with R

At the upcoming Technology Enhanced Assessment Conference, Monika Vaheoja of 10voordeleraar will present her demo of the paper: Scoring, Analysing and Presenting Attractive Exam Reports with R.

R is a versatile programming environment for statistics calculations and visualisation.

You can find the materials of the demo through this link.

Gesloten en Open vragen combineren in een toets

keep-calm-and-continue-testing-25Ik word zo nu en dan gevraagd hoe de betrouwbaarheid te bepalen is van een toets waarin open en gesloten vragen zijn gecombineerd en of combineren überhaupt een goed plan is. Opleidingen willen meer en meer af van de vanzelfsprekende MC-toetsen omdat de beperking daarvan sterker wordt gevoeld en voeren bijvoorbeeld een casus-met-open vragen-toets in naast het MC-gedeelte. Met het MC-gedeelte is het mogelijk  om de stof in de breedte te  dekken en met het open-gedeelte kan verdieping worden nagestreefd. De vraag is echter wat er gebeurt met de betrouwbaarheid en de berekening van bijvoorbeeld het cijfer op basis van de scores e.d. En hoe moet de verdeling zijn van vragen en scores?

Hieronder een wat uitgebreidere behandeling hiervan.

Er is in mijn beleving niks mis met een combinatie van gesloten en open vragen in een toets. Open vragen gericht op toepassing of analyse van kennis kunnen duidelijk een meerwaarde hebben voor toetsing; het is met open vragen wat gemakkelijker om vragen te stellen die deze vaardigheid van studenten aanspreken en studenten en docenten waarderen ze ook op voorhand al meer als zodanig (dat is altijd gunstig – ook percepties spelen in de beleving van kwaliteit van onderwijs een rol).  Daarnaast is uit  onderzoek bekend dat open vragen ander studeergedrag uitlokken: meer diepgaand leergedrag. Zie bijvoorbeeld dit bericht.

De betrouwbaarheid van toetsen met MC-vragen en open vragen is simpel te berekenen. Op basis van een score tabel waarin zowel de scores van de MC-vragen staan vermeld (dichotoom: 0-1) als de open vragen (polytoom: 0, 1, 2 etc.) kan Cronbach alpha berekend worden. Cronbach alpha is namelijk geschikt voor beide soorten data (in tegenstelling tot KR20 die alleen met dichotome data overweg kan). Kijk bijvoorbeeld maar eens op wikipedia: https://nl.wikipedia.org/wiki/Cronbachs_alfa. Bij veel toetssystemen worden deze analyses gewoon uitgevoerd.

Het is wel belangrijk om goed naar de vragen- en puntenverdeling te kijken van de combinatie van MC-vragen en open vragen. Daar zijn wat vuistregels voor te formuleren:

  • Verdeel de te behalen scorepunten zodanig dat belangrijke onderwerpen/vaardigheden meer vragen krijgen (MC-deel) of meer punten (subvragen) krijgen (open deel). Van belangrijker onderwerpen wil je namelijk meer informatie verzamelen om de uitslag op te baseren. Een aardig artikel hierover is bijgaande: http://blog.questionmark.com/how-many-items-are-needed-for-each-topic-in-an-assessment-how-pwc-decide.
    • Dit is dus iets anders dan het geven van veel scorepunten aan de moeilijke onderwerpen. Als je dat doet krijg je juist een wat vertekend beeld van hetgeen je populatie echt kan. De student met meer vaardigheid scoort namelijk vanzelf al punten op moeilijker vragen en zal vanzelf een hogere eindscore krijgen. Die score moet/hoef je dan niet artificieel op te schroeven. En open vragen zijn niet per sé moeilijker dan gesloten vragen overigens.
  • Verwerk minimaal 60 scorepunten in totaal voor MC en open vragen om acceptabele betrouwbaarheidswaarden te kunnen vaststellen (andere vuistregels hebben als ondergrens 40 scorepunten, zie Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…). Deze scorepunten moet je verdelen naar gelang het belang van de stof. In het algemeen echter, als je de MC-vragen in zet om spreiding over de stof te realiseren (belang: breedte van kennis) zul je bijvoorbeeld toch wel zo’n 30 MC vragen in een toets opnemen en dan 30 punten reserveren voor de open vragen (belang: toepassing en diepgang meten).
  • Als het  belang van de open vragen wat minder is dan 50% (in bovenstaande voorbeeld), dan kunnen de vragen uit het  open deel bijvoorbeeld met wat omrekening zodanig ‘geschaald’ worden dat ze minder zwaar wegen dan de vragen van het MC-deel.
  • Zorg ervoor dat bij de open vragen er wel daadwerkelijk puntenspreiding optreedt bij het scoren. Als er bijvoorbeeld een open vraag wordt gesteld waarbij een student 3 punten kan verdienen, maar bij de scores krijgen de studenten alleen maar 0 of 3 punten toegekend (dus eigenlijk dichotoom), dan gaat dat ten koste van zowel de betrouwbaarheid van de beoordeling als – naar verwachting – het slagingspercentage. Zorg er voor dat bij zo’n vraag studenten daadwerkelijk o, 1, 2, of 3 punten krijgen toegekend.

Soms wordt gevraagd of studenten zowel voor het MC-deel als het open deel een voldoende zouden moeten scoren of dat de delen elkaar moeten kunnen compenseren. Hier is de regel om compensatie toe te passen. We moeten er vanuit gaan dat in één toets een bijelkaar horende hoeveelheid kennis of vaardigheid wordt getoetst. Als in de stof onderdelen zitten die elk apart met een voldoende zouden moeten afgesloten is er in feite sprake van twee verschillende onderwijsonderdelen en zouden er twee aparte toetsen moeten worden samengesteld. Op dat moment moet dan ook voor beide onderdelen de betrouwbaarheid apart worden onderzocht.

En de cijfers? Hiervoor kan uitgegaan worden van het combineren van de gegevens: alle scorepunten kunnen bij elkaar opgeteld worden. De zak/slaaggrens wordt dan bepaald op basis van (volgens Nederlandse traditie) verdiscontering met de raadscore van het MC-deel. De raadscore wordt afgetrokken van het totaal aantal te behalen punten van de toets en studenten moeten dan de helft of meer scorepunten behalen van het overgebleven deel van de score-range voor een voldoende.

 

‘Slechte’ vragen uit een toets verwijderen na analyse of niet?

Vanuit examencommissies krijg ik zo nu en dan de vraag hoe er omgegaan moet worden met toetsen bestaande uit gesloten vragen (meerkeuzetoetsen) waarin ‘slechte’ vragen zijn aangetroffen. Moeten de vragen worden verwijderd? moet er een extra alternatief correct worden gerekend? of moeten deze vragen geheel correct worden gerekend? En wat moet er gebeuren met de cesuur? Omlaag? Gelijkblijven?

Laten we dit eens systematisch bekijken.

Validiteit en Betrouwbaarheid

Het uitgangspunt bij klassieke tentamens is dat ze valide en betrouwbaar zijn (en transparant en uitvoerbaar – maar dat laat ik hier even achterwege).

Validiteit bij tentamens heeft met name betrekking op de vraag of de leerdoelen van de cursus gedekt worden. Om deze eis te operationaliseren wordt daarom vaak een toetsmatrijs gemaakt waarin wordt vastgelegd hoeveel vragen over welk onderwerp in de toets moeten worden opgenomen en of ze gaan over kennis of toepassing en inzicht. Alle doelen moeten gedekt worden.

Betrouwbaarheid bij tentamens heeft betrekking op de vraag of de scores die studenten behalen op tentamens niet teveel aan  het toeval zijn te wijten. Om deze betrouwbaarheid op een acceptabel niveau te krijgen (vanuit het perspectief van klassieke toetsanalyse en psychometrie door bepaling van de KR20 of Cronbach alpha) is het van belang dat een toets voldoende vragen bevat, dat de vragen (gemiddeld gesproken) voldoende onderscheid maken tussen de minder goede en betere student en dat er daadwerkelijk spreiding is in de populatie van de mate van kennis, toepassing en inzicht. Ik heb daar ooit een andere blogpost over geschreven.

‘Slechte’ vragen

Binnen het bovenstaande kader geldt dat vragen die goed onderscheid maken tussen betere en slechtere studenten in het algemeen niet te gemakkelijk of te moeilijk zijn (p-waarde, moeilijkheidsgraad). Dat wil zeggen dat het percentage studenten dat de vraag goed of fout beantwoordt niet erg hoog is of erg laag. De reden daarvoor is dat vragen die door bijna iedere student correct of incorrect worden beantwoord niet veel onderscheid maken tussen de goede of minder goede student (nl alleen nog tussen de slechter en nog slechtere student of de betere of nog betere student – en dat is minder interssant in ons denken over toetsen waarbij het m.n. gaat om zakken of slagen). De waarde van KR-20 of Cronbach alpha neemt bij vragen die studenten allemaal correct of allemaal incorrect beantwoorden niet toe.

Daarmee is echter niet gezegd dat gemakkelijke cq moeilijke vragen echt ‘slecht’ zouden zijn. Het kan bijvoorbeeld zijn dat de gehele populatie van studenten heel hard cq heel weinig heeft gestudeerd, of dat er sprake is van een 1e kans tentamen cq een herkansing, of dat de stof gewoon wat gemakkelijk is cq moeilijk is, of dat het onderwijs erg goed cq slecht is geweest voor specifieke onderwerpen.

Bovenstaande impliceert ook dat de betrouwbaarheid van een toets als deze is uitgedrukt in de KR-20 of Cronbach alpha, geen absoluut gegeven is voor een toets. Afhankelijk van vele factoren zoals hierboven aangegeven kunnen op dezelfde toets vele verschillende waarden van KR-20 of Cronbach alpha gevonden worden. In toetsbeleid moet daarom ook omzichtig worden omgegaan met het stellen van absolute ondergrenzen voor deze betrouwbaarheidsmaten. Er moet echt naar ‘bevindt van zaken’ worden geoordeeld en gehandeld.

Met andere woorden, het is geen doel op zich van tentamens om een hoge waarde van KR-20 of Cronbach alpha te hebben, maar vooral het doel om recht te doen het beoogde doel als geheel: met goed onderwijs bepalen of studenten aan minimale vereisten voldoen op basis van een verzameling van informatie, verder reikend dan de toets zelf. Als de KR20 of Cronbach alpha wel hoog is, is dat een extra onderbouwing dat een toets minder toevallige oplevert scores laat zien voor studenten, maar niet een noodzakelijkheid.

Echt ‘slechte’ vragen

Het kan daarnaast ook zo zijn dat sommige vragen gemakkelijk of moeilijk blijken te zijn omdat er sleutelfouten in de vragen waren geslopen. Dat wil zeggen dat per ongeluk het juiste antwoord als onjuist verwerkt door het analyse-systeem of vice versa. Daardoor zou het ook kunnen blijken dat goede studenten slecht scoorden op dergelijke vragen (negatieve vraag-toetscorrelatie). In die gevallen moet dit gewoon hersteld worden en het correcte antwoord ook als correct worden verwerkt en incorrecte antwoorden als incorrect.

Verder kan het zijn dat vragen niet eenduidig waren geformuleerd waardoor goede studenten de vraag vaker incorrect beantwoorden (ook een lage of negatieve vraag-toetscorrelatie) en vice versa. Of dat er bij nadere bestudering en interpretatie van vragen en antwoorden ook andere antwooden dan alleen het oorspronkelijk enig correct geachte antwoord correct zou kunnen worden gerekend. Of dat de vraag gewoonweg niet de slechtere van de betere student onderscheidt (ook lage vraag-toetscorrelaties). Soms uit zich dat in het optreden van gokgedrag: alle alternatieven worden door de studenten in gelijke mate gekozen. Dat laatste kan in de regel ook vaak te wijten zijn aan het  feit dat sommige stof niet in het onderwijs is behandeld.

Op basis van overwegingen zoals boven geschets kunnen vragen kunnen sommige vragen wellicht als echt ‘slecht’ worden bestempeld. Het vergt een beoordeling door de vakinhoudelijke experts, docenten en examinatoren wat er in deze gevallen aan de hand is.

Cesuur

De cesuur bij tentamens wordt, naar typisch Nederlands gebruik, zo gesteld dat de student in ieder geval de  helft van de stof moet kennen of begrijpen om een voldoende te kunnen behalen. Bij meerkeuzevragen moet dan nog de raadscore hierin worden verdisconteert. Hierover is nog veel meer te zeggen, maar dat laat ik hier ook achterwege.

Mochten vragen inderdaad ‘slecht’ worden bevonden, dan kunnen deze vragen ofwel worden verwijderd waarbij de cesuur ook naar beneden wordt bijgesteld, ofwel de vragen kunnen voor alle studenten correct worden gerekend en de cesuur blijft op dezelfde waarde staan. Bij het naar beneden bijstellen van de cesuur zou op  basis van een relatieve aanpassing kunnen worden gedaan en dan naar beneden worden afgerond (zodat studenten niet worden benadeeld). Mijn voorkeur heeft het om vragen in principe niet te verwijderen omdat daarmee ook de valiteit wat wordt aangetast. Maar vragen verwijderen en cesuurbijstellen, cq. vragen geheel correct rekenen zonder cesuurbijstelling is in feite lood om oud ijzer als het gaat om de einduitslag.

Een toetsanalyse na aanpassing van vragen en cesuur is naderhand alleen nog interessant voor het bepalen van definitieve scores en cijfers. Gegevens over betrouwbaarheid en vraagwaardes (p-waarde, rit-waarden) doen er dan in feite niet meer zo veel toe.

Conclusie

Belangrijkste les: de beslissingen t.a.v. het bijstellen van cesuur en vraagaanpassing valt in principe onder de verantwoordelijkheid van de examinator. De examinator moet op basis van veel kennis en factoren een weloverwogen beoordeling geven van de kwaliteit van het onderwijs en de toetsing. Die kennis heeft betrekking op het vak, het gegeven onderwijs, de studentenpopulatie, de eisen t.a.v. het minimale gewenste niveau voor geslaagden, de toetsing én de criteria voor ‘goede’ en ‘slechte’ toetsvragen.

 

 

 

GradeWork van Xebic – Ook een interessant nakijk- en archiveringsgereedschap voor opdrachten

gradeworkHet nederlandse bedrijf Xebic heeft bij SURF op 6 oktober j.l. een demonstratie gegeven van hun online ‘opdracht-inleveromgeving’ GradeWork. Het is een aan SURFconext gekoppelde ‘summatieve-toetsing-logistiek-ondersteunende webomgeving om:

  • documenten in te laten leveren door (groepen) studenten
  • beoordelaars aan de opdrachten te koppelen
  • beoordelingscriteria in te voeren en mee na te kijken
  • ingeleverd werk (PDF, Word, MP4 etc) te archiveren (archiveren in ‘the best of breed’)
  • plagiaatcontrole uit te voeren (met Urkund)

Het lijkt een mooi systeem. Er wordt ook veel met mailnotificaties gewerkt (dat ontbreekt ten ene male in Blackboard bijvoorbeeld)

Natuurlijk is dergelijke functionaliteit ook al aanwezig in de huidige LMS-en zoals Turnitin, Canvas, Blackboard of Moodle. De docent kan horizontaal nakijken, verticaal en anoniem, met rubrics e.d.). In Blackboard heb je bijvoorbeeld ook de optie voor ‘delegated grading’ waarmee docenten onafhankelijke beoordelingen kunnen uitvoeren van opdrachten waarna er tot ‘reconciliation’ kan worden overgegaan (het beslissen over het uiteindelijke cijfer).

Binnen GradeWork is een belangrijke rol weggelegd voor een administrator die zorg draagt voor allerlei toewijzingen. Dat zijn toewijzingen van studenten, groepen, beoordelaars, etc., maar ook van bijv. beoordelingsformulieren e.d.). Via dashboards zijn overzichten te genereren over de voortgang van het nakijkproces. Maar ook per student kun je een overzicht krijgen van ingeleverd werk. Een interessant punt van GradeWork is dat het ingeleverde werk niet per cursus wordt opgeslagen, maar als type binnen het gehele curriculum.

GradeWork kan via Open Onderwijsstandaarden (webservices) gekoppeld worden aan andere systemen zoals de LMS, SIS, tentameninschrijving etc. Ze willen ook een LTI koppeling gaan ontwikkelen.

Xebic wil de markt veroveren en zijn op de goede weg met dit systeem.

Een grote vraag voor de toekomst blijft hoe formatieve toetsomgevingen, LMS-en, SIS-en, roostersystemen en dit soort nakijksystemen naar elkaar toe gaan groeien en met elkaar een coherent, beheersbaar en begrijpelijk geheel gaan vormen.

Gradescope – Een nieuw nakijkgereedschap met interessante kenmerken

GradescopeVia via ben ik tegen de volgende generatie nakijktools aangelopen: GradeScope.

GradeScope is een online tool gemaakt door Computer Scientists van UC Berkeley:

We got started in the Computer Science department of UC Berkeley to fill a need that we had in teaching a large class on Artificial Intelligence. Most Computer Science classes at Berkeley now use our platform, and we’re quickly expanding to many more schools and departments! By the way, we used to be called “Pandagrader,” as explained in this short news story.

Bekijk hoe eenvoudig het werkt in onderstaande video.

Ik heb een paar docenten gesproken die er mee hebben gewerkt en zij zijn enthousiast. Dat wil wat zeggen.

Wat vooral interessant is, is dat docenten ‘al nakijkend’ een rubric ontwikkelen. Dat is op zich natuurlijk niet volgens de ‘koninklijke weg’ waarbij van te voren het nakijkschema geheel wordt uitgedacht, maar wel veel meer volgens de werkwijze zoals docenten deze vaak in de praktijk vertonen (en wat ook vrij natuurlijk is).

In de filmpjes bij de site wordt er vanuit gegaan dat geschreven werk van studenten wordt ingescand e.d., maar ik heb begrepen dat het ook mogelijk is om het werk van studenten rechstreeks digitaal in te laten leveren.

Als meer docenten er ervaring mee opdoen: deel deze ervaringen met anderen of als comment op dit bericht.

Team Based Learning en Readiness Assurance Tests (RATs)

Ik ben de laatste tijd zeer geïntrigeerd geraakt door Team Based Learning en de rol van Readiness Assurance Tests daarbinnen.

Team Based Learning is eigenlijk al een vrij oud concept, maar heeft binnen Nederland (nog) niet echt weerklank gevonden. Natuurlijk, in Nederland werken studenten veel in groepen binnen practica, bij projecten of bij probleem gestuurd onderwijs, maar dat is toch weer anders dan bij Team Based Learning. Ik weet dat het AMC hier komend academisch jaar ook mee aan de slag gaat.

De Readiness Assurance Test (RAT) is een belangrijk onderdeel in dit concept. Het lijkt op een bepaalde manier op de ConcepTest approach van Mazur, maar het dient een ander doel. De RAT is vooral bedoeld om studenten te stimuleren om de stof voor een bepaalde bijeenkomst vooraf te bestuderen en om de team-spirit onder studenten te verbeteren.

Eerst maken studenten daarom een individuele toets (iRAT) en daarna (met dezelfde vragen) mogen ze in teams overleggen over dezelfde toets en opnieuw antwoorden bedenken (tRAT). Het geeft ze de mogelijkheid om intensief te discussieren over de vragen, de antwoorden en rationales voor correcte of incorrecte antwoorden. Antwoorden van zowel de individuele studenten als de groepen worden ergens opgeslagen en kunnen worden gebruikt voor allerlei doeleinden (analyse door docent, bonuspuntjes etc.)

tRatOp dit moment zit ik in een college-zaaltje waarin de docent de eerste keer een readiness assurance test uitvoert. De test is vrijwillig. De studenten kunnen geen punten o.i.d. verdienen. En ze gaan behoorlijk los. Bij het individuele deel zijn ze heel geconcentreerd op hun eigen vragen. Bij het teamdeel overleggen ze uitgebreid.

De docent laat de individuele studentantwoorden via Socrative inleveren, De teamantwoorden moeten ze in Blackboard inleveren. Daarbij moeten ze voor de teamantwoorden ook bij het antwoorden aangeven waarom ze denken dat hun antwoord goed is.

Direct na het inleveren van de antwoorden gaat de docent na hoe de individuen en de teams hebben gescoord. Vragen waar veel studenten en teams moeilijkheden mee hebben gaat de docent daarna uitgebreider behandelen.

Ik ga er proberen eens wat meer mee te doen.

Meer informatie:

  • Michaelsen, L. K., & Sweet, M. (2008). The essential elements of team-based learning. New Directions for Teaching and Learning, 2008(116), 7–27.

Bijna 5 december: Sinterklaasexamen

Via de SOP list van Diny Ebrecht ontving ik onderstaande examenprocedure “ter lering ende vermaeck”:

 

Uit: Enige richtlijnen voor bisschoppen en andere verhalen

Godfried Bomans, 1987, Amsterdam, De Boekerij

“… Wat wij dus vragen is de instelling van een examencommissie, die deze zaak eens krachtig ter hand neemt. Ieder die Sinterklaas wil zijn, doorlope een spoedcursus van tenminste drie maanden en legt na afloop een proeve af. Hij komt binnen, strooit wat pepernoten in het rond, houdt een toespraak en verwijdert zich daarna. Hierna mag hij binnenkomen, om te horen of hij geslaagd is dan wel gezakt. Hij kan ook een herexamen krijgen, hetzij over het geheel, hetzij over een onderdeel, b.v. het werpen der noten.

Ik zou hoge geestelijken, tot de rang van Deken, van deze cursus willen vrijstellen. Men mag aannemen, dat zij genoeg praktijk bezitten. Ook oude pastors dienen te worden gedispenseerd. Voorts al diegenen, die al van zichzelf heilig zijn. Het lijkt mij ongepast iemand te examineren, die op zijn eigen houtje al zover gekomen is….”

 

Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…

In my previous post I presented the rule-of-thumb (for the Netherlands) regarding chosing 40 4-choice multiple-choice test items for a typical end-of-course tests in higher education. A discussion developed on Twitter with some people about this rule of thumb. There was some critisism (of course – as it deals with a rule-of-thumb). A short impression of that discussion seems appropriate.

0

CITO (the national educational measurement institution) promotes as a rule of thumb to use 60 score-points. Obviously, the more test items in a classic achievement test, the better it is to increase reliability of measurement.

1

Review studies have shown that the 3rd distractor of 4-option multiple-choice test items does in general perform poor: it is not attractive for both competent and incompetent students. The 3rd distractor (for which a teacher has done is utter best) is mostly easily spotted by students as an incorrect option. So, in effect, it is better to develop 3-option multiple-choice test items. It then allows a teacher to administer more test items in the same testing time hence increase the representatives and reliability of the test in one sweep.

  • The use of the 4-option multiple-choice test item in the Netherlands as the ‘standard’ was actually induced by A.D. de Groot who brought multiple-choice testing to the Netherlands. He took a personal stance in promoting the four-option type of multiple-choice test item, setting effectively the ‘norm’: it is however a cultural conviction.
  • Rodriguez, M. C. (2005). Three options are optimal for multiple‐choice items: a meta‐analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3–13. doi:10.1111/j.1745-3992.2005.00006.x

I also think that teachers and students are under the assumption that 3-option multiple-choice test items are inferior to 4-option multiple-choice test items. They think that they would be inherently (too) easy (forgetting that the level of difficulty does not follow from the form of the test item, but from the content …).

2

Tests in higher education should not be regarded as psychological tests of which the goal is to spread people as much as possible on a scale based on their degree of knowledge or skill. No, instead, tests in higher education should only discriminate between students who did not study the materials at all and students who did do the studying. If the latter is the case, then the spread in scores might/should actually be low. And if the spread is low, the reliability of a test (as measured with for example Cronbach alpha) will be low. But that would not be a problem then.

Actually, end-of-course tests should be regarded as achievement tests that should be criterion referenced and not norm-referenced.

  • Coscarelli, W., & Shrock, S. (2002). The two most useful approaches to estimating criterion-referenced test reliability in a single test administration. Performance Improvement Quarterly, 15(4), 74–85. doi:10.1111/j.1937-8327.2002.tb00266.x
  • Shrock, S. A., & Coscarelli, W. C. (2008). Criterion-referenced test development: Technical and legal guidelines for corporate training. John Wiley & Sons.

3

The field of educational testing and educational assessment has taken large strides since the 60-ies of the previous century. As well in terms of psychometric and analytic methods (for example IRT), in development and validation methods (for example Evidence-centered Assessment Design) and in conceptualizing the function of assessment (Constructive Alignment, Assessment of, for and as Learning for example).

Methods and philosophies for development and analysis and thinking about end-of-course testing in higher education however have stopped since the 60-ies of the previous century. I recently ran into a paper by Smith dating from 1978 and observed that not much seems to have changed with regards to end-of-course testing in higher education:

  • Smith, L. S. (1978). Decisions and Dilemmas in Constructing Criterion-referenced Tests: Some Questions and Issues. Center for the Study of Evaluation, UCLA Graduate School of Education. Retrieved from https://www.cse.ucla.edu/products/reports/R110.pdf

I ask myself: why is this and what should we learn from this? Maybe a next post … maybe referring to Borsboom and Mellenbergh …

  • Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071. doi:10.1037/0033-295X.111.4.1061