Gesloten en Open vragen combineren in een toets

keep-calm-and-continue-testing-25Ik word zo nu en dan gevraagd hoe de betrouwbaarheid te bepalen is van een toets waarin open en gesloten vragen zijn gecombineerd en of combineren überhaupt een goed plan is. Opleidingen willen meer en meer af van de vanzelfsprekende MC-toetsen omdat de beperking daarvan sterker wordt gevoeld en voeren bijvoorbeeld een casus-met-open vragen-toets in naast het MC-gedeelte. Met het MC-gedeelte is het mogelijk  om de stof in de breedte te  dekken en met het open-gedeelte kan verdieping worden nagestreefd. De vraag is echter wat er gebeurd met de betrouwbaarheid en de berekening van bijvoorbeeld het cijfer op basis van de scores e.d. En hoe moet de verdeling zijn van vragen en scores?

Hieronder een wat uitgebreidere behandeling hiervan.

Er is in mijn beleving niks mis met een combinatie van gesloten en open vragen in een toets. Open vragen gericht op toepassing of analyse van kennis kunnen duidelijk een meerwaarde hebben voor toetsing; het is met open vragen wat gemakkelijker om vragen te stellen die deze vaardigheid van studenten aanspreken en studenten en docenten waarderen ze ook op voorhand al meer als zodanig (dat is altijd gunstig – ook percepties spelen in de beleving van kwaliteit van onderwijs een rol).  Daarnaast is uit  onderzoek bekend dat open vragen ander studeergedrag uitlokken: meer diepgaand leergedrag. Zie bijvoorbeeld dit bericht.

De betrouwbaarheid van toetsen met MC-vragen en open vragen is simpel te berekenen. Op basis van een score tabel waarin zowel de scores van de MC-vragen staan vermeld (dichotoom: 0-1) als de open vragen (polytoom: 0, 1, 2 etc.) kan Cronbach alpha berekend worden. Cronbach alpha is namelijk geschikt voor beide soorten data (in tegenstelling tot KR20 die alleen met dichotome data overweg kan). Kijk bijvoorbeeld maar eens op wikipedia: https://nl.wikipedia.org/wiki/Cronbachs_alfa. Bij veel toetssystemen worden deze analyses gewoon uitgevoerd.

Het is wel belangrijk om goed naar de vragen- en puntenverdeling te kijken van de combinatie van MC-vragen en open vragen. Daar zijn wat vuistregels voor te formuleren:

  • Verdeel de te behalen scorepunten zodanig dat belangrijke onderwerpen/vaardigheden meer vragen krijgen (MC-deel) of meer punten (subvragen) krijgen (open deel). Van belangrijker onderwerpen wil je namelijk meer informatie verzamelen om de uitslag op te baseren. Een aardig artikel hierover is bijgaande: http://blog.questionmark.com/how-many-items-are-needed-for-each-topic-in-an-assessment-how-pwc-decide.
    • Dit is dus iets anders dan het geven van veel scorepunten aan de moeilijke onderwerpen. Als je dat doet krijg je juist een wat vertekend beeld van hetgeen je populatie echt kan. De student met meer vaardigheid scoort namelijk vanzelf al punten op moeilijker vragen en zal vanzelf een hogere eindscore krijgen. Die score moet/hoef je dan niet artificieel op te schroeven. En open vragen zijn niet per sé moeilijker dan gesloten vragen overigens.
  • Verwerk minimaal 60 scorepunten in totaal voor MC en open vragen om acceptabele betrouwbaarheidswaarden te kunnen vaststellen (andere vuistregels hebben als ondergrens 40 scorepunten, zie Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…). Deze scorepunten moet je verdelen naar gelang het belang van de stof. In het algemeen echter, als je de MC-vragen in zet om spreiding over de stof te realiseren (belang: breedte van kennis) zul je bijvoorbeeld toch wel zo’n 30 MC vragen in een toets opnemen en dan 30 punten reserveren voor de open vragen (belang: toepassing en diepgang meten).
  • Als het  belang van de open vragen wat minder is dan 50% (in bovenstaande voorbeeld), dan kunnen de vragen uit het  open deel bijvoorbeeld met wat omrekening zodanig ‘geschaald’ worden dat ze minder zwaar wegen dan de vragen van het MC-deel.
  • Zorg ervoor dat bij de open vragen er wel daadwerkelijk puntenspreiding optreedt bij het scoren. Als er bijvoorbeeld een open vraag wordt gesteld waarbij een student 3 punten kan verdienen, maar bij de scores krijgen de studenten alleen maar 0 of 3 punten toegekend (dus eigenlijk dichotoom), dan gaat dat ten koste van zowel de betrouwbaarheid van de beoordeling als – naar verwachting – het slagingspercentage. Zorg er voor dat bij zo’n vraag studenten daadwerkelijk o, 1, 2, of 3 punten krijgen toegekend.

Soms wordt gevraagd of studenten zowel voor het MC-deel als het open deel een voldoende zouden moeten scoren of dat de delen elkaar moeten kunnen compenseren. Hier is de regel om compensatie toe te passen. We moeten er vanuit gaan dat in één toets een bijelkaar horende hoeveelheid kennis of vaardigheid wordt getoetst. Als in de stof onderdelen zitten die elk apart met een voldoende zouden moeten afgesloten is er in feite sprake van twee verschillende onderwijsonderdelen en zouden er twee aparte toetsen moeten worden samengesteld. Op dat moment moet dan ook voor beide onderdelen de betrouwbaarheid apart worden onderzocht.

En de cijfers? Hiervoor kan uitgegaan worden van het combineren van de gegevens: alle scorepunten kunnen bij elkaar opgeteld worden. De zak/slaaggrens wordt dan bepaald op basis van (volgens Nederlandse traditie) verdiscontering met de raadscore van het MC-deel. De raadscore wordt afgetrokken van het totaal aantal te behalen punten van de toets en studenten moeten dan de helft of meer scorepunten behalen van het overgebleven deel van de score-range voor een voldoende.

 

‘Slechte’ vragen uit een toets verwijderen na analyse of niet?

Vanuit examencommissies krijg ik zo nu en dan de vraag hoe er omgegaan moet worden met toetsen bestaande uit gesloten vragen (meerkeuzetoetsen) waarin ‘slechte’ vragen zijn aangetroffen. Moeten de vragen worden verwijderd? moet er een extra alternatief correct worden gerekend? of moeten deze vragen geheel correct worden gerekend? En wat moet er gebeuren met de cesuur? Omlaag? Gelijkblijven?

Laten we dit eens systematisch bekijken.

Validiteit en Betrouwbaarheid

Het uitgangspunt bij klassieke tentamens is dat ze valide en betrouwbaar zijn (en transparant en uitvoerbaar – maar dat laat ik hier even achterwege).

Validiteit bij tentamens heeft met name betrekking op de vraag of de leerdoelen van de cursus gedekt worden. Om deze eis te operationaliseren wordt daarom vaak een toetsmatrijs gemaakt waarin wordt vastgelegd hoeveel vragen over welk onderwerp in de toets moeten worden opgenomen en of ze gaan over kennis of toepassing en inzicht. Alle doelen moeten gedekt worden.

Betrouwbaarheid bij tentamens heeft betrekking op de vraag of de scores die studenten behalen op tentamens niet teveel aan  het toeval zijn te wijten. Om deze betrouwbaarheid op een acceptabel niveau te krijgen (vanuit het perspectief van klassieke toetsanalyse en psychometrie door bepaling van de KR20 of Cronbach alpha) is het van belang dat een toets voldoende vragen bevat, dat de vragen (gemiddeld gesproken) voldoende onderscheid maken tussen de minder goede en betere student en dat er daadwerkelijk spreiding is in de populatie van de mate van kennis, toepassing en inzicht. Ik heb daar ooit een andere blogpost over geschreven.

‘Slechte’ vragen

Binnen het bovenstaande kader geldt dat vragen die goed onderscheid maken tussen betere en slechtere studenten in het algemeen niet te gemakkelijk of te moeilijk zijn (p-waarde, moeilijkheidsgraad). Dat wil zeggen dat het percentage studenten dat de vraag goed of fout beantwoordt niet erg hoog is of erg laag. De reden daarvoor is dat vragen die door bijna iedere student correct of incorrect worden beantwoord niet veel onderscheid maken tussen de goede of minder goede student (nl alleen nog tussen de slechter en nog slechtere student of de betere of nog betere student – en dat is minder interssant in ons denken over toetsen waarbij het m.n. gaat om zakken of slagen). De waarde van KR-20 of Cronbach alpha neemt bij vragen die studenten allemaal correct of allemaal incorrect beantwoorden niet toe.

Daarmee is echter niet gezegd dat gemakkelijke cq moeilijke vragen echt ‘slecht’ zouden zijn. Het kan bijvoorbeeld zijn dat de gehele populatie van studenten heel hard cq heel weinig heeft gestudeerd, of dat er sprake is van een 1e kans tentamen cq een herkansing, of dat de stof gewoon wat gemakkelijk is cq moeilijk is, of dat het onderwijs erg goed cq slecht is geweest voor specifieke onderwerpen.

Bovenstaande impliceert ook dat de betrouwbaarheid van een toets als deze is uitgedrukt in de KR-20 of Cronbach alpha, geen absoluut gegeven is voor een toets. Afhankelijk van vele factoren zoals hierboven aangegeven kunnen op dezelfde toets vele verschillende waarden van KR-20 of Cronbach alpha gevonden worden. In toetsbeleid moet daarom ook omzichtig worden omgegaan met het stellen van absolute ondergrenzen voor deze betrouwbaarheidsmaten. Er moet echt naar ‘bevindt van zaken’ worden geoordeeld en gehandeld.

Met andere woorden, het is geen doel op zich van tentamens om een hoge waarde van KR-20 of Cronbach alpha te hebben, maar vooral het doel om recht te doen het beoogde doel als geheel: met goed onderwijs bepalen of studenten aan minimale vereisten voldoen op basis van een verzameling van informatie, verder reikend dan de toets zelf. Als de KR20 of Cronbach alpha wel hoog is, is dat een extra onderbouwing dat een toets minder toevallige oplevert scores laat zien voor studenten, maar niet een noodzakelijkheid.

Echt ‘slechte’ vragen

Het kan daarnaast ook zo zijn dat sommige vragen gemakkelijk of moeilijk blijken te zijn omdat er sleutelfouten in de vragen waren geslopen. Dat wil zeggen dat per ongeluk het juiste antwoord als onjuist verwerkt door het analyse-systeem of vice versa. Daardoor zou het ook kunnen blijken dat goede studenten slecht scoorden op dergelijke vragen (negatieve vraag-toetscorrelatie). In die gevallen moet dit gewoon hersteld worden en het correcte antwoord ook als correct worden verwerkt en incorrecte antwoorden als incorrect.

Verder kan het zijn dat vragen niet eenduidig waren geformuleerd waardoor goede studenten de vraag vaker incorrect beantwoorden (ook een lage of negatieve vraag-toetscorrelatie) en vice versa. Of dat er bij nadere bestudering en interpretatie van vragen en antwoorden ook andere antwooden dan alleen het oorspronkelijk enig correct geachte antwoord correct zou kunnen worden gerekend. Of dat de vraag gewoonweg niet de slechtere van de betere student onderscheidt (ook lage vraag-toetscorrelaties). Soms uit zich dat in het optreden van gokgedrag: alle alternatieven worden door de studenten in gelijke mate gekozen. Dat laatste kan in de regel ook vaak te wijten zijn aan het  feit dat sommige stof niet in het onderwijs is behandeld.

Op basis van overwegingen zoals boven geschets kunnen vragen kunnen sommige vragen wellicht als echt ‘slecht’ worden bestempeld. Het vergt een beoordeling door de vakinhoudelijke experts, docenten en examinatoren wat er in deze gevallen aan de hand is.

Cesuur

De cesuur bij tentamens wordt, naar typisch Nederlands gebruik, zo gesteld dat de student in ieder geval de  helft van de stof moet kennen of begrijpen om een voldoende te kunnen behalen. Bij meerkeuzevragen moet dan nog de raadscore hierin worden verdisconteert. Hierover is nog veel meer te zeggen, maar dat laat ik hier ook achterwege.

Mochten vragen inderdaad ‘slecht’ worden bevonden, dan kunnen deze vragen ofwel worden verwijderd waarbij de cesuur ook naar beneden wordt bijgesteld, ofwel de vragen kunnen voor alle studenten correct worden gerekend en de cesuur blijft op dezelfde waarde staan. Bij het naar beneden bijstellen van de cesuur zou op  basis van een relatieve aanpassing kunnen worden gedaan en dan naar beneden worden afgerond (zodat studenten niet worden benadeeld). Mijn voorkeur heeft het om vragen in principe niet te verwijderen omdat daarmee ook de valiteit wat wordt aangetast. Maar vragen verwijderen en cesuurbijstellen, cq. vragen geheel correct rekenen zonder cesuurbijstelling is in feite lood om oud ijzer als het gaat om de einduitslag.

Een toetsanalyse na aanpassing van vragen en cesuur is naderhand alleen nog interessant voor het bepalen van definitieve scores en cijfers. Gegevens over betrouwbaarheid en vraagwaardes (p-waarde, rit-waarden) doen er dan in feite niet meer zo veel toe.

Conclusie

Belangrijkste les: de beslissingen t.a.v. het bijstellen van cesuur en vraagaanpassing valt in principe onder de verantwoordelijkheid van de examinator. De examinator moet op basis van veel kennis en factoren een weloverwogen beoordeling geven van de kwaliteit van het onderwijs en de toetsing. Die kennis heeft betrekking op het vak, het gegeven onderwijs, de studentenpopulatie, de eisen t.a.v. het minimale gewenste niveau voor geslaagden, de toetsing én de criteria voor ‘goede’ en ‘slechte’ toetsvragen.

 

 

 

GradeWork van Xebic – Ook een interessant nakijk- en archiveringsgereedschap voor opdrachten

gradeworkHet nederlandse bedrijf Xebic heeft bij SURF op 6 oktober j.l. een demonstratie gegeven van hun online ‘opdracht-inleveromgeving’ GradeWork. Het is een aan SURFconext gekoppelde ‘summatieve-toetsing-logistiek-ondersteunende webomgeving om:

  • documenten in te laten leveren door (groepen) studenten
  • beoordelaars aan de opdrachten te koppelen
  • beoordelingscriteria in te voeren en mee na te kijken
  • ingeleverd werk (PDF, Word, MP4 etc) te archiveren (archiveren in ‘the best of breed’)
  • plagiaatcontrole uit te voeren (met Urkund)

Het lijkt een mooi systeem. Er wordt ook veel met mailnotificaties gewerkt (dat ontbreekt ten ene male in Blackboard bijvoorbeeld)

Natuurlijk is dergelijke functionaliteit ook al aanwezig in de huidige LMS-en zoals Turnitin, Canvas, Blackboard of Moodle. De docent kan horizontaal nakijken, verticaal en anoniem, met rubrics e.d.). In Blackboard heb je bijvoorbeeld ook de optie voor ‘delegated grading’ waarmee docenten onafhankelijke beoordelingen kunnen uitvoeren van opdrachten waarna er tot ‘reconciliation’ kan worden overgegaan (het beslissen over het uiteindelijke cijfer).

Binnen GradeWork is een belangrijke rol weggelegd voor een administrator die zorg draagt voor allerlei toewijzingen. Dat zijn toewijzingen van studenten, groepen, beoordelaars, etc., maar ook van bijv. beoordelingsformulieren e.d.). Via dashboards zijn overzichten te genereren over de voortgang van het nakijkproces. Maar ook per student kun je een overzicht krijgen van ingeleverd werk. Een interessant punt van GradeWork is dat het ingeleverde werk niet per cursus wordt opgeslagen, maar als type binnen het gehele curriculum.

GradeWork kan via Open Onderwijsstandaarden (webservices) gekoppeld worden aan andere systemen zoals de LMS, SIS, tentameninschrijving etc. Ze willen ook een LTI koppeling gaan ontwikkelen.

Xebic wil de markt veroveren en zijn op de goede weg met dit systeem.

Een grote vraag voor de toekomst blijft hoe formatieve toetsomgevingen, LMS-en, SIS-en, roostersystemen en dit soort nakijksystemen naar elkaar toe gaan groeien en met elkaar een coherent, beheersbaar en begrijpelijk geheel gaan vormen.

Gradescope – Een nieuw nakijkgereedschap met interessante kenmerken

GradescopeVia via ben ik tegen de volgende generatie nakijktools aangelopen: GradeScope.

GradeScope is een online tool gemaakt door Computer Scientists van UC Berkeley:

We got started in the Computer Science department of UC Berkeley to fill a need that we had in teaching a large class on Artificial Intelligence. Most Computer Science classes at Berkeley now use our platform, and we’re quickly expanding to many more schools and departments! By the way, we used to be called “Pandagrader,” as explained in this short news story.

Bekijk hoe eenvoudig het werkt in onderstaande video.

Ik heb een paar docenten gesproken die er mee hebben gewerkt en zij zijn enthousiast. Dat wil wat zeggen.

Wat vooral interessant is, is dat docenten ‘al nakijkend’ een rubric ontwikkelen. Dat is op zich natuurlijk niet volgens de ‘koninklijke weg’ waarbij van te voren het nakijkschema geheel wordt uitgedacht, maar wel veel meer volgens de werkwijze zoals docenten deze vaak in de praktijk vertonen (en wat ook vrij natuurlijk is).

In de filmpjes bij de site wordt er vanuit gegaan dat geschreven werk van studenten wordt ingescand e.d., maar ik heb begrepen dat het ook mogelijk is om het werk van studenten rechstreeks digitaal in te laten leveren.

Als meer docenten er ervaring mee opdoen: deel deze ervaringen met anderen of als comment op dit bericht.

Team Based Learning en Readiness Assurance Tests (RATs)

Ik ben de laatste tijd zeer geïntrigeerd geraakt door Team Based Learning en de rol van Readiness Assurance Tests daarbinnen.

Team Based Learning is eigenlijk al een vrij oud concept, maar heeft binnen Nederland (nog) niet echt weerklank gevonden. Natuurlijk, in Nederland werken studenten veel in groepen binnen practica, bij projecten of bij probleem gestuurd onderwijs, maar dat is toch weer anders dan bij Team Based Learning. Ik weet dat het AMC hier komend academisch jaar ook mee aan de slag gaat.

De Readiness Assurance Test (RAT) is een belangrijk onderdeel in dit concept. Het lijkt op een bepaalde manier op de ConcepTest approach van Mazur, maar het dient een ander doel. De RAT is vooral bedoeld om studenten te stimuleren om de stof voor een bepaalde bijeenkomst vooraf te bestuderen en om de team-spirit onder studenten te verbeteren.

Eerst maken studenten daarom een individuele toets (iRAT) en daarna (met dezelfde vragen) mogen ze in teams overleggen over dezelfde toets en opnieuw antwoorden bedenken (tRAT). Het geeft ze de mogelijkheid om intensief te discussieren over de vragen, de antwoorden en rationales voor correcte of incorrecte antwoorden. Antwoorden van zowel de individuele studenten als de groepen worden ergens opgeslagen en kunnen worden gebruikt voor allerlei doeleinden (analyse door docent, bonuspuntjes etc.)

tRatOp dit moment zit ik in een college-zaaltje waarin de docent de eerste keer een readiness assurance test uitvoert. De test is vrijwillig. De studenten kunnen geen punten o.i.d. verdienen. En ze gaan behoorlijk los. Bij het individuele deel zijn ze heel geconcentreerd op hun eigen vragen. Bij het teamdeel overleggen ze uitgebreid.

De docent laat de individuele studentantwoorden via Socrative inleveren, De teamantwoorden moeten ze in Blackboard inleveren. Daarbij moeten ze voor de teamantwoorden ook bij het antwoorden aangeven waarom ze denken dat hun antwoord goed is.

Direct na het inleveren van de antwoorden gaat de docent na hoe de individuen en de teams hebben gescoord. Vragen waar veel studenten en teams moeilijkheden mee hebben gaat de docent daarna uitgebreider behandelen.

Ik ga er proberen eens wat meer mee te doen.

Meer informatie:

  • Michaelsen, L. K., & Sweet, M. (2008). The essential elements of team-based learning. New Directions for Teaching and Learning, 2008(116), 7–27.

Bijna 5 december: Sinterklaasexamen

Via de SOP list van Diny Ebrecht ontving ik onderstaande examenprocedure “ter lering ende vermaeck”:

 

Uit: Enige richtlijnen voor bisschoppen en andere verhalen

Godfried Bomans, 1987, Amsterdam, De Boekerij

“… Wat wij dus vragen is de instelling van een examencommissie, die deze zaak eens krachtig ter hand neemt. Ieder die Sinterklaas wil zijn, doorlope een spoedcursus van tenminste drie maanden en legt na afloop een proeve af. Hij komt binnen, strooit wat pepernoten in het rond, houdt een toespraak en verwijdert zich daarna. Hierna mag hij binnenkomen, om te horen of hij geslaagd is dan wel gezakt. Hij kan ook een herexamen krijgen, hetzij over het geheel, hetzij over een onderdeel, b.v. het werpen der noten.

Ik zou hoge geestelijken, tot de rang van Deken, van deze cursus willen vrijstellen. Men mag aannemen, dat zij genoeg praktijk bezitten. Ook oude pastors dienen te worden gedispenseerd. Voorts al diegenen, die al van zichzelf heilig zijn. Het lijkt mij ongepast iemand te examineren, die op zijn eigen houtje al zover gekomen is….”

 

Rule of thumb: 40 questions in a 4-choice multiple-choice test – a short follow-up…

In my previous post I presented the rule-of-thumb (for the Netherlands) regarding chosing 40 4-choice multiple-choice test items for a typical end-of-course tests in higher education. A discussion developed on Twitter with some people about this rule of thumb. There was some critisism (of course – as it deals with a rule-of-thumb). A short impression of that discussion seems appropriate.

1

Review studies have shown that the 3rd distractor of 4-option multiple-choice test items does in general perform poor: it is not attractive for both competent and incompetent students. The 3rd distractor (for which a teacher has done is utter best) is mostly easily spotted by students as an incorrect option. So, in effect, it is better to develop 3-option multiple-choice test items. It then allows a teacher to administer more test items in the same testing time hence increase the representatives and reliability of the test in one sweep.

As was noted also, the use of the 4-option multiple-choice test item in the Netherlands is actually induced by A.D. de Groot who brought multiple-choice testing to the Netherlands and who took a personal stance in promoting this type of multiple-choice test item, setting effectively the ‘norm’.

Rodriguez, M. C. (2005). Three options are optimal for multiple‐choice items: a meta‐analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3–13. doi:10.1111/j.1745-3992.2005.00006.x

Personally, I also think that both teachers and students are of the opinion that 3-option multiple-choice test items are inferior to 4-option multiple-choice test items. They think that they would be inherently (too) easy (forgetting that the level of difficulty does not follow from the form of the test item, but from the content …).

2

Tests in higher education should not be regarded as psychological tests of which the goal is to spread people as much as possible on a scale based on their degree of knowledge or skill. No, instead, tests in higher education should only discriminate between students who did not study the materials at all and students who did do the studying. If the latter is the case, then the spread in scores might/should actually be low. And if the spread is low, the reliability of a test (as measured with for example Cronbach alpha) will be low. But that would not be a problem then.

Actually, end-of-course tests should be regarded as achievement tests that should be criterion referenced and not norm-referenced.

Coscarelli, W., & Shrock, S. (2002). The two most useful approaches to estimating criterion-referenced test reliability in a single test administration. Performance Improvement Quarterly, 15(4), 74–85. doi:10.1111/j.1937-8327.2002.tb00266.x
Shrock, S. A., & Coscarelli, W. C. (2008). Criterion-referenced test development: Technical and legal guidelines for corporate training. John Wiley & Sons.

3

The field of educational testing and educational assessment has taken large strides since the 60-ies of the previous century. As well in terms of psychometric and analytic methods (for example IRT), in development and validation methods (for example Evidence-centered Assessment Design) and in conceptualizing the function of assessment (Constructive Alignment, Assessment of, for and as Learning for example).

Methods and philosophies for development and analysis and thinking about end-of-course testing in higher education however have stopped since the 60-ies of the previous century. I recently ran into a paper by Smith dating from 1978 and observed that not much seems to have changed with regards to end-of-course testing in higher education:

Smith, L. S. (1978). Decisions and Dilemmas in Constructing Criterion-referenced Tests: Some Questions and Issues. Center for the Study of Evaluation, UCLA Graduate School of Education. Retrieved from https://www.cse.ucla.edu/products/reports/R110.pdf

I ask myself: why is this and what should we learn from this? Maybe a next post … maybe referring to Borsboom and Mellenbergh …

Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071. doi:10.1037/0033-295X.111.4.1061