Rapport audit normering doorstroomtoetsen 2024 ETS Global
De normering van de doorstroomtoetsen in 2024 is goed uitgevoerd, concludeert onafhankelijk onderzoeksbureau ETS Global in het onderzoek dat het deed op verzoek van het College voor Toetsen en Examens (CvTE). Onafhankelijke beoordeling van ons werk maakt standaard deel uit van onze aanpak. Met de aanbevelingen maken wij werk van verbetering. Download hieronder het volledige rapport en lees de reactie vanuit het CvTE op de aanbevelingen.
Reactie CvTE aanbevelingen ETS Global
Hieronder een meer gedetailleerde weergave van hoe we werk maken van de aanbevelingen van ETS Global.
Aanbeveling 1
'Actualiseer de normering regelmatig (bijv. iedere drie jaar door middel van nieuw toelatings- en doorstroomonderzoek).'
Hiervoor is een proces ingericht dat we vanaf 2026 in kunnen zetten om de normering te evalueren en actualiseren. 2026 is het eerste jaar waarin het volledige onderzoek kan worden uitgevoerd, omdat er van drie jaren resultaten en plaatsingsgegevens nodig zijn. We willen dat vanaf dan jaarlijks gaan doen.
Aanbeveling 2
'Bereken de (meet)onzekerheid (standaardfouten) van de normeringsresultaten om de verschillen zowel binnen als tussen doorstroomtoetsen beter te kunnen duiden.'
Het is goed om te benoemen dat er altijd sprake van een bepaalde (meet)onzekerheid is bij meetinstrumenten en dus ook bij toetsen. Het onderzoek vermeldt een aantal onzekerheden die een rol spelen in het proces van de landelijke normering van de doorstroomtoetsen:
- De nauwkeurigheid van de vastgestelde grensscores tussen de adviescategorieën. De grensscores zijn tot stand gekomen via equivalering. Het rapport bevat suggesties hoe deze onzekerheden bepaald kunnen worden, bijvoorbeeld door het toepassen van een methode zoals ‘bootstrap’. Deze aanbeveling nemen wij over.
- Onzekerheid in de berekening van de adviescategorie vanuit de toetsscore van iedere individuele leerling die een doorstroomtoets maakt. De grootte van deze onzekerheid is voornamelijk het gevolg van de meetprecisie van de betreffende doorstroomtoets, ook wel ‘betrouwbaarheid’ genoemd. In het beoordelingskader stellen we eisen aan deze betrouwbaarheid. Dit wordt door iedere toetsaanbieder statistisch onderbouwd en verantwoord. Een paarsgewijze vergelijking van classificatieconsistenties, zoals voorgesteld in het rapport, gebeurt op dit moment niet. Dit is een tijdsintensief proces, met als resultaat theoretische inschattingen van de classificatieconsistenties gebaseerd op psychometrische modellen. Hier kunnen niet-theoretische aspecten, zoals selectie-effecten, toetsbeleving en motivatie, niet in meegenomen worden. We hebben sterke vermoedens dat deze aspecten een belangrijke rol spelen in de waargenomen verschillen tussen doorstroomtoetsen. Daar komt bij dat we in het beoordelingskader al een statistische/theoretische eis meenemen. We kiezen er daarom op dit moment voor om prioriteit te geven aan onderzoeken die meer duiding kunnen geven bij de waargenomen verschillen in de praktijk.
Aanbeveling 3
'Evalueer de minimale en maximale grootte van de opgavebanken ten opzichte van de jaarset en pas deze mogelijk aan.'
Hier zijn met name grote verschillen tussen CAT (computergestuurde adaptieve toetsen) en lineaire doorstroomtoetsen. Het aantal observaties per opgave dat noodzakelijk is om betrouwbare resultaten te verkrijgen hangt hiermee samen. Grote verschillen hierin kunnen leiden tot verschillen in onderscheidend vermogen met betrekking tot het detecteren van het afwijkend functioneren van ankeropgaven. De aanbeveling is om kritisch te kijken naar welke verschillen in opgavebankgrootte nog toelaatbaar zijn (bijvoorbeeld in samenhang met de aantallen leerlingen die de toetsen maken).
Het doorstroomtoetsenstelsel biedt verschillende toetsvormen aan om recht te doen aan de wens van keuzevrijheid. Dat is de kern van dit stelsel. Bij lineaire toetsen krijgen leerlingen een papieren boekje met vooraf bepaalde opgaven. Adaptieve toetsen worden op de computer gemaakt. Deze hebben een grotere opgavebank, waarbij telkens een opgave wordt voorgelegd met een moeilijkheid die het best aansluit bij de vaardigheid van de leerling. Hier zijn in het beoordelingskader eisen voor meegegeven. Een opgavebank voor een adaptieve toets moet minimaal zes keer zo veel opgaven bevatten als maximaal voorgelegd worden aan leerlingen in de operationele toets.
Verschillen in grootte van opgavebanken kunnen zorgen voor een andere verhouding tussen het aantal gezamenlijke ankeropgaven en het aantal eigen opgaven per toets, waardoor mogelijk ook verschillen ontstaan in de gevoeligheid van de analyses om het verschillend functioneren van gezamenlijke ankeropgaven te onderzoeken. Naast de grootte van de opgavebank speelt ook het aantal leerlingen dat deelneemt aan de toets een rol.
Door middel van (simulatie)onderzoek zullen wij de impact van deze verschillen op het analyseren van functioneringsafwijkingen in het gezamenlijk anker in kaart brengen. Hierna volgen eventueel aanpassingen aan de eisen aan opgavebankgrootte, waarbij we de implicaties voor de keuzevrijheid meewegen.
Aanbeveling 4
'Als er bij vernieuwing van het doorstroomonderzoek gekozen wordt voor kalibratie met gefixeerde parameters (ipv gezamenlijke kalibraties), is het van belang dat ook deze van tijd tot tijd geactualiseerd worden (bijv. een periodieke herijking gezamenlijk met een doorstroomonderzoek). Dit is niet nodig bij een gezamenlijke kalibratie.'
We maken gebruik van gezamenlijke kalibratie bij het doorstroomonderzoek. Dit stelt ons namelijk in staat om de normen stabieler te houden over de jaren. In 2025 gaan we de methode uitwerken, testen en evalueren.
Aanbeveling 5
'Onderzoek de mogelijke verschillen in resultaten als gevolg van verschillen tussen lineaire en adaptieve toetsen, evenals tussen papieren en digitale toetsen.'
Het onderzoek naar de verschillen tussen papieren en digitale doorstroomtoetsen, evenals de redenen voor de variatie in toetsadviezen tussen aanbieders, staat sinds 2024 op de onderzoeksagenda van het CvTE. Het onderzoek zal de komende jaren worden uitgevoerd. Andere onderzoeken richten zich op de ankervolgorde, de gevolgen van het meenemen van SO/SBO-resultaten in de normering, selectie-effecten en het tot stand komen van de schooladviezen.
Wij nemen de resultaten van de onderzoeken en andere opgevolgde aanbevelingen mee in het verder verbeteren van de kwaliteit van de normering. Hierover zullen we ook rapporteren in onze jaarlijkse rapportage na de afname van een doorstroomtoets, de terugblik.