Ga naar de homepage van de Open Universiteit

Introductie

Congresthema

Organisatie

Papers

Open Universiteit Opennet

Landelijk Overleg Studievaardigheden

Computergestuurde adaptieve intaketoets voor rekenen en wiskunde
Dr. Gerard Straetmans, Cito Instituut voor Toetsontwikkeling

 

In de oorspronkelijke tekst opgenomen tabellen, grafieken en dergelijke zijn niet overgenomen op de webpagina's van Opennet.

In de Volwasseneneducatie (VE) lijkt de tijd 'rijp te zijn' voor adaptief toetsen. Dit vermoeden is gebaseerd op de volgende ontwikkelingen:
- het streven van het BVE-veld naar een flexibel onderwijs- en toetssysteem;
- het beschikbaar komen van itembanken voor steeds meer vakgebieden in de VE;
- de aanwezigheid van grote aantallen krachtige computers in de instellingen.

In deze bijdrage zal worden ingegaan op wat adaptief toetsen is, waarin het zich onderscheidt van meer traditionele toetsvormen, hoe het werkt, wat de specifieke voordelen ervan zijn bij de intake van nieuwe cursisten in de VE en wat ervoor nodig is om het te realiseren.

Inhoud
Wat is een adaptieve toets?
Verschillen conventionele en adaptieve toetsing
Inhoud van de toets
Moeilijkheidsgraad
Toetslengte
Representativiteit
Vrijheid kandidaat
Toetsmoment
Organisatie afname
Tijdstip uitslag
Waarom is adaptief toetsen interessant voor Volwasseneneducatie?
Grote verschillen in vaardigheid
Flexibele in- en uitstroom
Lagere toetsdrempel
Wat is er nodig voor adaptief toetsen?
Concrete toepassing: een computergestuurde adaptieve intaketoets

Wat is een adaptieve toets?
Een adaptieve toets is een toets waarvan de items pas tijdens de afname geselecteerd worden uit een grote verzameling items. Na elk antwoord wordt de vaardigheid van de kandidaat geschat en wordt een item geselecteerd dat zo goed mogelijk is afgestemd op de voorlopige geschatte vaardigheid. Als de vaardigheid van de kandidaat hoog wordt ingeschat dan wordt een relatief moeilijk item voorgelegd, wordt de vaardigheid laag ingeschat dan krijgt de kandidaat een relatief eenvoudig item te beantwoorden.

Deze werkwijze komt misschien wat vreemd voor, maar is dat toch zeker niet. In een wat andere context komt hij zelfs heel logisch voor. Stel bijvoorbeeld dat ik zou willen weten hoe hoog enkelen van u kunnen springen. Het zou dan zeer ongebruikelijk zijn om op voorhand een aantal lathoogtes te bepalen waar u achtereenvolgens overheen moet springen. Veel handiger is het om de lathoogtes te laten afhangen van de prestaties die ik bij u waarneem. Als ik zie dat een van u zeer ruim over een bepaalde lathoogte springt, leg ik de lat vervolgens flink hoger. Maar als de lat er riant afgesprongen wordt, leg ik die flink wat centimeters lager.

Het zal u niet vreemd voorkomen dat deze aanpak over het algemeen veel sneller leidt tot een uitspraak over de hoogspringcapaciteit dan de aanpak waarbij de latposities op voorhand bepaald werden. Bij het toetsen van kennis en vaardigheden valt een soortgelijk voordeel te verwachten.

Deze aanpak vereist wél dat de prestatie op een item onmiddellijk geëvalueerd wordt om vervolgens het volgende item te kunnen kiezen. Voor de meeste docenten zal individuele toetsing niet haalbaar zijn. Gelukkig is de doorbraak van de computer in het onderwijs inmiddels een feit. De computer is in staat om items te presenteren, de antwoorden erop te evalueren en op grond van het antwoord een nieuw item te selecteren. In de literatuur wordt deze manier van toetsen aangeduid met de naam 'computergestuurde adaptieve toetsing'.

Verschillen conventionele en adaptieve toetsing
De combinatie van het gewijzigde toetsconcept en de inzet van een computer voor de afname van een toets leiden tot aanzienlijke verschillen tussen conventionele 'pen-en-papiertoetsen' en adaptieve toetsen. Enkele daarvan zullen we de revue laten passeren. De lezer dient zich ervan bewust te zijn dat het gaat om 'zwart-wit typeringen'.

Inhoud van de toets
Anders dan bij een traditionele pen-en-papiertoets maakt elke kandidaat in principe een andere toets. Dat is een gevolg van het feit dat bij een computergestuurde adaptieve toets geprobeerd wordt het niveau van de toets zo goed mogelijk af te stemmen op de vaardigheid van de kandidaat. Hele vaardige kandidaten krijgen moeilijker opgaven dan kandidaten met een gemiddelde of lage vaardigheid. Omdat een computergestuurde adaptieve toetsafname gebaseerd is op een geschaalde itembank (hier komen we straks nog op terug) kunnen de prestaties van kandidaten op verschillende toetsen toch direct met elkaar vergeleken worden.

Moeilijkheidsgraad
In een traditionele pen-en-papiertoets is de moeilijkheidsgraad van de toets vaak afgestemd op het niveau van de gemiddelde kandidaat. Kandidaten die ver onder of boven het gemiddelde zitten krijgen daardoor een toets te maken die veel te moeilijk respectievelijk veel te eenvoudig is. In een computergestuurde adaptieve toets krijgt een kandidaat alleen opgaven die hem/haar uitdagen zonder te moeilijk of te makkelijk te zijn.

Toetslengte
Korte toetsen zijn gevoelig voor allerlei 'toevalligheden' die de toetsprestatie kunnen beïnvloeden, zoals bijvoorbeeld de toevallige affiniteit/afkeer die een kandidaat heeft met een bepaald onderwerp. Daarom wordt in handboeken voor toetsconstructie aanbevolen om toetsen zo lang mogelijk te maken. Omdat bij een computergestuurde adaptieve toets alleen opgaven worden aangeboden die zo goed mogelijk zijn afgestemd op de vaardigheid van de kandidaat kan vaak met korte toetsen volstaan worden (denk aan het hoogspring-voorbeeld). Uit onderzoek is gebleken dat computergestuurde adaptieve toetsen, gemiddeld genomen, met de helft van het aantal items even nauwkeurig meten als traditionele pen-en-papiertoetsen. De 'on-line' toetssamenstelling van de computergestuurde adaptieve toetsing maakt het bovendien mogelijk om de toetslengte te laten afhangen van de specifieke kandidaat. Het stopcriterium is dan niet dat alle items beantwoord zijn (zoals bij een traditionele pen-en-papiertoets) maar, bijvoorbeeld, dat de vaardigheid met een vooraf gespecificeerde nauwkeurigheid geschat is. Het aantal items dat nodig is om de vaardigheid met de vereiste nauwkeurigheid te kunnen schatten, kan van kandidaat tot kandidaat verschillen.

Representativiteit
In een goede toets worden de doelstellingen van het onderwijs weerspiegeld. Om dit te bereiken wordt vroeg in de ontwerpfase een toetsmatrijs opgesteld. Dit is een soort blauwdruk van de toets waarin verticaal de leerstof staat afgebeeld en horizontaal de operaties die cursisten op die leerstof moeten kunnen uitvoeren. De toetsopgaven moeten evenwichtig verdeeld worden over beide dimensies.

In een computergestuurde adaptieve toets wordt bij de samenstelling van de toets primair gelet op de afstemming van de moeilijkheidsgraad van de opgave op de voorlopige schatting van de vaardigheid van de kandidaat. Zonder speciale maatregelen zal de computer geen acht slaan op de verdeling van de opgaven over de leerstofonderwerpen en de verrichtingen. Bij onevenwichtig opgebouwde itembanken (als er bijvoorbeeld een duidelijk verband is tussen leerstofonderwerpen en moeilijkheidsgraad) kan dit leiden tot toetsen die te weinig representatief zijn in de ogen van docenten en/of kandidaten. Wijzigingen in de software die de computer dwingen een representatieve toets te maken, bieden soelaas maar hebben wel tot gevolg dat er meer items nodig zijn om met dezelfde nauwkeurigheid te kunnen meten.

Vrijheid kandidaat
Bij een traditionele pen-en-papiertoets bepaalt de kandidaat zelf in welke volgorde de opgaven gemaakt worden. Doorgaans wordt een toets eerst in zijn geheel doorgekeken. Een kandidaat kan op grond daarvan snel een schifting maken tussen opgaven die probleemloos beantwoord kunnen worden en opgaven waarvoor meer tijd nodig is. Hij/zij kan er voor kiezen om de eenvoudige opgaven eerst te beantwoorden en pas daarna aan de moeilijke te beginnen. Tevens is het mogelijk om eerder gegeven antwoorden nog eens rustig te overdenken en eventueel te herzien. Bij computergestuurde adaptieve toetsing is dit alles niet mogelijk. De computer bepaalt welke opgave op welk moment in de toets beantwoord moet worden. Eenmaal gegeven antwoorden kunnen niet meer opgeroepen en herzien worden. Bij sommige kandidaten kan dit gevoelens van toetsangst oproepen of versterken.

Toetsmoment
Om te voorkomen dat kandidaten informatie over de toetsinhoud aan elkaar doorgeven wordt doorgaans geprobeerd het aantal toetsmomenten zo beperkt mogelijk te houden. In de Volwasseneneducatie staat dit streven haaks op de praktijk van flexibele in- en uitstroom. Dit probleem behoort tot het verleden bij computergestuurde adaptieve toetsing. Immers, bij deze toetsmethodiek krijgt elke kandidaat in principe een andere toets te maken en is doorgeven van informatie zinloos geworden. Het toetsmoment kan daarom zonder probleem bepaald worden door de kandidaat zelf.

Organisatie afname
Computergestuurde adaptieve toetsing verlaagt de drempel om veelvuldig te toetsen omdat de meest arbeidsintensieve taken door de computer worden uitgevoerd, te weten de constructie van de toets en het nakijken daarvan.

Tijdstip uitslag
Omdat bij traditionele pen-en-papiertoetsing bij voorkeur veel kandidaten tegelijk getoetst worden, heeft een docent na afloop veel werk met nakijken. Als gevolg daarvan laat de uitslag enige tijd op zich wachten. Voor de cursist komt dit oponthoud vaak ongelegen. Bij computergestuurde adaptieve toetsing volgt de uitslag onmiddellijk op de beantwoording van het laatste item.

Waarom is adaptief toetsen interessant voor de Volwasseneneducatie?
Tot op heden wordt in het onderwijs weinig gebruik gemaakt van adaptieve toetsen. De VE echter heeft specifieke kenmerken die de behoefte aan dergelijke toetsen stimuleren.

Grote verschillen in vaardigheid
Cursisten in de VE verschillen in hoge mate van elkaar met betrekking tot hun opleidingsverleden, werkervaring en motivatie om een cursus te volgen. Dit komt onder andere tot uiting in de grote verschillen in vaardigheid op een specifiek vak- of kennisgebied. Daar bovenop komt nog dat het vaardigheidsniveau zich a priori nauwelijks laat inschatten. Vooral ten aanzien van de zogenoemde 'intaketoetsen' geldt vaak dat de toetsontwikkelaar 'blind' construeert. Buiten de VE kan de vaardigheid van een groep leerlingen/studenten a priori ingeschat worden op grond van hun gezamenlijke opleidingsverleden (leerlingen van vier HAVO hebben het programma van drie HAVO met succes afgerond of hebben een MAVO-diploma op zak). Bij cursisten in de VE is die opleidingsachtergrond zeer divers (en vaak onbekend) en docenten weten dus eigenlijk niets van de vaardigheid op het betreffende vak- of kennisgebied. Een toets die de vaardigheid in kaart moet brengen van potentiële cursisten moet derhalve zowel gemakkelijke als moeilijke items bevatten. Maar hoe efficiënt is zo'n toets? Hoeveel van de items kunnen, gegeven de vaardigheid van een bepaalde cursist, voldoende informatie opleveren over de vaardigheid van de cursist? Voor cursisten met een relatief hoge vaardigheid zullen dat er niet veel zijn. Het merendeel van de toetsitems zal voor die cursist saai en weinig uitdagend zijn en vanuit psychometrisch oogpunt weinig informatie opleveren over zijn vaardigheid omdat de uitkomst in hoge mate voorspelbaar is. Voor een zwakke cursist zal het merendeel van de opgaven juist te moeilijk zijn: hij raakt gefrustreerd door het veel te hoge niveau van de opgaven en in psychometrische zin leveren de antwoorden van deze cursist weer weinig informatie op over zijn vaardigheid. Adaptieve toetsing biedt hier uitkomst: elke cursist krijgt opgaven die maximaal zijn afgestemd op zijn vermoedelijke vaardigheidsniveau. De items in zo'n toets leveren dus veel informatie op over de vaardigheid van de cursist. De toets kan daardoor veel efficiënter worden en met minder items een nauwkeurige schatting maken van de vaardigheid.

Flexibele in- en uitstroom
Door de flexibele in- en uitstroom moet in de VE veel frequenter getoetst worden dan in andere onderwijsvormen. Dit levert problemen op met de geheimhouding van het toetsmateriaal: toetsen verouderen daardoor in hoog tempo. Bij adaptief toetsen maakt iedere cursist in principe een andere toets, terwijl de toetsprestaties toch met elkaar vergelijkbaar zijn.

Lagere toetsdrempel
Een andere reden waarom adaptief toetsen interessant is voor de VE heeft niet zozeer te maken met het gewijzigde toetsconcept maar primair met het feit dat adaptief toetsen het gebruik van een computer veronderstelt. De inzet van de computer maakt de taak voor de docent aanzienlijk lichter. Hij hoeft geen toetsafnames meer te organiseren, geen toetsen te construeren, niet meer na te kijken en geen rapportage te verzorgen: de computer heeft al deze taken van hem overgenomen.

Wat is er nodig voor adaptief toetsen?
In de eerste plaats moet beschikt kunnen worden over een geschaalde itembank. Dat is een grote verzameling items waarvan de afzonderlijke items via een mathematisch model aan elkaar gerelateerd zijn. Items die voldoen aan de specificaties van dit model vormen tesamen een schaal waarop zowel de moeilijkheidsgraad van deze items als de vaardigheden van de personen bij wie de items worden afgenomen afgebeeld kunnen worden. De schaling van een itembank wordt gebaseerd op de responsen van personen die een representatieve steekproef vormen uit de doelgroep van de itembank. In elk van de drie bijdragen in dit symposium wordt aandacht besteed aan deze belangrijke voorwaarde voor adaptief toetsen.

In de tweede plaats zijn er natuurlijk computers nodig. De eisen die aan de specificaties gesteld worden, hangen af van de wijze waarop stimuli worden aangeboden (geschreven tekst, plaatjes, audio, video, animaties) en van het adaptatie-algoritme.

Ten slotte moet er software zijn voor het presenteren van items op het scherm, het evalueren van responsen van kandidaten, het schatten van de vaardigheid van de kandidaat, het verzorgen van rapportages, het bijhouden van de itembank enz. De constructie van de toets wordt verzorgd door een stukje software dat wordt aangeduid als 'adaptatie algoritme'. Algoritmes zijn er in alle soorten en maten, maar zijn grofweg in twee categorieën in te delen: fixed branching en variable branching. Elk adaptatie algoritme opereert op een itembank. Een toetsafname kan gerepresenteerd worden als een pad door die itembank. Bij een fixed branching algoritme is een relatief beperkt aantal verschillende paden mogelijk. Bij een variable branching algoritme is het aantal verschillende paden (toetsen dus) nagenoeg oneindig.

Concrete toepassing: een computergestuurde adaptieve intaketoets
In de basiseducatie worden cursussen rekenen/wiskunde aangeboden op drie verschillende niveaus. Potentiële cursisten worden bij de instroom getoetst op hun kennis en vaardigheid met betrekking tot rekenen/wiskunde aan de hand van een zogenoemde intaketoets. Dit is een groepsgewijs af te nemen pen-en-papiertoets bestaande uit 25 opgaven die in twee fasen moet worden gemaakt. In de eerste fase maakt elke kandidaat dezelfde reeks van 15 opgaven. De gemiddelde moeilijkheidsgraad van deze opgaven is afgestemd op de gemiddelde vaardigheid van de doelgroep. In de tweede fase krijgt een kandidaat 10 opgaven te maken die qua moeilijkheid zijn afgestemd op zijn vermoedelijke vaardigheid.

Hoewel deze intaketoets dus ook min of meer adaptief is, is de afgelopen jaren gewerkt aan de ontwikkeling van een computergestuurde adaptieve plaatsingstoets. De voordelen van laatstgenoemde toets zijn:
- er is niet één adaptatiemoment maar net zo veel als er items in de toets zitten;
- elke kandidaat maakt in principe een andere intaketoets zodat het na elkaar toetsen van kandidaten geen probleem oplevert;
- kandidaten kunnen op elk gewenst moment getoetst worden omdat de voorbereiding voor een toetssessie minimaal is;
- kandidaten krijgen onmiddellijk uitslag en kunnen derhalve direct met het onderwijs beginnen;
- kandidaten met toetsangst worden gerustgesteld doordat de toets precies aansluit bij hun niveau.

De wijze waarop de computergestuurde adaptieve intaketoets werkt, laat zich het beste beschrijven aan de hand van de werking van het adaptatie-algoritme. Dit is een procedure die de start, de voortzetting en de beëindiging van een toetsafname regelt.

Om kandidaten zo veel mogelijk op hun gemak te stellen worden de eerste drie opgaven op geheel toevallige wijze getrokken uit een deelverzameling eenvoudige opgaven. Na beantwoording van de derde opgave wordt op grond van de drie beschikbare antwoorden een schatting gemaakt van de vaardigheid op de vaardigheidsschaal. De onzuiverheid van deze schatting wordt vertaald in een betrouwbaarheidsinterval om de geschatte vaardigheid. Op de vaardigheidsschaal zijn twee grensscores bepaald: de laagste grensscore vormt de grens tussen niveau 1 en 2, de hoogste grensscore geeft de grens aan tussen niveau 2 en 3. Zolang de laagste, de hoogste of beide grensscores liggen in het betrouwbaarheidsinterval kan geen betrouwbare plaatsingsbeslissing genomen worden en wordt de toets gecontinueerd. In dat geval wordt een opgave geselecteerd die zo goed mogelijk is afgestemd op de laatst geschatte vaardigheid van de kandidaat. Vervolgens wordt opnieuw de vaardigheid geschat. Doorgaans zal met elke nieuwe response de onzuiverheid van de geschatte vaardigheid afnemen en dus het betrouwbaarheidsinterval kleiner worden. Op een zeker moment zal er geen grensscore meer in het betrouwbaarheidsinterval liggen en kan met een grote mate van zekerheid de kandidaat worden toegewezen aan een bepaald niveau. De toets wordt dan beëindigd.

 

 

 

gewijzigd
07-06-99

e-mail naar
Marcel Wigman