Computergestuurde
adaptieve intaketoets voor rekenen en wiskunde
Dr. Gerard
Straetmans, Cito Instituut voor Toetsontwikkeling
In
de oorspronkelijke tekst opgenomen tabellen, grafieken en
dergelijke zijn niet overgenomen op de webpagina's van
Opennet.
In
de Volwasseneneducatie (VE) lijkt de tijd 'rijp te zijn'
voor adaptief toetsen. Dit vermoeden is gebaseerd op de
volgende ontwikkelingen:
- het streven van het BVE-veld naar een flexibel
onderwijs- en toetssysteem;
- het beschikbaar komen van itembanken voor steeds meer
vakgebieden in de VE;
- de aanwezigheid van grote aantallen krachtige computers
in de instellingen.
In
deze bijdrage zal worden ingegaan op wat adaptief toetsen
is, waarin het zich onderscheidt van meer traditionele
toetsvormen, hoe het werkt, wat de specifieke voordelen
ervan zijn bij de intake van nieuwe cursisten in de VE en
wat ervoor nodig is om het te realiseren.
Inhoud
Wat is een
adaptieve toets?
Verschillen
conventionele en adaptieve toetsing
Inhoud van de toets
Moeilijkheidsgraad
Toetslengte
Representativiteit
Vrijheid kandidaat
Toetsmoment
Organisatie afname
Tijdstip uitslag
Waarom is adaptief
toetsen interessant voor Volwasseneneducatie?
Grote verschillen
in vaardigheid
Flexibele in- en
uitstroom
Lagere toetsdrempel
Wat is er nodig
voor adaptief toetsen?
Concrete
toepassing: een computergestuurde adaptieve intaketoets
Wat
is een adaptieve toets?
Een adaptieve toets is een toets waarvan de
items pas tijdens de afname geselecteerd worden uit een
grote verzameling items. Na elk antwoord wordt de
vaardigheid van de kandidaat geschat en wordt een item
geselecteerd dat zo goed mogelijk is afgestemd op de
voorlopige geschatte vaardigheid. Als de vaardigheid van
de kandidaat hoog wordt ingeschat dan wordt een relatief
moeilijk item voorgelegd, wordt de vaardigheid laag
ingeschat dan krijgt de kandidaat een relatief eenvoudig
item te beantwoorden.
Deze
werkwijze komt misschien wat vreemd voor, maar is dat
toch zeker niet. In een wat andere context komt hij zelfs
heel logisch voor. Stel bijvoorbeeld dat ik zou willen
weten hoe hoog enkelen van u kunnen springen. Het zou dan
zeer ongebruikelijk zijn om op voorhand een aantal
lathoogtes te bepalen waar u achtereenvolgens overheen
moet springen. Veel handiger is het om de lathoogtes te
laten afhangen van de prestaties die ik bij u waarneem.
Als ik zie dat een van u zeer ruim over een bepaalde
lathoogte springt, leg ik de lat vervolgens flink hoger.
Maar als de lat er riant afgesprongen wordt, leg ik die
flink wat centimeters lager.
Het
zal u niet vreemd voorkomen dat deze aanpak over het
algemeen veel sneller leidt tot een uitspraak over de
hoogspringcapaciteit dan de aanpak waarbij de latposities
op voorhand bepaald werden. Bij het toetsen van kennis en
vaardigheden valt een soortgelijk voordeel te verwachten.
Deze
aanpak vereist wél dat de prestatie op een item
onmiddellijk geëvalueerd wordt om vervolgens het
volgende item te kunnen kiezen. Voor de meeste docenten
zal individuele toetsing niet haalbaar zijn. Gelukkig is
de doorbraak van de computer in het onderwijs inmiddels
een feit. De computer is in staat om items te
presenteren, de antwoorden erop te evalueren en op grond
van het antwoord een nieuw item te selecteren. In de
literatuur wordt deze manier van toetsen aangeduid met de
naam 'computergestuurde adaptieve toetsing'.
Verschillen
conventionele en adaptieve toetsing
De combinatie van het gewijzigde toetsconcept en
de inzet van een computer voor de afname van een toets
leiden tot aanzienlijke verschillen tussen conventionele
'pen-en-papiertoetsen' en adaptieve toetsen. Enkele
daarvan zullen we de revue laten passeren. De lezer dient
zich ervan bewust te zijn dat het gaat om 'zwart-wit
typeringen'.
Inhoud
van de toets
Anders dan bij een traditionele
pen-en-papiertoets maakt elke kandidaat in principe een
andere toets. Dat is een gevolg van het feit dat bij een
computergestuurde adaptieve toets geprobeerd wordt het
niveau van de toets zo goed mogelijk af te stemmen op de
vaardigheid van de kandidaat. Hele vaardige kandidaten
krijgen moeilijker opgaven dan kandidaten met een
gemiddelde of lage vaardigheid. Omdat een
computergestuurde adaptieve toetsafname gebaseerd is op
een geschaalde itembank (hier komen we straks nog op
terug) kunnen de prestaties van kandidaten op
verschillende toetsen toch direct met elkaar vergeleken
worden.
Moeilijkheidsgraad
In een traditionele pen-en-papiertoets is de
moeilijkheidsgraad van de toets vaak afgestemd op het
niveau van de gemiddelde kandidaat. Kandidaten die ver
onder of boven het gemiddelde zitten krijgen daardoor een
toets te maken die veel te moeilijk respectievelijk veel
te eenvoudig is. In een computergestuurde adaptieve toets
krijgt een kandidaat alleen opgaven die hem/haar uitdagen
zonder te moeilijk of te makkelijk te zijn.
Toetslengte
Korte toetsen zijn gevoelig voor allerlei
'toevalligheden' die de toetsprestatie kunnen
beïnvloeden, zoals bijvoorbeeld de toevallige
affiniteit/afkeer die een kandidaat heeft met een bepaald
onderwerp. Daarom wordt in handboeken voor
toetsconstructie aanbevolen om toetsen zo lang mogelijk
te maken. Omdat bij een computergestuurde adaptieve toets
alleen opgaven worden aangeboden die zo goed mogelijk
zijn afgestemd op de vaardigheid van de kandidaat kan
vaak met korte toetsen volstaan worden (denk aan het
hoogspring-voorbeeld). Uit onderzoek is gebleken dat
computergestuurde adaptieve toetsen, gemiddeld genomen,
met de helft van het aantal items even nauwkeurig meten
als traditionele pen-en-papiertoetsen. De 'on-line'
toetssamenstelling van de computergestuurde adaptieve
toetsing maakt het bovendien mogelijk om de toetslengte
te laten afhangen van de specifieke kandidaat. Het
stopcriterium is dan niet dat alle items beantwoord zijn
(zoals bij een traditionele pen-en-papiertoets) maar,
bijvoorbeeld, dat de vaardigheid met een vooraf
gespecificeerde nauwkeurigheid geschat is. Het aantal
items dat nodig is om de vaardigheid met de vereiste
nauwkeurigheid te kunnen schatten, kan van kandidaat tot
kandidaat verschillen.
Representativiteit
In een goede toets worden de doelstellingen van
het onderwijs weerspiegeld. Om dit te bereiken wordt
vroeg in de ontwerpfase een toetsmatrijs opgesteld. Dit
is een soort blauwdruk van de toets waarin verticaal de
leerstof staat afgebeeld en horizontaal de operaties die
cursisten op die leerstof moeten kunnen uitvoeren. De
toetsopgaven moeten evenwichtig verdeeld worden over
beide dimensies.
In
een computergestuurde adaptieve toets wordt bij de
samenstelling van de toets primair gelet op de afstemming
van de moeilijkheidsgraad van de opgave op de voorlopige
schatting van de vaardigheid van de kandidaat. Zonder
speciale maatregelen zal de computer geen acht slaan op
de verdeling van de opgaven over de leerstofonderwerpen
en de verrichtingen. Bij onevenwichtig opgebouwde
itembanken (als er bijvoorbeeld een duidelijk verband is
tussen leerstofonderwerpen en moeilijkheidsgraad) kan dit
leiden tot toetsen die te weinig representatief zijn in
de ogen van docenten en/of kandidaten. Wijzigingen in de
software die de computer dwingen een representatieve
toets te maken, bieden soelaas maar hebben wel tot gevolg
dat er meer items nodig zijn om met dezelfde
nauwkeurigheid te kunnen meten.
Vrijheid
kandidaat
Bij een traditionele pen-en-papiertoets bepaalt
de kandidaat zelf in welke volgorde de opgaven gemaakt
worden. Doorgaans wordt een toets eerst in zijn geheel
doorgekeken. Een kandidaat kan op grond daarvan snel een
schifting maken tussen opgaven die probleemloos
beantwoord kunnen worden en opgaven waarvoor meer tijd
nodig is. Hij/zij kan er voor kiezen om de eenvoudige
opgaven eerst te beantwoorden en pas daarna aan de
moeilijke te beginnen. Tevens is het mogelijk om eerder
gegeven antwoorden nog eens rustig te overdenken en
eventueel te herzien. Bij computergestuurde adaptieve
toetsing is dit alles niet mogelijk. De computer bepaalt
welke opgave op welk moment in de toets beantwoord moet
worden. Eenmaal gegeven antwoorden kunnen niet meer
opgeroepen en herzien worden. Bij sommige kandidaten kan
dit gevoelens van toetsangst oproepen of versterken.
Toetsmoment
Om te voorkomen dat kandidaten informatie over
de toetsinhoud aan elkaar doorgeven wordt doorgaans
geprobeerd het aantal toetsmomenten zo beperkt mogelijk
te houden. In de Volwasseneneducatie staat dit streven
haaks op de praktijk van flexibele in- en uitstroom. Dit
probleem behoort tot het verleden bij computergestuurde
adaptieve toetsing. Immers, bij deze toetsmethodiek
krijgt elke kandidaat in principe een andere toets te
maken en is doorgeven van informatie zinloos geworden.
Het toetsmoment kan daarom zonder probleem bepaald worden
door de kandidaat zelf.
Organisatie
afname
Computergestuurde adaptieve toetsing verlaagt de
drempel om veelvuldig te toetsen omdat de meest
arbeidsintensieve taken door de computer worden
uitgevoerd, te weten de constructie van de toets en het
nakijken daarvan.
Tijdstip
uitslag
Omdat bij traditionele pen-en-papiertoetsing bij
voorkeur veel kandidaten tegelijk getoetst worden, heeft
een docent na afloop veel werk met nakijken. Als gevolg
daarvan laat de uitslag enige tijd op zich wachten. Voor
de cursist komt dit oponthoud vaak ongelegen. Bij
computergestuurde adaptieve toetsing volgt de uitslag
onmiddellijk op de beantwoording van het laatste item.
Waarom
is adaptief toetsen interessant voor de
Volwasseneneducatie?
Tot op heden wordt in het onderwijs weinig
gebruik gemaakt van adaptieve toetsen. De VE echter heeft
specifieke kenmerken die de behoefte aan dergelijke
toetsen stimuleren.
Grote
verschillen in
vaardigheid
Cursisten in de VE verschillen in hoge mate van
elkaar met betrekking tot hun opleidingsverleden,
werkervaring en motivatie om een cursus te volgen. Dit
komt onder andere tot uiting in de grote verschillen in
vaardigheid op een specifiek vak- of kennisgebied. Daar
bovenop komt nog dat het vaardigheidsniveau zich a priori
nauwelijks laat inschatten. Vooral ten aanzien van de
zogenoemde 'intaketoetsen' geldt vaak dat de
toetsontwikkelaar 'blind' construeert. Buiten de VE kan
de vaardigheid van een groep leerlingen/studenten a
priori ingeschat worden op grond van hun gezamenlijke
opleidingsverleden (leerlingen van vier HAVO hebben het
programma van drie HAVO met succes afgerond of hebben een
MAVO-diploma op zak). Bij cursisten in de VE is die
opleidingsachtergrond zeer divers (en vaak onbekend) en
docenten weten dus eigenlijk niets van de vaardigheid op
het betreffende vak- of kennisgebied. Een toets die de
vaardigheid in kaart moet brengen van potentiële
cursisten moet derhalve zowel gemakkelijke als moeilijke
items bevatten. Maar hoe efficiënt is zo'n toets?
Hoeveel van de items kunnen, gegeven de vaardigheid van
een bepaalde cursist, voldoende informatie opleveren over
de vaardigheid van de cursist? Voor cursisten met een
relatief hoge vaardigheid zullen dat er niet veel zijn.
Het merendeel van de toetsitems zal voor die cursist saai
en weinig uitdagend zijn en vanuit psychometrisch oogpunt
weinig informatie opleveren over zijn vaardigheid omdat
de uitkomst in hoge mate voorspelbaar is. Voor een zwakke
cursist zal het merendeel van de opgaven juist te
moeilijk zijn: hij raakt gefrustreerd door het veel te
hoge niveau van de opgaven en in psychometrische zin
leveren de antwoorden van deze cursist weer weinig
informatie op over zijn vaardigheid. Adaptieve toetsing
biedt hier uitkomst: elke cursist krijgt opgaven die
maximaal zijn afgestemd op zijn vermoedelijke
vaardigheidsniveau. De items in zo'n toets leveren dus
veel informatie op over de vaardigheid van de cursist. De
toets kan daardoor veel efficiënter worden en met minder
items een nauwkeurige schatting maken van de vaardigheid.
Flexibele
in- en uitstroom
Door de flexibele in- en uitstroom moet in de VE
veel frequenter getoetst worden dan in andere
onderwijsvormen. Dit levert problemen op met de
geheimhouding van het toetsmateriaal: toetsen verouderen
daardoor in hoog tempo. Bij adaptief toetsen maakt iedere
cursist in principe een andere toets, terwijl de
toetsprestaties toch met elkaar vergelijkbaar zijn.
Lagere
toetsdrempel
Een andere reden waarom adaptief toetsen
interessant is voor de VE heeft niet zozeer te maken met
het gewijzigde toetsconcept maar primair met het feit dat
adaptief toetsen het gebruik van een computer
veronderstelt. De inzet van de computer maakt de taak
voor de docent aanzienlijk lichter. Hij hoeft geen
toetsafnames meer te organiseren, geen toetsen te
construeren, niet meer na te kijken en geen rapportage te
verzorgen: de computer heeft al deze taken van hem
overgenomen.
Wat is er
nodig voor
adaptief toetsen?
In de eerste plaats moet beschikt kunnen worden
over een geschaalde itembank. Dat is een grote
verzameling items waarvan de afzonderlijke items via een
mathematisch model aan elkaar gerelateerd zijn. Items die
voldoen aan de specificaties van dit model vormen tesamen
een schaal waarop zowel de moeilijkheidsgraad van deze
items als de vaardigheden van de personen bij wie de
items worden afgenomen afgebeeld kunnen worden. De
schaling van een itembank wordt gebaseerd op de responsen
van personen die een representatieve steekproef vormen
uit de doelgroep van de itembank. In elk van de drie
bijdragen in dit symposium wordt aandacht besteed aan
deze belangrijke voorwaarde voor adaptief toetsen.
In
de tweede plaats zijn er natuurlijk computers nodig. De
eisen die aan de specificaties gesteld worden, hangen af
van de wijze waarop stimuli worden aangeboden (geschreven
tekst, plaatjes, audio, video, animaties) en van het
adaptatie-algoritme.
Ten
slotte moet er software zijn voor het presenteren van
items op het scherm, het evalueren van responsen van
kandidaten, het schatten van de vaardigheid van de
kandidaat, het verzorgen van rapportages, het bijhouden
van de itembank enz. De constructie van de toets wordt
verzorgd door een stukje software dat wordt aangeduid als
'adaptatie algoritme'. Algoritmes zijn er in alle soorten
en maten, maar zijn grofweg in twee categorieën in te
delen: fixed branching en variable branching. Elk
adaptatie algoritme opereert op een itembank. Een
toetsafname kan gerepresenteerd worden als een pad door
die itembank. Bij een fixed branching algoritme is een
relatief beperkt aantal verschillende paden mogelijk. Bij
een variable branching algoritme is het aantal
verschillende paden (toetsen dus) nagenoeg oneindig.
Concrete
toepassing: een
computergestuurde adaptieve intaketoets
In de basiseducatie worden cursussen
rekenen/wiskunde aangeboden op drie verschillende
niveaus. Potentiële cursisten worden bij de instroom
getoetst op hun kennis en vaardigheid met betrekking tot
rekenen/wiskunde aan de hand van een zogenoemde
intaketoets. Dit is een groepsgewijs af te nemen
pen-en-papiertoets bestaande uit 25 opgaven die in twee
fasen moet worden gemaakt. In de eerste fase maakt elke
kandidaat dezelfde reeks van 15 opgaven. De gemiddelde
moeilijkheidsgraad van deze opgaven is afgestemd op de
gemiddelde vaardigheid van de doelgroep. In de tweede
fase krijgt een kandidaat 10 opgaven te maken die qua
moeilijkheid zijn afgestemd op zijn vermoedelijke
vaardigheid.
Hoewel
deze intaketoets dus ook min of meer adaptief is, is de
afgelopen jaren gewerkt aan de ontwikkeling van een
computergestuurde adaptieve plaatsingstoets. De voordelen
van laatstgenoemde toets zijn:
- er is niet één adaptatiemoment maar net zo veel als
er items in de toets zitten;
- elke kandidaat maakt in principe een andere intaketoets
zodat het na elkaar toetsen van kandidaten geen probleem
oplevert;
- kandidaten kunnen op elk gewenst moment getoetst worden
omdat de voorbereiding voor een toetssessie minimaal is;
- kandidaten krijgen onmiddellijk uitslag en kunnen
derhalve direct met het onderwijs beginnen;
- kandidaten met toetsangst worden gerustgesteld doordat
de toets precies aansluit bij hun niveau.
De
wijze waarop de computergestuurde adaptieve intaketoets
werkt, laat zich het beste beschrijven aan de hand van de
werking van het adaptatie-algoritme. Dit is een procedure
die de start, de voortzetting en de beëindiging van een
toetsafname regelt.
Om
kandidaten zo veel mogelijk op hun gemak te stellen
worden de eerste drie opgaven op geheel toevallige wijze
getrokken uit een deelverzameling eenvoudige opgaven. Na
beantwoording van de derde opgave wordt op grond van de
drie beschikbare antwoorden een schatting gemaakt van de
vaardigheid op de vaardigheidsschaal. De onzuiverheid van
deze schatting wordt vertaald in een
betrouwbaarheidsinterval om de geschatte vaardigheid. Op
de vaardigheidsschaal zijn twee grensscores bepaald: de
laagste grensscore vormt de grens tussen niveau 1 en 2,
de hoogste grensscore geeft de grens aan tussen niveau 2
en 3. Zolang de laagste, de hoogste of beide grensscores
liggen in het betrouwbaarheidsinterval kan geen
betrouwbare plaatsingsbeslissing genomen worden en wordt
de toets gecontinueerd. In dat geval wordt een opgave
geselecteerd die zo goed mogelijk is afgestemd op de
laatst geschatte vaardigheid van de kandidaat. Vervolgens
wordt opnieuw de vaardigheid geschat. Doorgaans zal met
elke nieuwe response de onzuiverheid van de geschatte
vaardigheid afnemen en dus het betrouwbaarheidsinterval
kleiner worden. Op een zeker moment zal er geen
grensscore meer in het betrouwbaarheidsinterval liggen en
kan met een grote mate van zekerheid de kandidaat worden
toegewezen aan een bepaald niveau. De toets wordt dan
beëindigd.
|