Update 2 Grassroot project “interactieve examinering voor de UvA matching”.

Bijdrage van Arnoud Visser

Het doel van dit Grassroot project is om ervaring op te doen met digitale examinering. Dit is toegepast op een grote groep scholieren die zich ingeschreven hadden voor de studie “Kunstmatige Intelligentie”. Deze groep heeft twee dagen een hoofdstuk uit een boek behandeld gekregen en is daar ook over geëxamineerd. Het verschil is met het reguliere onderwijs is dat we nu geen twee weken hebben om na te kijken, maar een half uur. Vandaar dat we ervaring nodig hadden met digitale examinering.

In overleg met de facultaire ICTO expert hebben we er voor gekozen om deze mogelijkheden te verkennen door eerst een standard digitaal examen te maken met de simpelste tool, in dit geval Blackboard. Eerst heb ik een opsomming gemaakt van de concepten die de scholieren zich eigen gemaakt zouden moeten hebben uit ze het hoofdstuk dat mee naar huis krijgen. Daarna heb ik bij elk van de concepten een multiple-choice vraag bedacht. De moeilijkheid hierbij is om een aantal antwoorden te bedenken die op het eerste gezicht allemaal relevant lijken, maar bij nadere bestudering er toch maar een waar / onwaar is. Bij de latere testen bleek dit goed gelukt te zijn.

De eerste versie van dit digitale examen heb ik getest met behulp van de studenten die nu een jaar met de studie bezig zijn. De eerste opzet was om erachter te komen wat de simpele en wat de meer geavanceerde vragen waren, maar het examen was zo stevig dat de analyse alleen gebruikt kon worden om vragen die verwarring opriepen eruit te halen. Voor de analyse heb ik de combinatie van BlackBoard’s attempt statistics en de online tool qdna gebruikt. De tool qdna geeft inzicht in de p-, a- en rit-waarden. Nu was het percentage van geëxamineerden die het antwoord goed hadden (de p-waarde) vrij laag,  dus had ik moeite om in te schatten of de meer geavanceerde analyse zinvol was. De tool qdna concentreert zich sterk op de rit-waarde, het getal dat aangeeft hoe goed een vraag het onderscheid maakt tussen met hoge scores voor de hele toets en mensen met lage scores.  Uiteindelijk heb ik met behulp van deze analyse zes verdachte vragen vervangen door vragen die de essentie van de stof testen.

Over het uiteindelijke resultaat ben ik erg tevreden. Het elektronisch examen is door de scholieren allemaal in een uur gemaakt en laat een groot  onderscheid in p-waardes zien (0.31 – 0.86). Uit de evaluatie gaven de scholieren aan dat ze het examen pittig vonden, maar wel goed vonden aansluiten bij de stof. Nu moeten we alleen nog kijken wat de voorspellende waarde van deze toets is geweest, door hun score nu in juni in december te vergelijken met hun eerste studieadvies.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s