Toetsen

Bedankt voor de leuke lessen, we gaan je missen, en veel succes bij je nieuwe avontuur! - Eva van Dongen (oud-student)

In dit hoofdstuk worden de volgende indicatoren aangetoond:

Kennis van verschillende doelen van evalueren en toetsen, toetsvormen. Kennis van toetsconstructie, kwaliteitscriteria voor het beoordelen van de kwaliteit van toetsen, toetsanalyse.
Toetsen kiezen, maken of samenstellen.

Inleiding

Iedereen maakt in zijn leven tientallen toetsen. Van schriftelijke toetsen tot practica tot mondelingen tot assessments. Meestal volgt een toets of serie toetsen tot een bewijs dat je iets kan. Zo krijgen wij bijvoorbeeld een certificaat of diploma wat aantoont dat we bepaalde kennis, vaardigheden, handelingen, procedures, competenties of wat dan ook bezitten. Fun fact: het eerste diploma voor kinderen in Nederland en België is vaak het veterstrikdiploma (Bron).

Het is voor een docent ontzettend belangrijk een betrouwbare toets af te kunnen nemen bij zijn/haar studenten. Hier komt niet alleen het samenstellen van een toets bij kijken, maar ook het van de grand af aan ontwikkelen van een toets, of het kiezen van een al bestaande toets. In dit hoofdstuk worden het kiezen, maken en samenstellen van een toets behandeld. Hiermee toon ik aan de bijbehorende indicator te beheersen. Daarnaast wordt ook de indicator die in het teken staat van de verschillende doelen van een toets, de kwaliteitscriteria voor het beoordelen van de kwaliteit van de toets, kennis van toetsanalyse en meer aangetoond.

Doelen van evalueren en toetsen

Toetsen kunnen gebruikt worden voor verschillende doeleinden. Het meest gebruikte doel is toetsen of een student / leerling / cursist iets weet, iets kan, of een combinatie hiervan. Bijvoorbeeld het aantonen van kennis en vaardigheid in een bepaalde beroepsspecifieke context, een competentie. Een toets wordt traditioneel aan het einde van een lessenreeks / module / unit afgenomen en is vaak een momentopname. Denk hierbij aan een schriftelijke toets over een onderwerp, of een praktijkexamen in een lab. Soms mag je pas na het behalen van een diploma of certificaat een handeling professioneel uitoefenen, bijvoorbeeld reanimatie als bedrijfs-hulp-verlener. Sommige toetsen hoef je maar één keer te doen (SCRUM certificatie, hieronder beschreven), andere toetsen dien je binnen een bepaalde tijd weer opnieuw te halen. Een voorbeeld hiervan is het examen voor BHV (jaarlijks). Toetsen kunnen ook ingezet worden om tussentijdse voortgang te meten. Denk bijvoorbeeld aan een oefentoets of een quiz.

Summatief

Wanneer toetsen beoordeeld worden (al dan niet in zijn geheel) en daar een bepaald waardeoordeel aan hangt noemen we dit summatief. We kunnen summatief onderscheiden in grofweg twee niveaus, kwalitatief en kwantitatief.

Kwantitatief

Kwantitatief betekent dat je de beoordeling kan kwantificeren, ordenen. Je kan bijvoorbeeld een cijfer geven voor een toets, meestal tussen de 1 en de 10, waarbij een voldoende op 55% / een 5.5 ligt. Ook kan je een letter ter beoordeling geven. Bijvoorbeeld A t/m F, een methode die in Amerika veelal gebruikt wordt. Daarbij is belangrijk ook nog even zijstap te maken naar absolute en relatieve normering. Een absolute normering is hetgeen wat we in Nederland kennen. Je krijgt een aantal punten op basis van hoeveel vragen je goed hebt, deze punten vormen samen een cijfer. Een 10 betekent hierbij altijd dat je alles goed hebt. Een 8 dat je 80% van het aantal punten hebt. Zo kan een hele klas een 10 halen, of een dikke onvoldoende. Een relatieve normering stelt dat het cijfer afhangt van de rest van de studenten. Als je bijvoorbeeld bij de top 20% van de resultaten behoort krijg je een A, behoor je tot de onderste 49% krijg je een F. Vaak worden relatieve normeringen gebruikt in combinatie met letters A t/m F als beoordeling. (Wikipedia, n.d.)

Relatieve beoordeling a.d.h.v cijfers, vaak gebruikt in Amerika

(Wikipedia, n.d.)

Kwalitatief

Kwalitatief betekent dat je een beoordeling slecht tot niet kan kwantificeren. Je deelt bijvoorbeeld beoordelingen uit zoals goed, voldoende, en matig. Alhoewel je ook deze termen kan ordenen kan je er lastig tot geen wiskundige formules op loslaten (je kan bijvoorbeeld niet het gemiddelde uitrekenen). Kwalitatieve beoordelingen is hetgeen wat wij op het MediaCollege gebruiken. De voordelen hiervan zijn dat studenten zich minder gaan focussen op cijfers. Ook denk ik dat deze methode goed is voor toetsvormen zoals werkstukken en projecten waarbij cijfers niet echt wat zeggen. Het nadeel is dan wel weer dat twee studenten allebei in goed kunnen vallen, waarbij de resultaten niet vergelijkbaar zijn. Dit kan weer beter in cijfers uitgedrukt worden, kijk maar eens naar een 8 of een 9.5, een aanzienlijk verschil.

Er zitten aan beide beoordelingsmethodieken voor- en nadelen. Het voordeel van kwantitatief is dat je er cijfers / gemiddeldes / medianen aan kan onttrekken. Deze cijfers kan je vervolgens gebruiken om de toets en het onderwijs te analyseren en te evalueren. Het nadeel van kwantitatief is dat studenten zich wellicht teveel kunnen focussen op het halen van cijfers, en zelfs gedemotiveerd worden bij het behalen van een laag cijfer. Ook is soms het verschil tussen bepaalde cijfers lastig te bepalen. Bij een project kan een student een 6 halen en de ander een 6.5. Het verschil uitleggen tussen deze cijfers is al een hele opgave!

Formatief

Naast summatief toetsen bestaat er ook formatief toetsen / formatief handelen. Formatief handelen is volgens Vernieuwenderwijs (n.d.):

Onder formatief handelen worden alle activiteiten verstaan die leerlingen en docent uitvoeren om de leeractiviteiten van leerlingen in kaart te brengen, te interpreteren en te gebruiken om betere beslissingen te maken over vervolgstappen (Black & William, 2008). Belangrijk hierbij zijn onder andere heldere leerdoelen en succescriteria, effectieve feedback en passende didactiek.

Het gaat dus niet zozeer om wat de leerling behaald, maar waar de leerling staat. Ik heb in een ander hoofdstuk uitgebreid over formatief handelen geschreven, hierin wordt ook de praktische uitwerking van formatief handelen getoond. De link naar dit hoofdstuk is hieronder toegevoegd.

Formatief handelen

Veelgemaakte fouten

Ik zie vaak fouten in het onderwijs teruggekomen m.b.t. deze termen. Zo haalt de school waar ik nu werk vaak kwalitatief en formatief door elkaar. Wanneer je een beoordeling geeft en hier een waardeoordeel aanhangt is dit per definitie summatief. Wanneer je hierin termen zoals goed en matig gebruikt is het wel kwalitatief. Kwalitatief betekent dus niet automatisch formatief.

Daarnaast zie ik ook dat formatief handelen / formatief toetsen gebruikt wordt als vervanging voor summatief. De twee vormen kunnen prima naast elkaar bestaan. Het één sluit het ander namelijk niet uit, het kan elkaar zelfs verrijken! Zo kan je formatieve handelingen uitvoeren ter voorbereiding op de summatieve toets. Of kan je meerdere summatieve middelen inzetten om de leerling op weg te helpen (combinatie van summatief en formatief) (van Ast et al, 2020).

Toetsvormen

Ik denk dat iedereen weleens een toets heeft gemaakt waarvan je dacht uhm, waarom heb ik een mondeling terwijl ik iets moest bouwen? of Ik heb hele boeken uit me hoofd geleerd, ik ken alle jaartallen, en je vraagt me om een poster?! Om dit soort gedachten / opmerkingen te voorkomen is het belangrijk om op de toetsvorm te letten.

Een toetsvorm is de vorm waarop je toetst. Zo kan je een mondeling geven, een schriftelijke toets of een werkstuk. Belangrijk hierbij is dat de leerdoelen, de leeractiviteiten en de toetsen in verbinding met elkaar staan. Hier heb ik uitgebreid over geschreven in de sectie Toetsen maken. Wanneer je op onderstaande link klinkt kom je bij deze sectie uit.

Toetsen maken

Om een deel van mijn kennis over toetsvormen aan te kunnen tonen, heb ik hieronder uit de literatuur (van Berkel et al., 2014) wat toetsvormen opgesomd met de voor- en nadelen .

Toetsen met open vragen => Open vragen beperken de studenten niet in creativiteit, dit doen gesloten vragen vaak wel. Open vragen kunnen gebruikt worden om een omvangrijk kennisdomein te toetsen. Het nadeel is dat studenten niet kunnen gokken, waardoor als een student het niet zeker weet hij/zij ook waarschijnlijk 0 punten krijgt. Daarnaast moet er rekening gehouden worden dat wanneer de taal-vaardigheid van studenten slecht is de student gehinderd kan worden. Daarbij gaat de vraag voorbij aan haar doel. Dit is extra belangrijk wanneer de student een leerstoornis zoals dyslexie heeft.
Toetsen met mondelinge toets => Mondelinge toetsen zijn zeer handig wanneer je weinig studenten hebt. Je hoeft geen schriftelijke toets te maken, te laten printen, uitgebreide nakijkmodellen te maken enzovoort. Ook kan je bij mondelinge toetsen op lager orde denken en hoger orde denken toetsen. Je kan doorvragen om te kijken of een student echt iets beheerst en de schriftelijke vaardigheden van een studenten. Zowel lezen als schrijven, spelen geen rol meer. Als docent kan je tijdens een mondeling op een specifieke situatie van een student ingaan. Nadelen zijn onder andere dat het vrij arbeidsintensief is bij meerdere studenten, je vaak meerdere docenten nodig hebt voor het vier-ogen principe en je een student de genade behandeling kan geven. Hierbij vraag je net zo lang door, of stuur je net zolang tot de student het juiste antwoord geeft. Hiermee neemt de representativiteit en betrouwbaarheid van de toets af.
Toetsen van competenties => De definitie van een competentie verschilt tussen wetenschappers, maar de basis ligt in een beroepscontext uitvoeren van kennis, vaardigheden en de houding hierbij. Competenties worden voornamelijk in beroepsopleidingen getoetst en het toetsen hiervan probeert de kloof tussen school en de beroepspraktijk te overbruggen. Ook wordt er steeds meer getoetst over hoe de betreffende competenties in de toekomst op niveau blijven (net zoals in de PDG!). Een competentie toetsen is best arbeidsintensief maar toont wel aan dat een student een hetgeen beheerst in een beroepsmatige context. Alhoewel het toetsen van competenties als toetsvorm wordt beschreven ben ik vooral bekend met het toetsen van competenties in de vorm van een assessment. Een assessment toets vaak a.d.h.v. werk van een student dat eerder opgeleverd is. Zo speel je goed in op de individuele casus van een student, maar heb je wel meer voorbereidingstijd nodig.

Toetsconstructie

In eerste instantie wist ik niet wat er precies aangetoond diende te worden m.b.t. dit onderdeel. Om dit voor mijzelf duidelijk te krijgen ben ik opzoek gegaan naar trainingen voor het ontwikkelen van toetsen in het mbo. Ik kwam uiteindelijk terecht bij de CITO, een organisatie in Nederland die verschillende toetsen ontwikkeld en trainingen geeft. Onderstaand screenshot is van hun website genomen.

(CITO, n.d.)

Tijdens mijn basis kwalificatie examinering (BKE) zijn de bovenstaande onderwerpen allemaal aan bod gekomen. De koppeling naar het mbo is vrij simpel te maken. Het construeren van toetsen ging namelijk over het algemeen construeren van toetsen en niet zozeer toetsen voor het hbo. Bijna alle geleerde kennis en vaardigheden zijn daardoor toe te passen in het mbo. Sterker nog, collega's bevragen mij hier regelmatig om!

Wanneer ik een toets ontwikkelde, ontwikkelde ik meestal ook het onderwijs van die betreffende module. Wanneer er een nieuwe module ontwikkelt diende te worden begon ik met het kijken naar de competenties die aangetoond moesten worden. Deze vertaalde ik naar leerdoelen voor de module en bijbehorende eindeisen (of succescriteria). Het verschil hiertussen is niet altijd even duidelijk. Niet alles wat je een student leert wil je perse aftoetsen. Soms worden alle leerdoelen getoetst, soms een deel hiervan. De eindeisen verzamelde ik vervolgens in een toetsmatrijs.

Wanneer er een iteratie (nieuwe versie) van een module opgezet diende te worden begon ik bij de evaluatie. Zeker voor mijn eigen modules maakte ik altijd uitgebreide evaluaties. Meestal was bij de evaluatie de moduleleider aanwezig, tezamen met studenten, collega docenten, indien van toepassing student-assistenten en soms zelfs het werkveld. Deze evaluatiesessies werden soms synchroon, met zijn allen bij elkaar, uitgevoerd en soms parallel. Vervolgens keek ik naar de (soms herziene) competenties en verbeterde ik de toetsmatrijs. Wat ik zelf altijd erg belangrijk vond en geïntroduceerd heb is het opschrijven van wijzigingen van de toetsmatrijs t.o.v. het jaar ervoor. Niet alleen handig voor jezelf, maar ook voor collega's! Zo voorkom je dat een collega iets terugzet wat jij in eerste instantie veranderd had.

Na de toetsmatrijs construeerde ik een modulewijzer. Eigenlijk een soort uitgebreide versie van de toetsmatrijs, aangevuld met leerdoelen, de planning, literatuur en een korte verantwoording naar de landelijk gestelde competenties.

Na de modulewijzer kwam de modulehandleiding. Ik beschouwde dit als een soort bijbel van de module. De modulehandleiding was nog uitgebreider en was voor een werkstuk en een project zelfs de toets. Hierin stond namelijk de opdracht omschreven met alle relevante informatie. Niet voor elk vak was een modulehandleiding nodig. Als de module als toetsvorm een schriftelijke toets betrof was dit bijvoorbeeld niet nodig. Ik stelde dan vervolgens een toets op met een nakijkmodel en normeringsvoorschrift. Voor een werkstuk en project beoordeelde ik vrijwel altijd via een rubric.

Voor mijn BKE heb ik een schriftelijke toets met open en gesloten vragen gerealiseerd. Voor andere modules koos ik voor andere toetsvormen zoals assessments, presentaties, mondelingen, werkstukken en projecten. Hierbij schreef ik soms een casus die als leidraad van de toets diende. Na de afname van de toets analyseerde ik de resultaten, stelde ik indien nodig de normering bij en evalueerde ik de toets en module. Hierna stelde ik verbeter- en actiepunten op voor de volgende iteratie. Hiermee doorloop ik de plan-do-check-act circle, een belangrijk instrument voor waarborgen van kwaliteit. Voor meer informatie over hoe mijn modules en toetsing voldeden aan landelijk gestelde competenties en hoe ik dit in het mbo doe verwijs ik naar een het hoofdstuk kwalificatiedossier. De link naar dit hoofdstuk is hieronder toegevoegd. Daarnaast heb ik de gehele toetsconstructie van een module die ik heb ontwikkeld hieronder toegevoegd.

Eerdere ervaring (hbo) Koppeling naar het mbo Toetsmatrijs IWDER Modulewijzer IWDER Evaluatie IWDER Nakijkmodel IWDER

Kwaliteit van een toets

Je hebt niets aan een toets als deze geen kwaliteit heeft. Als iedereen slaagt door een slechte toets is het namelijk niet representatief, als niemand slaagt is er ook iets niet goed gegaan. Hetzelfde geldt voor als een toets totaal niet aansluit bij de beroepspraktijk. In deze sectie wordt besproken hoe ik als docent de kwaliteit van toets waarborg.

Rechtvaardigheidseisen

van Berkel et al. (2014) stellen in hun boek Toetsen in het hoger onderwijs dat een toets aan een aantal eisen dient te voldoen, deze worden rechtvaardigheidseisen genoemd. Hieronder heb ik ze in mijn eigen woorden kort samengevat.

Validiteit => Een toets moet valide zijn op inhoud-validiteit, begrip-validiteit en criterium-validiteit.
- Inhoud-validiteit betekent dat de toets als geheel representatief is voor hetgeen wat men getoetst wilt hebben. Dus alle leerdoelen die getoetst dienden te worden komen aan bod.
- Begrip-validiteit betekent dat hetgeen wat getoetst wordt op het juiste niveau getoetst wordt. Als je inzicht wilt toetsen is het niet valide om veel begripsvragen te stellen bijvoorbeeld.
- Criterium-validiteit betekent dat de mate waarin de toetsscore tot stand komt vergelijkbaar is met metingen buiten de toets. Als je twee vakken programmeren hebt gevolgd is het meer valide om dezelfde normering te gebruiken, bijvoorbeeld een absolute normering in cijfers.
Betrouwbaarheid => Een toets dient betrouwbaar te zijn. Zo zouden twee gelijke toetsen ongeveer hetzelfde resultaat moeten hebben bij een bepaalde groep leerlingen. Als een toets niet betrouwbaar is of van veel externe factoren afhangt heeft het weinig zin om te toetsen. Als een student een zeer onbetrouwbare toets haalt heeft de uitslag geen waarde.
Objectiviteit => Een toets dient door (bijna) iedereen nagekeken te kunnen worden. Dit maakt een toets objectief. Als één docent een veel hoger of lager cijfer geeft dan een andere docent (welke factoren er ook spelen), kan een toets als niet objectief gezien worden. Zelf vind ik objectiviteit altijd wel lastig aangezien bij beroepsopleidingen altijd een bepaalde domeinkennis geacht wordt. Wat theoretisch de objectiviteit kan verlagen. Een goed nakijkmodel helpt bij de objectiviteit, mits alle docenten zich hieraan houden.
Transparantie => Transparantie gaat over het feit of vooraf duidelijk is wat en hoe er getoetst wordt. Dit moet transparant gemaakt worden aan studenten en aan collega docenten. Tijdens de toets moeten studenten niet voor verrassingen komen te staan. Van al deze principes hecht ik het meeste waarde aan transparantie. Dit mogen collega's en studenten altijd van mij verwachten.
Normering => Normeren is het relateren van een toets aan een criterium. De normering moet betrouwbaar zijn en verschillen in normering moeten goed uitgelegd kunnen worden. Dit wordt moeilijker naarmate cijfers dicht bij elkaar liggen. Zelf voorzie ik mijn beoordelingen altijd van uitgebreid commentaar om hier zo goed mogelijk aan te voldoen.

De betrouwbaarheid van de toets kan in sommige gevallen berekend worden. Sommige softwarepakketten bieden dit volgens het eerder genoemde boek aan. In de praktijk heb ik de berekeningen alleen toegepast bij schriftelijke toetsen. Bij werkstukken en projecten is een berekening erg lastig uit te voeren. Wel maakte ik toetsanalyses en trok ik daar conclusies uit, en stelde wanneer nodig eventueel bij. Deze toetsanalyses tezamen met een toelichting van beoordelingsfouten worden in de volgende sectie toegelicht.

Toetsanalyse

Tijdens het construeren van de toets, de zogenoemde constructiefase, is het belangrijk goed te analyseren en oplettend te blijven m.b.t. de representativiteit van de toets. Ik ben het eens met van Berkel et al. (2014) dat het grootste deel van de kwaliteit van de toets gewaarborgd moet worden tijdens de constructie. Maar dit betekent niet dat na het afnemen van de toets, wanneer het nakijken begint, de toets niet geanalyseerd kan worden. In deze sectie schrijf ik over een recente toetsanalyse die ik heb uitgevoerd en enkele potentiële beoordelaars-fouten die kunnen optreden tijdens het beoordelen van een toets.

Recente toetsanalyse

Ik heb mijn partner onlangs geholpen met het analyseren van de resultaten van haar toets. Hier heb ik gekeken naar de verschillende onderdelen (eindeisen) die getoetst moesten worden, het gemiddelde per beoordelaar en de mediaan (middelste cijfer) per beoordelaar. Zo kwam ik samen met mijn partner tot de conclusie dat zij strenger nakijkt dan haar mede-beoordelaar op alle eindeisen. We hebben onderzocht en besproken waar dit vandaan komt. Daarnaast heb ik de gemiddelden met de medianen per eindeis berekend en vergeleken. Een gemiddelde geeft een mooi beeld van de score die door studenten behaald is inclusief uitschieters, een mediaan geeft het middelste cijfer weer. Wanneer deze dicht bij elkaar liggen toont het gemiddelde een betrouwbaar gemiddelde. Ook heb ik de hoogste en laagste cijfers per eindeis onderzocht, en ben ik tot de conclusie gekomen dat geen enkele student excellerende op een eindeis. Dit komt omdat voor geen enkele eindeis hoger is gehaald dan een 8. Ook heb ik het rendement in zijn geheel en het rendement per eindeis uitgerekend. Dit allemaal heb ik gedaan voor zowel de eerste als tweede kans. Wat ik ontzettend gaaf vond om te zien is dat met deze analyse mijn partner het nakijken van de herkansing heeft bijgesteld. Waardoor uiteindelijk de resultaten van de beoordelaars dichter bij elkaar lagen. Een directe verbetering na het analyseren van de resultaten dus! Ter bewijs heb ik twee screenshots van de analyse toegevoegd.

Een samenvatting van de toetsanalyse die ik heb uitgevoerd, eerste gelegenheid.

(Valstar., 2022)

Een samenvatting van de toetsanalyse die ik heb uitgevoerd, tweede gelegenheid.

(Valstar., 2022)

Als laatste wil ik nog kenbaar maken dat ik bekend ben met analysemethodes zoals de moeilijkheid van een vraag / de p-waarde en de betrouwbaarheid index / de coëfficiënt alpha. Zelf heb ik deze echter niet vaak gebruikt omdat de toetsvormen die ik over het algemeen gebruik zich niet voor deze berekeningen lenen.

Beoordelaars-fouten

Wanneer er (grote) verschillen optreden tussen beoordelaars bij dezelfde toets is de toets minder betrouwbaar. Alhoewel je nooit 100% betrouwbaarheid tussen beoordelaars kan garanderen, kan je het verschil wel minimaliseren. Enkele effecten plus hoe ik rekening houd met deze effecten zijn hieronder opgesomd. Deze effecten zijn beschreven a.d.h.v. van Bertek et al. (2014).

Contaminatie-effect => Het contaminatieeffect treedt op wanneer een beoordelaar iets beoordeeld voor een ander doeleinde dan waar de toets voor dient. Bijvoorbeeld meer punten geven omdat je een student aardig vindt, of minder punten geven omdat je wilt laten zien dat een onderwerp moeilijk is. Zelf hou ik hier rekening mee door altijd voor mezelf duidelijk te hebben waarom ik beoordeel. Daarnaast analyseer ik mijn toetsen en vergelijk ik uitslagen. Ik organiseerde en nam regelmatig deel aan kalibratiesessies om resultaten te vergelijken en eventueel bij te stellen.
Halo-effect => Dit effect gaat erover dat een beoordelaar een positief effect geeft aan een beoordeling omdat een andere presentatie van een student ook goed was. Uiteraard heb ik dit effect ook weleens meegemaakt. Door resultaten te bespreken met collega's en kritisch te evalueren met mede beoordelaars verminderde ik dit effect.
Horn-effect => Het horn-effect is het tegenovergestelde van het halo-effect. Een student onderwaarderen vanwege eerdere prestaties. Het minimaliseren van dit effect gebeurt op dezelfde manier als het halo-effect. Ook kunnen het halo- en horn-effect geminimaliseerd worden door het anoniem maken van het werk van studenten voor de beoordeling, bijvoorbeeld door na te kijken via studentnummer.
Normverschuiving => De normverschuiving is een fout die optreedt wanneer (veel) studenten een onderdeel goed of fout beantwoorden, wat kan leiden tot dat de docent de norm verschuift. Bijvoorbeeld als 80% van de studenten iets fout doet, de docent dit niet laat meetellen. Ik denk dat dit effect het effect is waar ik het meest vatbaar voor ben, aangezien ik ervan overtuigd ben dat wanneer heel veel studenten iets fout doen het aan het onderwijs ligt. Hierdoor ligt het dus ook aan mijzelf. Maar dit betekent natuurlijk niet dat studenten het dan niet meer hoeven te laten zien. Dit effect kan tegen worden gegaan door kritisch te kijken naar het onderwijs, de toets en te overleggen met collega's. Daarnaast is een kritische evaluatie ook nodig.
Restriction-of-range => Van dit effect heb ik erg veel last gehad tijdens mijn school-carrière. Restriction-of-range gaat ervan uit dat sommige docenten de gehele schaal gebruiken (1-10) en andere docenten dit niet doen (bijvoorbeeld 1-8). Mijn oude mentor vond altijd dat een perfect project niet bestond en weigerde hierdoor een 10 te geven, een 8 was zijn hoogste cijfer. Deze fout kan worden tegengegaan door duidelijke nakijkmodellen met indicaties van cijfers. Feedback waarom een cijfer gegeven wordt en het bespreken van deze feedback is hierbij ook nodig.
Sequentie-effect => Het sequentie-effect gaat over dat een prestatie over- of ondergewaardeerd wordt a.d.h.v. een reeks voorgaande beoordelingen. Bijvoorbeeld na een aantal slechte beoordelingen wordt de volgende voldoende beoordeling wellicht overgewaardeerd en andersom. Dit kan worden voorkomen door verticaal na te kijken of door willekeurig horizontaal na te kijken. Dus niet alle eerste opleveringen en daarna alle herkansingen na elkaar.
Signifisch effect => Wanneer beoordelaars letten op verschillende onderdelen treedt dit effect op. Stel dat ik op een semantische code let en mijn collega vooral op werkende software, dan kan dit verschillen in beoordeling geven. Ook hier is een duidelijk nakijkmodel met indicaties van bepaalde cijfers een oplossing. Wel moet een nakijkmodel ook niet té strict zijn aangezien dit weer andere nadelen kan opleveren.

Onlangs heb ik deze effecten opnieuw onder ogen gekregen aangezien mijn partner haar BKE-cursus volgde. Hierdoor ben ik ook opnieuw in deze materie gedoken. Gelukkig hield ik met de meeste effecten nog steeds rekening. Een reminder is nooit verkeerd!

Ik wil nog twee dingen opmerken voordat ik deze sectie afsluit. Het eerste is het vier-ogen-principe. Dit principe gaat ervan uit dat wanneer je een toets construeert je het proces door een collega laat monitoren en soms zelfs controleren. Zo kan een collega kijken of de toets inhoudelijke valide, betrouwbaar en authentiek is. Daarnaast kan je hetzelfde principe gebruiken bij het afnemen van een toets, bijvoorbeeld bij een mondeling, om zo de betrouwbaarheid van de toetsing te waarborgen. Dit principe paste ik altijd toe bij mijn vorige werkgever.

Het tweede wat ik wil opmerken is het ontbreken van standaarden voor onze opleiding m.b.t. toetsen. Voor het mbo hoef je niet perse een cursus / training gevolgd te hebben voor het construeren van toetsen. Daarnaast wordt het maken van toetsen wat luchtiger beschouwd dan op het hbo (in mijn optiek). Het valt mij op dat het mbo de structuur voor het maken van een toets erg goed kan gebruiken. Zelf zou ik hier graag over willen denken in bijvoorbeeld een toetsbeleidsplan.

Toetsen kiezen

Het is niet altijd nodig een toets helemaal vanaf de grond af aan te ontwikkelen. Soms kunnen hele examens en toetsen zelfs worden ingekocht. Zeker voor wat meer generieke vakken, waarvan standaarden door de overheid bepaalt worden, zijn er genoeg (oefen-) examens die ingekocht kunnen worden om studenten voor te bereiden op het echte examen. Soms is het ingekochte examen zelfs het examen. Kant en klare beroepsgerichte examens zijn naar mijn ervaring wat minder makkelijk te vinden. Mede omdat sommige beroepsgerichte competenties / kwalificaties samen getoetst worden in bijvoorbeeld een project. In dit geval zou er een examen moeten bestaan die precies de kwalificaties / competenties toetst waar jij als docent naar vraagt. Dit wordt natuurlijk steeds moeilijker wanneer je meerdere kwalificaties / competenties aan wilt tonen in één toets. Toch zijn er op mijn vakgebied wel wat mogelijkheden om bestaande toetsen te kiezen, deze ligt ik hieronder toe.

Codegrade

Als ik studenten zou willen beoordelen op programmeer-skills in gegeven (simpele) casuïstiek zou mijn voorkeur uitgaan naar Codegrade. Codegrade is een platform waarin toetsen kunnen worden afgenomen op het gebied van programmeren. Je kan in het systeem zelf toetsen maken, toetsen gebruiken die het platform aanbiedt of een combinatie tussen beide maken (Codegrade, n.d.). Codegrade is gebruikt bij mijn vorige werkgever met wisselende ervaringen. In mijn ogen is het een enorm goed systeem wanneer kleine programmeervaardigheden getoetst dienen te worden. Denk bijvoorbeeld aan het oplossen van een klein probleem door middel van een algoritme.

(Codegrade, n.d.)

SCRUM

Een van de twee kerntaken van een software developer is het ontwikkelen in een ontwikkelteam (SBB, n.d.). Vaak bouwen software developers software in een team, waar iedereen zijn eigen kracht zo goed mogelijk dient te benutten. Om zo'n ontwikkelproces in goede banen te leiden werken veel bedrijven met het SCRUM framework. De Nederlandse SCRUM gids definieert SCRUM als volgt:

Scrum is een lichtgewicht raamwerk dat mensen, teams en organisaties helpt om waarde te creëren door middel van adaptieve oplossingen voor complexe problemen.

(Schwaber, Sutherland., 2020)

Onze software developers dienen dit framework dan ook in bepaalde mate te beheersen. De defacto standaard om aan te tonen dat je de declaratieve- en procedurele-kennis van SCRUM beheerst is het afnemen van een erkend examen van de bedenkers van SCRUM. Dit examen kan afgenomen worden via de website van hun organisatie, SCRUM.org

Ik zou dan ook wanneer SCRUM getoetst dient te worden mijn collega's aanraden het officiële examen door studenten af te laten nemen. Dit examen biedt namelijk veel meer waarde dan het afronden van een vak. Een ander groot voordeel is ook dat er genoeg oefenexamens zijn die aangeboden worden door de organisatie. Deze noemt de organisatie open assessments.

Verschillende oefenen examens van SCRUM.org

(SCRUM.org, n.d.)

Onlangs heb ik zelf ook een SCRUM certificatie gehaald en heb ik ervaren hoe goed de toets is. De toets toetst op kennis-, inzicht- en toepassing-niveau en is uitdagend. Daarnaast zijn de vragen goed opgesteld en lijkt de toets erg betrouwbaar, representatief en authentiek.

(Credly, n.d.)

Mijn SCRUM certificaat Mijn SCRUM certificatie(s) op SCRUM.org Mijn SCRUM certificatie(s) op Credly

LinkedIn assessments

LinkedIn is booming. LinkedIn wordt door veel professionals in diverse industrieën gebruikt voor het posten van content, het zoeken naar werknemers, het zoeken naar werkgevers en meer. In mijn eigen nabije netwerk heeft bijna iedereen een LinkedIn profiel. Volgens BusinessOfApps wordt LinkedIn door 198 miljoen (!!) mensen in Europa gebruikt (Iqbal., 2022). Zelf heb ik het nut van LinkedIn ook ervaren. Mijn LinkedIn profiel heeft mijn traditionele curriculum vitae (CV) vervangen. Op mijn LinkedIn profiel kan ik namelijk veel makkelijker mijn portfolio tonen, mijn werkervaringen linken aan websites en andere middelen van mijn (toenmalige) werkgever(s) linken. Tevens gebruik ik LinkedIn voor reviews van mijn bedrijf en referenties van collega's en studenten. Mijn huidige baan heb ik ook gevonden via LinkedIn, en daar is LinkedIn ook trots op!

Een stukje van mijn LinkedIn-profiel, waar te zien is dat LinkedIn een badge heeft toegevoegd dat ik mijn baan via hun heb gevonden.

Wat LinkedIn ook aanbiedt zijn LinkedIn assessments. LinkedIn assessments (of in het Nederlands: LinkedIn evaluaties) zijn toetsen waarbij je jouw diepgaande kennis van een framework of techniek dient te bewijzen door het zo snel mogelijk beantwoorden van een aantal meerkeuzevragen. De beoordeling is hierbij relatief, je haalt het assessment alleen wanneer je bij de top 30% van de wereld behoort (de wereld refereert hier naar alle studenten die het assessment hebben afgelegd). Dit wordt gemeten door het aantal goede antwoorden en de tijd die je daarvoor nodig had. Wanneer je bij de top 30% van de wereld behoort krijg je een badge die je kan toevoegen aan jouw LinkedIn profiel. LinkedIn heeft een aantal slimmigheden ingebouwd om de toets zo betrouwbaar en authentiek mogelijk te houden. Zo heb je maar een korte tijd voor de vragen, waardoor je geen mogelijkheid hebt om antwoorden op te zoeken. Vragen en antwoorden zijn willekeurig, waardoor je bijna nooit dezelfde vraag krijgt. De vragen zijn vaak gebaseerd op minimaal inzicht niveau, waardoor je ook écht goed moet nadenken. En als laatst kan je de toets maar 2/3 keer achter elkaar proberen, waardoor de kans dat je (grotendeels) dezelfde toets maakt geëlimineerd wordt.

Recruiters en werkgevers krijgen potentiële kandidaten met LinkedIn badges die voldoen aan wat zij zoeken bovenaan in hun zoekresultaten. Het heeft dus ook echt voordeel deze badges te tonen op je profiel.

Door het grote aantal gebruikers van LinkedIn, de in mijn ogen betrouwbare en zeer inhoudelijke assessments, en de voordelen die het biedt voor werkzoekenden vind ik LinkedIn assessments een goed instrument om te toetsen. Ik raad studenten na bepaalde vakken dan ook aan deze assessments af te nemen (voor de betreffende technologie). Hieronder heb ik een screenshot toegevoegd van een badge die ik heb verdiend en waar ik enorm trots op ben.

Een badge voor React.js, ik behoor tot de top 5% van de wereld!

W3 Schools

Een begrip binnen web-development is W3 Schools. W3 Schools is een site met allerlei gratis tutorials, filmpjes, voorbeelden en artikelen over verschillende technieken en frameworks. W3 Schools heeft zelfs hele gratis leerpaden voor het leren van technieken en frameworks.

Waar LinkedIn assessments toetsen aanbiedt die op zijn minst op inzicht-niveau zijn, biedt W3 Schools toetsen aan die zich meer toespitsen op kennis. Zo heeft ook de beginnende programmeur een plek waar kennis over een bepaald framework of bepaalde techniek getoetst kan worden.

Een quiz over de basis van HTML, de vragen toetsen vaak op kennis-niveau.

(W3 Schools, n.d.)

Toetsen maken

Wanneer er geen toets is die voldoet aan wat je wilt toetsen is de oplossing simpel: je eigen toets maken! Het klinkt makkelijk, maar een toets maken is ontzettend veel werk. Op het hbo heb ik tientallen toetsen gemaakt. Deze toetsen besloegen verschillende toetsvormen waaronder:

Schriftelijke toetsen met gesloten / multiple choice vragen. Vaak gebruikt om op kennis- en inzicht-niveau te toetsen.
Schriftelijke toetsen met open vragen. Vaak gebruikt om op inzicht- en toepassing-niveau te toetsen.
Gecombineerde toetsen. Toetsen die open en gesloten vragen combineerden. Vaak gebruikt om op kennis-, inzicht en toepassing-niveau te toetsen. Al dan niet met (korte) casuïstiek;
Assessments. Assessments gebruikte ik vaak wanneer een student competenties diende aan te tonen. Meestal bracht een student ook werk mee, al dan niet van te voren opgestuurd.
Mondeling. Lijkt op een assessment maar met een mondeling gaat het vaak over een overhoring zonder ingebracht werk.
Werkstuk. De door mij meest gebruikte toetsvorm. Een werkstuk biedt studenten de kans werk te maken en op te leveren. Deze toetsvorm toetst vaak het hogere orde denken.
Project. Bij mijn vorige werkgever werden werkstukken en projecten onderscheiden. Een project was meestal complexer en meer tijdsintensief dan een werkstuk. Een werkstuk werd meestal door één of twee personen uitgevoerd, een project vaak door twee of meer. De grens is wel wat waziger dan bijvoorbeeld tussen mondeling en een schriftelijke toets.

Een model dat ik vaak in mijn hoofd neem bij het maken van een module / unit met bijbehorende toetsing is het constructive alignment model.

(altLAB, n.d.)

Het model is simpel, waardevol en praktisch. Het model stelt dat hetgeen wat de docent wilt dat studenten leren, de toets waarmee aangetoond wordt dat studenten het geleerde beheersen en de leeractiviteiten met elkaar in lijn moeten staan (alignment). Het eerste deel, constructive, staat ervoor dat studenten hetgeen wat zij moeten leren zich eigen maken en betekenis hieraan geven (altLAB, n.d.).

Dit model zorgt er bij mij voor dat ik met een holistische blik naar mijn module / unit kan kijken. Gebruik ik bijvoorbeeld niet een verkeerde toetsvorm? Toets ik met mijn toetsvorm wel hetgeen wat ik wil toetsen? Hetzelfde geldt natuurlijk voor de leeractiviteiten. Als ik studenten veel laat experimenteren en proberen zonder veel theorie erachter, kan ik moeilijk van ze verwachten dat ze een kennistoets kunnen maken met theoretische begrippen. Hetzelfde geldt voor de leerdoelen. Als ik leerdoelen op kennis niveau wil toetsen dien ik een toetsvorm te kiezen die hierbij past, hetzelfde geldt voor de andere niveaus.

Verder ben ik bekend met de voor- en nadelen van verschillende toetsvormen, het opstellen van eindeisen en leerdoelen en het examineren hiervan. Dit is allemaal teruggekomen in mijn cursus basis kwalificatie examinering, waar ik ontzettend veel van geleerd heb. In een ander hoofdstuk heb ik over formatief handelen geschreven. De link is onder het BKE-certificaat toegevoegd. Als laatste heb ik twee rubrics van vakken die ik heb gegeven toegevoegd, tezamen met een modulehandleiding. De modulehandleiding kan gezien worden als een toets van een project, aangezien studenten, indien zij de module willen behalen, deze toets dienen te doorlopen.

Taxonomieën

Wanneer we leerdoelen, leeruitkomsten, lesdoelen en andere soorten leren onderscheiden en volgorde aangeven spreken we van een taxonomie. Taxonomieën zijn een handig hulpmiddel om leer- en lesdoelen op te stellen. Ze geven mij handvatten om bijvoorbeeld lager en hoger orde denken te onderscheiden.

Bloom

Bloom is een bekende taxonomie. Elke ervaren docent heeft weleens gewerkt met deze taxonomie. De taxonomie onderscheid 6 niveaus bij het stellen van leer- en lesdoelen. Deze zijn in onderstaande afbeelding te vinden.

(Talenstimuleren.nl , n.d.)

De taxonomie onderscheidt hoger orde denken en lager orde denken. Wanneer studenten bezig zijn met onthouden, begrijpen en toepassen zijn studenten volgens deze taxonomie bezig met lager orde denken. Wanneer studenten aan het analyseren, evalueren of creëren zijn, zijn studenten bezig met hoger orde denken. De leeractiviteiten die hierbij verwacht worden staan beschreven in de taxonomie.

Ik vind Bloom een fijne taxonomie om mee te werken. Zelf deelde ik mijn leerdoelen vaak in a.d.h.v. deze taxonomie. Wel nam ik altijd aan dat er een bepaalde volgorde in deze taxonomie aangehouden diende te worden. Zonder onthouden geen begrijpen en zonder begrijpen geen toepassen dacht ik. Momenteel lees ik dat er juist geen volgorde aangehouden hoeft te worden en dat de taxonomie het gehele leerproces beslaat. De taxonomie van Bloom is volgens effectief leren wel meer gericht op kennis dan op vaardigheden (van Ast et al., 2020).

De vakken die ik op het hbo maakten besloegen altijd de eerste drie niveau's van Bloom. Alhoewel je wellicht zou denken dat hoger orde denken dan niet aan de orde kwam was dit niet het geval. Op het hbo onderscheidde ik en mijn collega's toepassen in nabije transfer en verre transfer. Nabije transfer gaat over het toepassen van het geleerde in een situatie die nauw samenhangt met de situatie waarin geleerd wordt. De situaties liggen dicht bij elkaar, nabij. Bij een verre transfer wordt het geleerde toegepast in een nieuwe situatie, vaak een beroepscontext. In onze ogen was dit niveau van toepassen wel hoger orde denken. Wellicht zou je de betreffende leer- en lesdoelen dan ook in creëren kunnen plaatsen. Op het mbo heb ik deze werkwijze aangehouden. Tot nu toe geef ik vooral eerstejaars studenten les en is er nog weinig sprake van verre transfer. Hier worstelde ik zelf persoonlijk ook mee, aangezien ik mijn studenten op het mbo wel op hogere orde wilde laten denken. Ik wil nog opmerken dat ik mijn leerdoelen en lesdoelen altijd via de SMART methode opstel, zodat ik makkelijk kan nagaan of leer- en lesdoelen door studenten behaald zijn. Als bewijs heb ik bewegende screenshots (GIF) van ons leersysteem Educator toegevoegd, met hierin leerdoelen beschreven a.d.h.v. Bloom. Daaronder een screenshot van lesdoelen a.d.h.v. Bloom.

Verschillende leerdoelen voor een unit gebaseerd op de eerste drie niveau's van de taxonomie van Bloom.

Leerdoelen opgesplist in kleine concrete lesdoelen.

OBIT

Tijdens het leren voor mijn PDG en bestuderen van effectief leren (van Ast et al, 2020) maakte ik kennis met verschillende taxonomieën. De problemen die ik met bloom ervaarde werden in het boek genoemd, tezamen met een andere taxonomie die hier wellicht een oplossing voor zou kunnen bieden, genaamd OBIT. OBIT staat voor:

Onthouden - Lager orde denken
Begrijpen - Lager orde denken
Integreren - Hoger orde denken
(creatief) toepassen - Hoger orde denken

Effectlief leren stelt dat het leergedrag en de leeractiviteiten in het onderwijs alle 4 de niveau's dienen te beslaan. Daarnaast is er geen vaste volgorde, wat OBIT-TIBO wordt genoemd. Effectief leren stelt daarbij een eigen leertheorie op die hieronder is toegevoegd.

Niveau	Leeractiviteiten
Leren gericht op beheersing en inzicht.	Onthouden en begrijpen
Leren gericht op beklijving, verankeren.	Integreren
Leren gericht op wendbaar, flexibel gebruik.	Creatief toepassen

Tabel gemaakt op basis van de leertheorie gesteld uit effectief leren.(van Ast, et al, 2020)

Ook in OBIT hoeven de fasen niet in een bepaalde volgorde afgelegd te worden. Momenteel experimenteer ik met twee modules waarbij ik bij elke module een andere taxonomie heb gebruikt. De module die de taxonomie van Bloom aanhoudt heb ik in de vorige sectie toegevoegd, hieronder heb ik leerdoelen opgesteld in ons onderwijssysteem, Educator, a.d.h.v. OBIT. OBIT voelt voor mij natuurlijker aan, omdat er na (creatief) toepassen en daarbij wendbaar gebruik geen hoger niveau is. Dit betekent niet dat (creatief) toepassen het eindstation is, er kan natuurlijk beter en efficiënter toegepast worden. Daarnaast staat integreren als verbinding tussen het onderste en bovenste niveau, wat betekent dat door middel van integratie kennis wendbaar toegepast kan worden.

Leerdoelen van de module F2M3FLEX a.d.h.v. OBIT.

OBIT voelt natuurlijker aan dan Bloom doet, voornamelijk omdat OBIT in mijn ogen meer op kennis én vaardigheden gericht is dan Bloom. Daarnaast kan ik me erg vinden in de eerder genoemde leertheorie en kan ik mijn leerdoelen en lessen hier goed aan verbinden. Hierdoor prefereer ik momenteel OBIT over Bloom.

Toetsen samenstellen

Met mijn kennis en kunde over toetsen (van de BKE), het samenstellen van tientallen toetsen, het kiezen uit bestaande toetsen en mijn kennis en ervaring met formatief handelen heb ik dit deel in mijn ogen ook bewezen.