Kunnskapsgrunnlag for evaluering av eksamensordningen
Del 3 - Frampek mot fagfornyelsen
10. Fagfornyelsens utvidede kompetansebegrep og eksamen
De kompetansebaserte læreplanene kom med Kunnskapsløftet LK06. Evalueringer av Kunnskapsløftet pekte på lokale forskjeller når det gjelder læreplanforståelse ute på skolene (jf. pkt. 6.3), men senere rapporter (Utdanningsdirektoratet, 2018e) viser samtidig at lærerne har fått økt bevissthet og forståelse for kompetansebegrepet og læreplanene. Fagfornyelsens nye kompetansebegrep som ligger til grunn for utforming av læreplanene, vektlegger – slik vi har vist i innledningskapitlet – elevenes anvendelse av kunnskap og ferdigheter i både kjente og ukjente situasjoner og at det å forstå, å reflektere og å tenke kritisk er en viktig del av elevenes kompetanse.
Kompetansebegrepet i fagfornyelsen:
Kompetanse er å kunne tilegne seg og anvende kunnskaper og ferdigheter til å mestre utfordringer og løse oppgaver i kjente og ukjente sammenhenger og situasjoner. Kompetanse innebærer forståelse og evne til refleksjon og kritisk tenkning.
Retningslinjene for utforming av læreplaner i fag i fagfornyelsen (LK20 og LK20S; Utdanningsdirektoratet, redigert 11.10.2018) gir føringer for å lage læreplaner som beskriver relevant kompetanse, tydelige prioriteringer, tydelig progresjon og god sammenheng i og mellom fag. Læreplanene skal være gode verktøy for støtte og styring for lærere, skoleledere og skoleeiere. Det står videre at læreplanene skal legge til rette for varierte undervisningsformer og vurderingsmåter som fremmer dybdelæring. Dybdelæring i fagfornyelsen er definert som «å gradvis utvikle kunnskap og varig forståelse av begreper, metoder og sammenhenger i fag og mellom fagområder. Det innebærer at elevene reflekterer over egen læring og bruker det de har lært på ulike måter i kjente og ukjente situasjoner, alene eller sammen med andre» (Utdanningsdirektoratet, 2018f).
Dybdelæring og kompetansebegrepet har elementer som både overlapper og samsvarer med hverandre. Begge begrepene framhever det å forstå, å anvende kunnskap og ferdigheter i kjente og ukjente sammenhenger. Det å lære å lære og reflektere over egen læring ligger som en del av både kompetansebegrepet og dybdelæring. Dybdelæring kan dermed anses som en forutsetning for å utvikle kompleks kompetanse som uttrykt i fagfornyelsen.
Å på den ene siden lage åpne og overordnede mål for at elevene skal kunne overføre det de har lært til både kjente og ukjente sammenhenger, og på den annen side gi tydelig uttrykk for hva elevene skal lære, og hvilken kompetanse som skal være gjenstand for sluttvurdering, er en vanskelig balansegang (se kap. 10.1). Det står dessuten i retningslinjene at «kompetansemålene også i noen tilfeller kan utformes noe smalere og uttrykke en avgrenset kompetanse». Kapittel 10.2 presenterer hva internasjonal forskning sier blant annet om hva som kan bidra til å utvikle eksamener i retning av kompleks kompetanse, og hvilke forhold det er viktig å ta med i betraktningen når vi skal prøve og vurdere denne sammensatte kompetansen til eksamen. På hvilken måte kan elevperspektivet ivaretas til eksamen, og hvilke konsekvenser får fagfornyelsen for involvering av elevene i forkant og/eller under eksamen (se kap. 10.3)?
Det finnes lite forskning om kompetanseorienterte eksamener, i særdeleshet knyttet til deres fordeler og ulemper, psykometriske kvaliteter og styringsfunksjon, inkludert utilsiktede effekter. Et unntak er innenfor utdanning i medisin, spesielt den kliniske formen Objective Structured Clinical Examination (OSCE). I kapittel 10.4 redegjøres det derfor også for kunnskap og erfaringer med prøving og vurdering av kompleks kompetanse som er hentet fra universitets- og høgskolesektoren.
10.1 Muligheter og utfordringer ved å måle kompetanse til eksamen
Kompetanseorienterte eksamener tar sikte på å måle mer komplekse evner og kunnskap. Slike eksamener kan føre til dybdelæringsprosesser allerede i forberedelsesfasen både med tanke på fagkompetanse og evnen til å benytte fagkompetanse i ulike kontekster. Eksempler på dette er problemløsning som involverer analyse og evaluering. I tillegg kan kompetanseorienterte eksamener gjøre det enklere for elevene å se relevansen av deres kunnskap og ferdigheter, noe som kan stimulere til dybdelæring og utholdenhet. Kompetanseorienterte eksamener som gjenspeiler en sammenheng mellom vurdering, undervisningspraksis og ønsket læringsutbytte i tråd med Biggs (2003) modell om constructive alignment, kan bidra til å styre tidlig læring i retning av kompleks kompetanse framfor kunnskap løsrevet fra kontekst.
Utviklingen av kompetanseorienterte eksamener er ofte mer krevende enn ved tradisjonelle eksamener (Schaper, Hilkenmeier, og Bender, 2013). Det er gjerne vanskeligere å vurdere kompetanse fordi mer komplekse evner og kunnskap som regel er mindre presist definert, og fordi det ikke alltid er mulig å utvikle klare kriterier som definerer hvorvidt et svar er riktig eller galt. Slike eksamener krever i tillegg kriterier som kan ivareta kvalitative forskjeller i besvarelsen samt i hvilken grad et kriterium er møtt. Dette kan føre til reduksjon i objektivitet og/eller reliabilitet. I alle tilfeller krever kompetanseorienterte eksamener mer faglig skjønn og utstrakt opplæring av prøveutviklere/eksamensnemnder og sensorer samt tilrettelegging for erfaringsutveksling og refleksjon (ibid.).
Det er ikke bare Norge som har utfordringer med å redefinere vurderingssystemet slik at det ivaretar et nytt og utvidet kompetansebegrep. Schleichers bok World Class: How to build a 21st-century School System (2018) omtaler utfordringene slik: «The dilemma for educators is that routine cognitive skills, the skills that are easiest to teach and easiest to test, are exactly the skills that are also easiest to digitise, automate and outsource.» Hvordan vi forholder oss til blant annet denne problemstillingen, vil ha avgjørende betydning for om vi lykkes i å møte kravene som ligger i fagfornyelsen.
10.2 Utvikling av eksamener som måler kompetanse
Før eksamensform velges – det være seg langsvarsoppgaver, flervalgsprøver, muntlige prøver eller mappevurderinger – er det nyttig å forestille seg i hvilke situasjoner elevene vil ha bruk for denne kompetansen senere i livet (Schaper, Hilkenmeier, og Bender, 2013). Deretter vil det være til hjelp å tenke gjennom hva slags oppgaver som kan vurdere denne kompetansen, før beslutningen om eksamensform tas. I kompetanseorienterte eksamener vil oppgavene typisk være å løse og evaluere problemstillinger hentet fra det virkelige liv, med større eller mindre grad av kompleksitet (case- eller scenariobaserte eksamener). Ren reproduksjon av kunnskap vil være mindre aktuelt. En velkjent ulempe med slike eksamener er økt usikkerhet hos elevene om hvorvidt de har funnet den «korrekte» løsningen på oppgaven (ibid.).
Kompleksiteten som ligger i fagfornyelsens kompetansebegrep, er nesten umulig å prøve med en enkel eksamen eller eksamensform. Kompleksiteten krever å tenke helhetlig på sluttvurderingen som et system. Innenfor en enkelt eksamen kan i så tilfellet hver oppgave (eller grupper av oppgaver) konsentrere seg om enkeltaspekter (eller grupper av aspekter) innenfor kompetansen. Alle oppgavene bør imidlertid til sammen dekke kompetansen i sin fulle bredde og dybde og – dersom det er mulig – være integrert i en større case eller et mer vidtrekkende scenario (ibid.). Ettersom alle eksamensoppgaver inkluderer målingsfeil, er det bedre å ha flere små oppgaver enn én stor oppgave.
Siden kompetanseorienterte eksamener gir mer rom for tolkning enn tradisjonelle eksamensformer, blir det nødvendig å forhåndsdefinere hva som er høy og lav måloppnåelse samt ha klare terskler for disse nivåene og utvikling av mulige løsninger på oppgaven for å sikre riktig vurdering (ibid.). Eksamensutviklere må utvikle progresjonsbeskrivelser for kompetansen og hvilke innholdsdimensjoner den består av.
Det er vanskelig å se for seg at alle elementer ved det nye kompetansebegrepet kan prøves gjennom de tradisjonelt etablerte eksamensformene eller gjennom eksamen alene. Begrensninger følger for eksempel av bredden i kompetansebegrepet, når eleven skal lære å lære og å reflektere over egen læring, samt når eleven skal jobbe langsiktig med et område. Mappeeksamen har blitt diskutert som en ny eksamensform i denne konteksten fordi den kunne kompensere for at dagens eksamensform har preg av å være et øyeblikksbilde eller en stikkprøve og ville styrke mangfoldigheten i prøveformer, noe som kan komme ulike elevgrupper til gode. Den har i tillegg blitt pekt på som en vurderingsform som kan gjøre det mulig å inkludere elevperspektivet ved å tilby valgmuligheter (se kap. 10.3 for nærmere utredning av andre muligheter til å involvere elevene).
Imidlertid finnes det en spenning mellom fleksibilitet og mulighet for sammenligning, som identifisert av Koretz (1998, s. 332):
"Portfolio assessment has attributes that make it particularly appealing to those who wish to use assesment to encourage richer instruction – for example, the "authentic" nature of some tasks, the reliance on large tasks, the lack of standardization, and the close integration of assessment with instruction. But some of these attributes may undermine the ability of the assessments to provide performance data of comparable meaning across large numbers of schools."
Black, Harrison, Hodgen, Marshall og Serret (2011) utredet nødvendige komponenter i en elevmappe for å sikre validiteten til denne med tanke på kompetansekravene. Forfatterne konkluderte med at en samling av flere oppgaver var nødvendig. Validiteten av summative vurderinger var avhengig av omfanget og balansen mellom innholdet i hver elevs mappe, idet innholdet skulle gjenspeile omfanget og målene til faget og burde være variert i stil (form). En mulig bekymring i denne konteksten var å vite hvem det er som faktisk svarer på oppgavene som inngår i den typer oppgaver som gjøres hjemme.
10.3 Elevinvolvering mot eksamen
Elevens aktive rolle i læringsprosessen er en kjerne i fagfornyelsens utvidede kompetansebegrep og vektleggingen av dybdelæring. Ifølge Meld. St. 28 (2015–2016) må vurderingsordninger og kvalitetsvurderingssystemet støtte opp under en opplæring som skal legge større vekt på dybdelæring og systematisk progresjon (s. 123). Som en følge av de nye elementene i fagfornyelsen vil det være naturlig å se nærmere på elevens rolle i forkant av og/eller under eksamen.
Å involvere elevene i eget læringsarbeid, inkludert elevenes vurdering av sine faglige prestasjoner, er en del av underveisvurderingen og har vært et viktig fokusområde i de siste årene, blant annet gjennom den nasjonale satsingen Vurdering for læring (2010–2018). Spørsmålene knyttet til egenvurdering og elevmedvirkning i Elevundersøkelsen viser imidlertid at det fortsatt er et stykke igjen før det er en innarbeidet praksis, og undersøkelsen viser også at skoler har ulik praksis. Samtidig har det vært en relativ god utvikling på disse spørsmålene sammenlignet med andre spørsmål om vurdering i perioden 2013–2017.
Eksamensordningene i dag gir til en viss grad mulighet for å involvere elevene i eksamen. For eksempel kan dette gjøres gjennom forberedelsesdelen til eksamen som gir elevene mulighet til å forberede seg alene og/eller i samarbeid med andre, eller gjennom oppgavetyper som åpner mer for å velge ulike tilnærminger enn andre.
10.4 Reliabilitet og validitet i vurderinger av kompleks kompetanse
Fra forskning om eksamen i medisinfaget framkommer det at et egnet utvalg eksamensoppgaver av ulik type, kontekst og flere sensorer kan sikre høy reliabilitet (Wass, Van der Vleuten, Shatzer, og Jones, 2001). Forskningsfunnene viste at alle eksamensformene kan oppnå tilstrekkelig reliabilitet – selv om det ikke er standardiserte tester – forutsatt at det inngår et passende utvalg oppgaver av flere typer og i ulike kontekster, og som rettes av ulike sensorer (Norcini, J. mfl., 2018).
Den viktigste anbefalingen er å ha flere oppgaver per eksamen og at hver av dem rettes av forskjellige sensorer. Forskningen fra medisinutdanningen viste at et adekvat utvalg av oppgaver hadde en større påvirkning på reliabiliteten enn standardisering, slik at et klokt eksamensdesign kan generere reliable resultater innenfor en rimelig tid (ibid.).
Reliabiliteten er i tillegg knyttet til tidsaspektet ved at kortere eksamener er mindre pålitelige enn de som varer lenger. Uavhengig av eksamensform vil elevers prestasjon på én oppgave ikke nødvendigvis forutsi hvordan elevene presterer på andre oppgaver (Wass, Van der Vleuten, Shatzer, og Jones, 2001). Dessuten kan noen eksamensformer være mindre pålitelige enn andre, for eksempel langsvarsoppgaver og muntlige eksamener. En konsekvens av dette er dermed at prøven må være av en viss lengde og dekke tilstrekkelig bredde i kompetansen for å kunne gi resultater som rettmessig kan brukes til eksamensformål. Å ta i bruk et bredere tilfang av eksamensformater innebærer å inkludere former som – når de står alene – muligens er mindre pålitelige, men å aggregere ulike metoder og kontekster ivaretar denne bekymringen (Van der Vleuten, og Schuwirth, 2005).
Eksempel fra medisinutdanningen
Objective Structured Clinical Examinations (OSCE):
- Et multicaseformat bestående av en serie oppgaver og situasjoner (stasjoner)
- Introdusert for å måle høyere kognitiv kapasitet og øke eksamens validitet
- Kandidatene møter simulerte, realistiske utfordringer på datamaskin eller i laboratorium for å styrke autentisitet
- Oppgavene er kontekstuelle og problemorienterte slik at de krever resonnerende ferdigheter
- Bruk av teknologi kan heve kvaliteten av slike eksamener ved å tilby en mer realistisk framstilling av kliniske funn
Oppsummert kan det pekes på at det finnes eksempler på hvordan kompleks kompetanse kan prøves uten fare for kvalitetskrav som validitet, reliabilitet og rettferdighet. Likevel er det en utfordring å ha en eksamen som er standardisert med et bredt kompetansebegrep fordi det er vanskelig å presisere kompetanse på en slik måte at den kan måles reliabelt nok. I medisinutdanningen har de lykkes med det – men systemet har blitt utviklet over lang tid og ved hjelp av betydelige ressurser. Om denne tilnærmingen passer til et så stort system som eksamen på 10. trinnet og etter videregående skole, er ytterligere et spørsmål. Her trengs det en nøye utredning og grundig diskusjon. Samtidig kan sluttvurderingen anses som et helhetlig system der standpunkter tar over viktige oppgaver i kompetanseprøvingen så at robustheten i dagens eksamenssystem som tilfredsstiller krav til reliabilitet, validitet og overordnet sett rettferdighet, kan opprettholdes og styrkes.
11. Teknologiens betydning for eksamen
Den teknologiske utviklingen får betydning for eksamen på ulike måter. Det kan strekke seg fra å distribuere og levere eksamen i et digitalt system til å utvikle eksamensoppgaver på en digital plattform og utnytte mulighetene som ligger i det, noe som i stor grad berører også det vurderingsfaglige aspektet og innholdet i eksamen. Vurdering av besvarelsene kan også støttes av teknologi. Et tilbakevendende diskusjonstema er i hvor stor grad eksamen skal speile den teknologiske utviklingen og den store digitaliseringen som finner sted på de aller fleste samfunnsarenaer, og på hvilke måter dette kan skje. Den teknologiske utviklingen innebærer nye muligheter for vurdering, noen utfordringer og ikke minst forutsetninger både med hensyn til kompetanse og tilgang til digitalt utstyr.
Dette kapitlet oppsummerer det foreløpige kunnskapsgrunnlaget om teknologiens betydning for eksamen med stor vekt på norsk forskning og bærer preg av at vi per dags dato har få erfaringer med å prøve kompetanse digitalt på eksamensfeltet. I tillegg viser det seg en gang til at kunnskapsgrunnlaget i stor grad bare baserer seg på spørreundersøkelser. Det kan settes spørsmåltegn ved om denne tilnærmingen er den riktige om man ønsker å utrede effektene av teknologibruk, eller om vi ikke trenger annen type forskning, for eksempel intervensjonsstudier.
Kapitlet er delt inn i områder som påvirkes av digitalisering, forutsetninger for endring og foreløpige erfaringer med digital eksamen.
11.1 Områder som påvirkes av digitalisering
I dette delkapitlet har vi valgt å trekke fram følgende områder som digital teknologi kan påvirke eller endre ved eksamen:
- Administrasjon og gjennomføring av eksamen
- Teknologistøtte og hjelpemidler til eksamen
- Innhold til eksamen
- Sensurering av eksamen
Administrasjon og gjennomføring av eksamen
Ett aspekt av digitaliseringen handler om å gjøre selve innleveringen eller prøvegjennomføringen gjennom en digital prosess. Formålet med slik digitalisering er i hovedsak økt effektivitet, informasjonssikkerhet og personvern. Teknologi åpner også for nye formater på produktet som skal vurderes. Lydfiler, video, multimodale tekster og programvare er bare noen få eksempler på digitale produkter som kan være relevante for sluttvurdering. Dagens eksamenssystem er digitalt i den forstand at elevene kan laste ned eksamensoppgavene og levere digitalt. Utviklingen på nasjonalt hold de senere årene har primært handlet om å fornye administrasjonsløsningene for eksamen.
Utdanningsdirektoratets eksamenstjeneste
Prøveadministrasjonssystemet PAS og prøvegjennomføringssystemet PGS ble utviklet av Udir for å utarbeide, gjennomføre og administrere både prøver og sentralt gitte eksamener.
Innføringen av PAS-/PGS-systemene skjedde gradvis fra 2008 og har bidratt vesentlig til å heve kvaliteten på gjennomføringen av sentralt gitt skriftlig eksamen gjennom økt effektivitet og bedre sikkerhet.
Systemene utgjør i dag en digital tjeneste for eksamen som brukes til å utarbeide eksamensoppgaver, hente materiell og til å melde på kandidater til eksamen. Dessuten brukes de under selve eksamensgjennomføringen og til sensur og klagebehandling. Fra høsten 2015 ble systemene også tatt i bruk ved lokalt gitt skriftlig eksamen.
Udir har fornyet administrasjonsløsningen og har startet på en prosess for å kunne anskaffe en ny gjennomføringsløsning innen 2021. Den nye løsningen for utvikling og gjennomføring av eksamen og prøver skal kunne tilby nye oppgaveformater og ny funksjonalitet som legger til rette for å prøve kompetanse på nye måter og gi støtte til sensur.
Teknologistøtte og hjelpemidler til eksamen
Teknologistøtte handler om å benytte digitale verktøy i opplæringen for å understøtte og berike undervisnings-, lærings- og vurderingsprosesser. For eksamen vil det først og fremst handle om å bruke ulike digitale hjelpemidler i eksamenssituasjonen. Slike hjelpemidler kan for eksempel være tilgang til åpent internett, lese-/skrivestøtte eller fagspesifikk programvare. Som nevnt i kapittel 3 har forsøk med eksamen med tilgang til internett i utvalgte fag i videregående opplæring blitt gjennomført årlig fra 2012 til og med 2015. Disse forsøkene er evaluert på oppdrag fra Udir (Rambøll, 2012; Rambøll, 2013; Rambøll, 2014; Rambøll, 2015). Evalueringsrapportene ser på blant annet forberedelse til og gjennomføring av eksamen med internett, opplevd nytte og tilfredshet samt resultater og implikasjoner. Under delkapitlet om erfaringer fra digital eksamen oppsummeres hovedfunn fra sluttrapporten som ble publisert i januar 2019.
Innhold til eksamen
At teknologi gir mulighet for nye oppgavetyper og vurderingsprodukter, har ført til en diskurs om hvorvidt digital vurdering har potensial til å måle kompetanser som tidligere har vært vanskelige å fange, for eksempel knyttet til metakognisjon (Erstad, 2008; Redecker og Johannessen, 2013). Det er imidlertid vanskeligere å finne kunnskap om hvordan dette konkret kan gjøres, og påstandene i diskursen er i liten grad bygget på evidens. Denne økende oppmerksomheten om hvilke kompetanser som kan måles, betraktes imidlertid som et paradigmeskifte i digital vurdering, fra tidligere å være mest opptatt av å benytte teknologi til å effektivisere vurderingsprosesser og øke reliabilitet i skåring (Redecker og Johannessen, 2013).
Hvordan teknologi kan benyttes for å videreutvikle eksamensordningen, er spesielt aktuelt i lys av det nye kompetansebegrepet i fagfornyelsen (Kunnskapsdepartementet, 2016), og det er behov for mer evidensbasert kunnskap på dette området. Teknologiutvikling er også en driver for endring av skolens innhold og derigjennom hvilke kompetanser det er relevant å måle (NOU 2015: 8, 2015). Dette kan vise seg ved at nye områder eller temaer innføres i skolefagene, ved at vektingen mellom innholdsområdene endres, og ved at nye tverrfaglige temaer eller fagovergripende kompetanser finner sin plass i læreplanene. Eksempler på dette er innføring av programmering i matematikkfaget, digitale tekstformer og tekstlige uttrykk i norskfaget, kildekritisk kompetanse og digitale ferdigheter som en grunnleggende ferdighet (Hultin og Berge, 2014).
Sensurering ved eksamen
Teknologi gir mulighet for automatisk skåring av oppgaver og kan dermed være til støtte for sensor ved vurdering av eksamensbesvarelser. Kvaliteten på slik automatisk skåring vil variere med oppgavetype, men for egnede oppgavetyper vil automatisk skåring kunne innebære betydelig tidsbesparelse ved sensur samt gi mindre risiko for skåringsfeil.
En annen mulighet som ligger i digital sensurering, er å lagre data for å kunne utrede sensorreliabiliteten. Hvis data fra alle sensorer ble lagret på elevnivået og per oppgave, ville tilsvarende studier ha tilgang til mer informasjon enn i dag og føre til at en utredning av sensorreliabilitet ville blitt mer innholdsrik og oppklarende.
11.2 Digital kompetanse og forutsetninger
Rapporten Teknologi og programmering for alle beskriver hvordan digital teknologi kan brukes til å skape nye muligheter for å bedre kvalitet og effektivitet i lærings- og undervisningsprosesser, men understreker at disse mulighetene har noen forutsetninger og endringsbehov, spesielt knyttet til elevers og læreres digitale kompetanse (Sanne mfl., 2016).
Læreplanen forutsetter at lærere tar i bruk digitale verktøy i undervisningen samt bidrar til å utvikle elevenes digitale ferdigheter i fag. Dette har vært et premiss i alle fag siden innføringen av de grunnleggende ferdighetene gjennom LK06. For å undervise elever i digital kompetanse trenger lærerne å inneha en profesjonsfaglig digital kompetanse (Utdanningsdirektoratet, 2018a). En del av å ha profesjonsfaglig digital kompetanse er å ha kunnskap om digitale vurderingsformer og ferdigheter til å benytte dem i undervisnings- og læringsprosesser. Dersom elevene er fortrolige med ulike former for digital vurdering, har de et bedre grunnlag for å håndtere en digital eksamenssituasjon, men det forutsetter at lærerne har kompetanse til å inkludere slike vurderingsformer i sin undervisning. De norske forskerne som arbeidet med den internasjonale komparative studien ICILS (International Computer and Information Literacy Study), beskrev at den faglig-pedagogiske kompetansen blant lærerne til å ta i bruk digitale hjelpemidler på kvalifisert vis var mangelfull (Hatlevik og Throndsen, 2015).
ICILS-studien fant også at nærmere en fjerdedel av de norske elevene på 9. trinn har så svake digitale ferdigheter at de vil ha problemer med å kunne delta fullt ut i utdanning, arbeids- eller samfunnsliv (Hatlevik og Throndsen, 2015). En tredjedel av de norske elevene er i stand til å søke etter informasjon, utøve kildekritikk og lage digitale presentasjoner etter nærmere spesifiserte kriterier. Omtrent halvparten av elevene viser at de kan bruke datamaskinen som et redskap og er i stand til å bruke digitale ressurser til å løse enkle oppgaver. De har en viss bevissthet omkring personvern, men viser samtidig mangelfull kritisk vurderingsevne til hvordan personinformasjon på nett kan brukes. En fjerdedel av elevene har kun kjennskap til elementær filhåndtering og tekstredigering. De har bare en overflatisk forståelse av datasikkerhet og nettvett. Fra SMIL-studien ser man at elever i videregående generelt har for lav kompetanse knyttet til faglig bruk av IKT og digitale læringsstrategier (Krumsvik mfl., 2013).
Vi har observert at det er store forskjeller mellom skoler når det gjelder tilgangen til digitale ressurser, og hvorvidt opplæring i disse prioriteres i undervisningen, noe som også framkommer i de nasjonale Monitor-undersøkelsene som kartlegger skolens digitale tilstand (Egeberg, Hultin og Berge, 2016; Hatlevik, Egeberg, Gudmundsdottir, Loftsgarden og Loi, 2013). Tilgangen på ulike former for digitalt utstyr er generelt sett høy i norske skoler. Kvaliteten på maskinene og tilhørende infrastruktur er imidlertid noe variabel, og det er store forskjeller på tilgangen skolene imellom, viser funn fra Monitor-undersøkelsene og ICILS (Egeberg mfl., 2016; Hatlevik mfl., 2013; Hatlevik og Throndsen, 2015). Monitor skole 2016 undersøkte grunnskolers digitale modenhet på organisasjonsnivå og fant at blant de undersøkte faktorene var det på utstyrsområdet det ble rapportert størst spredning i opplevd kvalitet blant skolene som deltok (Egeberg mfl., 2016).
I SMIL-studien som undersøker sammenhengen mellom IKT-bruk og læringsutbytte i videregående opplæring, finner man imidlertid at digitale skiller på dette nivået primært oppstår med grunnlag i elevgruppers bruksmønster og ikke lenger er basert på ulik tilgang til teknologi (Krumsvik mfl., 2013). Dette funnet er i tråd med en generell utvikling, som gjerne beskrives som en overgang fra første- til andregenerasjons digitale skiller (Hatlevik og Throndsen, 2015). Delrapporten Digitale skillelinjer i evalueringen av eksamen i matematikk for 10. trinn undersøker hva slags undervisning elevene har fått i bruk av digitale hjelpemidler som er relevante for matematikkeksamen, og hvordan de har blitt forberedt på å bruke disse på eksamen (Bjørnset, Fossum, Rogstad, Smestad og Talberg, 2018). Rapporten omtaler visse elevgrupper som digitalt privilegert, i den forstand at de har bedre forutsetninger for å lykkes på eksamen enn andre elever. Dette fortrinnet kan være knyttet til tekniske forhold, som tilgang til utstyr og infrastruktur, eller undervisningsforhold, som omfang av og kvalitet på opplæringen i digitale ferdigheter.
11.3 Erfaringer fra digital eksamen
Fra og med 2012 har det vært normalordningen for skriftlig eksamen i grunnskole og videregående skole å levere eksamensbesvarelsen elektronisk i et digitalt prøvegjennomføringssystem (Utdanningsdirektoratet, 2016). Evalueringer av disse gjennomføringene dreier seg stort sett om tilgang til åpent internett og bruk av digitale hjelpemidler. Våren 2017 inkluderte den halvårlige omnibusundersøkelsen Spørsmål til Skole-Norge spørsmål om bruk av nettbaserte hjelpemidler til sentralt gitt eksamen (Federici, Gjerustad, Vaagland, Larsen, Rønsen og Hovdhaugen, 2017). Undersøkelsen viste at omtrent to av tre skoleeiere og skoleledere svarer at de tilbyr nettbaserte hjelpemidler. Nettbaserte hjelpemidler er mest utbredt i videregående opplæring, hvor 88 prosent svarer at de tilbyr dette. Blant grunnskolene svarer 62 prosent at de tilbyr dette. SMIL-studien viser imidlertid at sentrale digitale læremidler i fagene og elevens multimediale og multimodale læringsarbeid i liten grad er fanget opp av eksamensformene i videregående (Krumsvik, Egelandsdal, Sarastuen, Jones og Eikeland, 2013).
Digitale vurderingsformer framhever betydningen av ulike digitale kompetanser, som produksjonskompetanse, verktøykunnskap og sjangerforståelse. Som vi kan se i evalueringen av forsøk med bruk av åpent internett på eksamen i videregående skole, gir en slik eksamensform en «washback-effekt» på opplæringen (Rambøll, 2014). Lærerne ved skolene som deltok i forsøket, bruker i større grad enn lærerne ved referanseskolene internett i undervisningen. Disse lærerne gjennomfører prøver og heldagsprøver hvor elevene har tilgang til internett, og er opptatt av kildebruk og kildekritikk i undervisningen. Denne effekten kan også strekke seg utover det som er definert som kompetansemål i læreplanen. Den kvalitative Monitor-rapporten fra 2010 forteller om lærere på ungdomstrinnet som prioriterer å undervise i formatering av tekst for å mestre digitale formkrav til eksamen, og at dette oppfattes som kompetanse som måles utover det som er skissert i læreplanen (Hatlevik, Tømte, Skaug og Ottestad, 2010).
I januar 2019 ble det publisert en sluttrapport fra evalueringen av åpent internett til eksamen i syv fag fra studiespesialiserende utdanningsprogram i videregående (Rambøll, 2019). I rapporten beskrives i hovedsak funn fra spørreundersøkelser til elever, lærere, eksamensansvarlige og IT-ansvarlige på skoler og i fylkeskommunen. Undersøkelsen ble gjennomført i mai–juni 2018. Sentrale temaer i rapporten er teknisk modenhet og gjennomføringen av eksamen med åpent internett, sensur og regelverk med henblikk på avdekking av fusk ved årets eksamen, autentisitet og relevans knyttet til eksamensordningens samsvar med undervisningspraksis, oppgaveformulering og vurdering samt støtte som viser til skolenes tilrettelegging for elever med særskilte behov.
Oppsummering av hovedfunn fra evalueringen av eksamen med åpent internett (Rambøll, 2019):
- Det er få tekniske eller praktiske utfordringer knyttet til eksamensgjennomføringen.
- De fleste skoler har iverksatt forberedende tiltak som overvåking av internettbruk under eksamen, opplæring av eksamensvakter samt rekruttering av flere og mer digitalt kompetente eksamensvakter.
- 90 prosent av eksamensansvarlige har informert elevene om fusk og plagiat i forkant av eksamen. Det er imidlertid en lavere andel elever som oppgir at de har mottatt denne informasjonen.
- Kvalitative intervjuer indikerer at elevene har god forståelse for fusk og plagiat, men at det finnes gråsonetilfeller som krever avklaring.
- Det er kun rapportert om ett tilfelle av fusk på eksamen i de aktuelle fagene.
- 93 prosent av lærerne i målgruppa oppgir at bruken av internett inngår som en viktig del av elevenes læring i deres undervisning.
- 96 prosent av lærerne i målgruppa oppgir at elevene har fått opplæring i kildebruk.
- Lærerne i målgruppa oppgir i større grad at de gjennomfører andre prøver med tilgang til internett enn det lærere i kontrollgruppa gjør.
- Elevene opplever det som nyttig å ha tilgang til internett på eksamen, men både sensorer og lærere er mer usikre på utbyttet av tilgangen.
- Vårens eksamensoppgaver oppleves som godt egnet for eksamensformen. Samtidig oppgir 62 prosent av sensorene og 36 prosent av lærerne at tilgang til internett fordrer nye oppgaver.
- Én av fem elever opplever eksamensformen som mer stressende enn eksamen uten internett.
- Det gjelder særlig jenter og særlig elever i fagene «Politikk og menneskerettigheter» og «Samfunnsfaglig engelsk».
- Eksamensveiledning og vurderingskriterier oppleves som tydelige blant sensorene.
- En del sensorer rapporterer at de vurderer besvarelser der elever har hatt tilgang til internett, strengere enn besvarelser fra elever uten tilgang til internett, uten at dette kan påvises i karaktergivningen.
- Omfang av støtte til gjennomføring av eksamen er omtrent lik for elever i målgruppa og kontrollgruppa.
12. Lærerutdanningene og vurderingskompetanse
Det hører ikke direkte til eksamensgruppas mandat å utrede lærerutdanningen eller å foreslå endringer om den, men fordi lærerutdanningen har den klart beste muligheten til å bygge opp høy vurderingskompetanse både på formativ og summativ vurdering hos alle lærere så at de også kan sikre validitet, reliabilitet og rettferdighet i sine summative vurderinger på den best mulige måten, har vi bestemt oss for også å omtale lærerutdanningen. Vi vet at lærere er dypt involvert i sluttvurderingen på 10. trinn og i videregående opplæring gjennom å utvikle eksamensoppgaver, å jobbe som sensorer og ikke minst å gjennomføre standpunktvurderingen samt karaktersettingen. Til disse oppgavene trengs det utvidet vurderingskompetanse.
I rammeplan for lærerutdanning 1–7, 5–10 og 8–13 er vurdering omtalt under § 2, som beskriver krav til studieprogrammenes læringsutbytte i tråd med det nasjonale kvalifikasjonsrammeverket. I rammeplanene for trinn 1–7 og 5–10 som ble vedtatt i 2013, er vurdering omtalt i to punkter under henholdsvis temaene kunnskap og ferdigheter. Punktene vektlegger at lærere etter endt utdanning skal ha inngående kunnskap om blant annet vurderings- og kartleggingsverktøy samt vurdering av elevenes læring. Lærere skal også kunne vurdere elevers læring og gi læringsfremmende tilbakemeldinger. Lektorutdanningens rammeplan har blitt vedtatt i 2018 og refererer til det nye kompetansebegrepet samt kjennetegn på måloppnåelse under «Ferdigheter», men nevner ingen kunnskapsområder som lærerstudentene skal undervises i.
Forskrift om rammeplan for grunnskolelærerutdanning for trinn 1–7 og om rammeplan for grunnskolelærerutdanning for trinn 5–10
§ 2 Læringsutbytte
Kunnskap
- har inngående kunnskap om begynneropplæring, grunnleggende ferdigheter, vurderings- og kartleggingsverktøy, klasseledelse og vurdering av elevers læring og hva som fremmer læring i fagene
Ferdigheter
- kan analysere, vurdere og dokumentere elevers læring, gi læringsfremmende tilbakemeldinger, tilpasse opplæringen til elevenes forutsetninger og behov, bruke varierte undervisningsmetoder og bidra til at elevene kan reflektere over egen læring og utvikling
Forskrift om rammeplan for praktisk-pedagogisk utdanning allmennfag og om rammeplan for lektorutdanning for trinn 8–13
§ 2 Læringsutbytte
- Kunnskap
Ferdigheter
- kan beskrive kjennetegn på kompetanse, vurdere og dokumentere elevers læring, gi læringsfremmende tilbakemeldinger og bidra til at elevene kan reflektere over egen læring og egen faglige utvikling
Forskrift om rammeplan for praktisk-pedagogisk utdanning for yrkesfag og for trinn 8–13
§ 2 Læringsutbytte
- Kunnskap
Ferdigheter
- kan vurdere og dokumentere elevers læring og utvikling, gi læringsfokuserte tilbakemeldinger og bidra til at elevene/lærlingene kan reflektere over egen læring
Lærerutdanningen har endret seg betydelig de siste årene. Dette gjelder særlig for grunnskolelærerutdanningen der studentene tar femårig masterutdanning fra og med høsten 2017. Vi forholder oss til de nyeste rammeplanene og retningslinjene i dette kapitlet, og begrenser oss til de fem største programmene. I rammeplan for grunnskolelærerutdanning 1-7 og 5-10, praktisk-pedagogisk utdanning allmennfag og yrkesfag (PPU-A, PPU-Y) og lektorutdanning 8-13 er vurdering omtalt under § 2 som beskriver krav til studieprogrammenes læringsutbytte i tråd med det nasjonale kvalifikasjonsrammeverket.
I rammeplanene for trinn 1-7 og 5-10, som ble vedtatt i 2016, er vurdering omtalt i to punkter under henholdsvis temaene kunnskap og ferdigheter. Punktene vektlegger at lærerstudenter etter endt utdanning skal ha inngående kunnskap om blant annet vurderings- og kartleggingsverktøy samt vurdering av elevenes læring. Lærerstudenter skal også kunne vurdere elevers læring og gi læringsfremmende tilbakemeldinger. Det siste inngår også rammeplanen for PPU-Y, som ble vedtatt i 2013. PPU-As rammeplan og lektorutdanningens rammeplan ble vedtatt i henholdsvis 2015 og 2013. Begge to referer til kompetansebegrepet samt kjennetegn på måloppnåelse under ferdigheter, men nevner ingen kunnskapsområder relatert til vurdering som lærerstudentene skal undervises i.
Karaktersetting eller sensurering er ikke eksplisitt nevnt i noen av de rammeplanene som et område der lærere trenger spesifikk kompetanse. Det er en rekke andre momenter i disse punktene og andre læringsutbytter i rammeplanene som forutsetter vurderingsfaglig kompetanse, som å tilpasse opplæringen, vite hva som fremmer læring og sikrer progresjon, men som i mindre grad er synliggjort direkte som «vurdering».
De nye nasjonale retningslinjene for lærerutdanningen som ble vedtatt i Universitets- og Høgskolerådet – Lærerutdanning (UHR-LU) i 2017 – sier lite spesifikt når det gjelder vurdering i fellesdelen for alle programmene, det eneste som kreves, er at «lærarutdanningane skal kvalifisere studentane til å kunne foreta etisk grunngjevne vurderingar». Retningslinjene for lektorutdanningen gir derimot tydeligere uttrykk for kunnskap om og ferdigheter i vurdering (NRLU, 2017). Hovedvekten ligger på vurdering for læring og underveisvurdering, men sluttvurderingen er eksplisitt nevnt som et kompetanseområde i den fagdidaktiske delen der studentene skal «lære å gi elevene underveisvurdering og sluttvurdering, bruke faglige kjennetegn på måloppnåelse og gi gode begrunnelser for vurdering i faget». I tillegg er det praksisopplæringen som får i oppgave å sikre at studenten «har erfaringsbasert kunnskap om elevers læringsprosesser og vurdering for og av læring». Retningslinjene for PPU-A nevner vurdering som et gjennomgående tema som må ivaretas av institusjonene og tilføyer «bred kunnskap om undervisnings-, arbeids- og vurderingsformer generelt og fagspesifikt» som læringsutbytte. I tråd med lektorutdanningen skal lærerstudentene i PPU kunne «gi underveis- og sluttvurdering» samt begrunnelser, og de skal få en sjanse til å «prøve ut formativt og summativt orienterte vurderings- og eksamensformer som de selv kan bruke som lærere» (NRLU, 2017b). PPU-Y legger også vekt på det siste og nevner i tillegg praktisk eksamen (NRLU, 2018).
Det er svært begrenset med forskning og oppdatert systematisk informasjon eller kunnskap om hvordan disse kvalifikasjonskravene knyttet til vurdering ivaretas i lærerutdanningene. Vi vet heller ikke mye om læringsutbytte eller effekten av lærerutdanningen når det gjelder vurderingskompetanse. Dette gjelder i særlig høy grad i forbindelse med summativ vurdering, karaktersetting og sensurering.
Fra en eldre spørreundersøkelse kommer det fram at lærerutdanningene får laveste karakterer på resultatkvaliteten blant annet når det gjelder vurderingskompetanse (Finne mfl., 2011). Særlig skoleledere evaluerer denne delen av utdanningen betydelig mindre positivt enn for eksempel utdanning i sosialkompetanse og profesjonsidentitet, men denne forskjellen i evalueringen av resultatkvalitet gjelder også for lærerstudenter og lærerutdannere. Universitets- og Høgskolerådet (2011) refererer i en egen rapport fra samme året til disse resultatene og krever klarere nasjonale føringer og kontroll av om en faktisk retter seg etter disse føringene for blant annet utdanning i vurdering. En undersøkelse fra 2013 viste at de fleste lærerutdannere rapporterer god kunnskap om vurdering for læring8 men det er uklart hvilke slutninger vi kan trekke om deres kunnskap om summativ vurdering ut fra dette.
En litt nyere rapport om endringer i lærerutdanningene omtaler ikke endringer på detaljnivået, det er dermed ikke kjent om de nye lærerutdanningsmodellene vil skåre bedre når det gjelder vurderingskompetanse (Munthe, mfl., 2014). Men programmet til ProTed – Senter for fremragende lærerutdanning – kan muligens forstås som en indikasjon på at hovedoppmerksomheten i lærerutdanningen er rettet andre steder enn på summativ vurdering, karaktersetting og sensurering. ProTed er Norges første senter for fremragende utdanning og et langsiktig samarbeidsprosjekt mellom Universitet i Oslo og Universitetet i Tromsø, finansiert av NOKUT. Senterets oppgave er å fremme kvalitet i høyere utdanning, og i tråd med denne oppgaven har ProTed utviklet imponerende tiltak innen lærerutdanning. Flere prosjekter inkluderer også utdanning i vurdering, men disse dreier seg – så vidt det er mulig å se basert på årsrapporter og andre dokumenter – om formativ vurdering, også kalt vurdering for læring (se f.eks. ProTed, 2016; 2017).
Generelt sett finnes det også lite kunnskap om hvorvidt lærerstudenter tar del i arbeidet med vurdering når de er ute i praksis. Praksisperioder harmonerer for eksempel tidsmessig i liten grad med når sluttvurdering skjer, altså mot semesterslutt høsten og våren da lærerstudenter som regel selv er i intense eksamens- og vurderingsperioder. Det er også et spørsmål om hvor tilgjengelig skolens arbeid med vurdering er for studentene, da mye av arbeidet for eksempel knyttet til standpunktsetting og fram mot eksamen skjer individuelt blant lærere og/eller i deres kontortid/møtetid – som ikke nødvendigvis er like tilgjengelig for lærerstudentene i praksis. Dette er imidlertid forhold som vi vet lite om, og som det er behov for å samle mer systematisk kunnskap om.
I UHR-LU9 blir det tidvis arbeidet med vurdering i lærerutdanningene, men da er det spesielt vurdering av lærerstudentene som vektlegges. Grunnideen er at utdanningen kan bidra til å gi gode eksempler på arbeid med undervisning og vurdering, som følge blir det viktig at man er svært bevisst på hvordan vurdering utøves også innenfor lærerutdanningene. Eksempler på denne ideen er prosjekter fra UiOs og UiTs nevnte samarbeid, ProTed – Senteret for fremragende lærerutdanning, en rapport fra karakterundersøkelsen i matematikk i GLU-utdanningene i 2014 (Arbeidsgruppe, 2015) og Lærerutdanningskonferansen 2019 om framtidsrettet vurdering i lærerutdanningene. Særlig har det hos ProTed blitt utviklet nye vurderingsmåter ved å bruke nettbrett til vurdering av lærerstudenter i praksisfasen og automatisk tilbakemelding ved eksamen (NOKUT, 2015).
Generelt sett er det viktig å peke på at lærerutdanning bare er en grunnutdanning, og at læreres læring også skjer gjennom uformell etterutdanning og gjennom formell videreutdanning, for eksempel i regi av Kompetanse for kvalitet. Flere nyere politiske dokumenter understreker behovet for samspill mellom grunnutdanning, videreutdanning og samarbeid i profesjonsfellesskapet, for eksempel strategien Lærerutdanning 202510 . Det finnes regionalt arbeid med kompetanseutvikling for lærere i skolen, for eksempel SKUV-prosjektet11 i Trøndelag ved NTNU. Tiltaket er et eksempel på et partnerskap mellom skoleeier og universitet initiert fra praksisfeltet.
Ellers får lærerutdanningene og lærerne lite støtte i jobben med summativ vurdering gjennom allmennpedagogiske eller fagdidaktiske lærebøker. Det fins innføringsbøker på engelsk, men disse er dårlig tilpasset norske forhold, særlig det norske standpunktvurderingssystemet. Det er lite systematisert kunnskap om utvikling av lærernes vurderingskompetanse i praksis, unntatt de store utviklingsprogrammene som har dreid seg om formativ vurdering, for eksempel nasjonale satsinger på vurdering for læring og Ungdomstrinn i utvikling (som hadde vurdering for læring som et gjennomgående tema). Flere fylkesmenn arrangerer sensorskoleringer og samlinger på standpunktvurdering, både på eget initiativ og i samarbeid med Udir. Det er imidlertid påfallende at det ikke finnes tilsvarende store kompetanseutviklingsprogrammer når det gjelder summativ vurdering og karaktersetting som det har vært på formativ vurdering de siste årene.
11) https://www.ntnu.no/ilu/skuv
13. Status for kunnskapsgrunnlaget og problemstillinger ved eksamenssystemet i Norge
Dette sluttkapitlet av rapporten presenterer eksamensgruppas vurdering av kunnskapsgrunnlaget om eksamen. Den første delen presenterer hovedkonklusjonene og hva som følger av den. Den andre delen oppsummerer kort de viktigste funnene av hvert kapittel. Basert på disse funnene identifiseres det i tredje kapittel problemstillinger og spørsmål som bør stilles om eksamenssystemet, og som eksamensgruppa ønsker å utrede i det videre arbeidet. Ytterlige to delleveranser skal utvide og komplettere disse første drøftingene slik at det skal bli mulig å gi råd om fagenes læreplaner i delleveranse 2 i løpet av mars 2019 og å komme med anbefalinger til endringer i eksamensordningen som følge av fagfornyelsen og den teknologiske utviklingen som skal leveres for beslutning 15. mai 2019.
13.1 Status for kunnskapsgrunnlaget og hovedkonklusjoner
I denne rapporten har vi sammenstilt et kunnskapsgrunnlag om eksamenssystemet i Norge. Sammenstillingen har tatt utgangspunkt i dagens eksamenssystem, hvordan det har vokst fram, og dets offisielt definerte formål. Vi har inntatt et bredt perspektiv på kvaliteten i dagens eksamenssystem, dette inkluderer kriterier som validitet, reliabilitet og rettferdighet samt elevperspektivet. Vi har også sett på forholdet mellom eksamenskarakterer og standpunktkarakterer som to ulike sluttvurderinger. Læreplanverket og forskrift til opplæringslova gir rammer for innhold, organisering og vurdering av eksamen og føringer for kvaliteten i eksamenssystemet og er derfor tatt med som et viktig perspektiv.
Med et forbehold om at dette er en foreløpig dokumentasjon av kunnskapsgrunnlaget, er en hovedkonklusjon at det finnes en del brukerinnsikt og erfaringsbasert kunnskap om eksamen, men at det er store forskningshull på feltet. Vi må få understreke at mangel på forskning ikke nødvendigvis betyr at det ikke skjer mye godt kvalitativt arbeid på eksamensfeltet. Men det mangler likevel et systematisk forskningsbelegg om det. Der det finnes studier dreier det seg nesten utelukkende om spørreundersøkelser som gjenspeiler hva de involverte mener eller husker, men som ellers har noen mangler når det gjelder en systematisk utredning av prosesser og effekter samt langsiktige konsekvenser. Robust informasjon om prosesser, effekter og konsekvenser trenger eksperimenter og designforsøk i skoler og bør belyses både kvantitativt og kvalitativt.
Tatt i betraktning den betydningen eksamen har for den enkelte elev og statusen i et samfunnsperspektiv, har det vært relativt lite forskning på kvaliteten på eksamen. Dette står i kontrast til den oppmerksomheten og forskningen som har vært utført på de store internasjonale undersøkelsene og de nasjonale prøvene og den offentlige oppmerksomheten eksamen får hvert år. For eksamensgruppas del innebærer et mangelfullt kunnskapsgrunnlag at det blir vanskelig å svare utfyllende på de mest nærliggende utfordringene. Det kan være krevende å generalisere ut fra resultater fra andre land for å si noe om Norge – eller fra UH-sektoren til grunnopplæringen – fordi konteksten og rammebetingelsene er ulike. Men denne forskningen gir likevel indikasjoner på hva som kan være relevant for det videre arbeidet i dette oppdraget.
Gjennomgangen av kunnskapsgrunnlaget gir et sterkt fundament for å etterspørre en mer helhetlig tilnærming til sluttvurderingen. Dette gjelder både til forholdet mellom eksamen og standpunkt og til kvalitetssikringen:
- Når sluttvurderingen blir planlagt som et helhetlig og koordinert system, kan det komme tydeligere fram hvilken kompetanse som skal prøves til eksamen og hvilken kompetanse som skal ivaretas gjennom standpunkt. Vi trenger derfor et helhetlig rammeverk for sluttvurdering, som relaterer de ulike sluttvurderingsordningene til det nye kompetansebegrepet, slik at hele kompetansebegrepet prøves systematisk.
- Kvalitetssikring av eksamen bør også ses på og planlegges på en helhetlig måte. Det finnes noen rutiner for å overvåke kvalitet, men ikke alle data er bearbeidet til dokumentasjon som er gjort tilgjengelig. Hvis det ikke ligger et rammeverk til grunn, er det vanskelig å se om kvalitetssikringen skjer på en helhetlig måte. Det kan være nyttig å bruke et av de etablerte rammeverkene for å oppnå dette formålet (f.eks. AEA Europe, 2017; Stobart, 2009).
En utfordring vil være å prioritere mellom ulike hensyn. Det er for eksempel vanskelig og tids- og ressurskrevende å sikre både høy validitet, høy reliabilitet og høy rettferdighet (karaktersetting uten systematiske avvik for enkelte grupper) fordi tiltak som skal styrke validiteten, kan svekke reliabiliteten (og omvendt). Noen kvalitetskriterier er dessuten tydelig relatert til selve eksamen (validitet, reliabilitet og rettferdighet), mens andre er relatert til større sammenhenger som er vanskeligere å kontrollere (tolkning av resultater og konsekvenser ved eksamen i praksis). Det er i tillegg sannsynlig at prioriteringene ser annerledes ut i forskning om eksamen ut fra et målingsperspektiv – som ofte vektlegger kvalitetssikring av selve prøvene (f.eks. konstruktvaliditet, sensorreliabilitet), helst i forkant av implementeringen – sammenlignet med forskning ut fra et skoleperspektiv – som ofte ser på hvordan eksamen regulerer handlinger og kunnskap i praksis (konsekvensvaliditet). En tilnærming i slike tilfeller kan være å samkjøre de to perspektivene for å bedre balansen mellom dem.
En grundig kvalitetssikring trenger dessuten en ny tilnærming til datalagring. Når det gjelder for eksempel sensurering, finnes det i dag bare data på et overordnet nivå (karakterene fra sensorene på en eksamen), mens gode analyser trenger data på minste nivå, altså en registrering av poeng per eksamensoppgave eller vurderingskriterium og sensor. Slik data gjør det mulig å utrede nøyere mulige årsaker til enighet/uenighet blant sensorer. Det er for eksempel mulig at sensorer vurderer ulikt på en oppgave enn på en annen (ustabil sensurering, lav intra-sensorreliabilitet), eller det er mulig at størrelsen av uenighet varierer med oppgavetype fordi sensorene vektlegger ulike aspekter. Og så er det mulig at sensorenes vurderinger korresponderer per oppgave eller vurderingskriterium, men resulterer i ulike karakterer basert på forskjeller i den holistiske vurderingen. Hvis det bare finnes data på karakternivået, er detaljene som inngår i karakterene ikke synlig slik at det blir vanskelig å ta tak i årsaker for uenigheten, for eksempel gjennom sensorskolering.
Gjennomgangen av kunnskapsgrunnlaget viser også at det er et stort kunnskapsbehov om tre helt sentrale temaer i rapporten:
- Med bakgrunn i at validitet (gyldighet) er det viktigste kvalitetskriteriet i eksamenssammenheng, har dette perspektivet hatt høy prioritet i dette kunnskapsgrunnlaget. Selv om det er mye kunnskap å finne om den teoretiske tilnærmingen, og selv om kunnskapsgrunnlaget utvikler en tydelig forståelse av begrepet validitet, har det vært vanskelig å lete fram studier som utreder gyldigheten i dagens eksamenssystem i Norge. Eksamensnemndene er i dag en viktig del av dagens system for sikring av validitet (eksamens innhold), men vi har lite systematisert forskning for eksempel om eksamens innholdsvaliditet per fag eller om eksamen som gis ulike elevkull. Det er en vesentlig rettferdighetsdimensjon at eksamen måler tilsvarende kompetanse, all den tid elevene konkurrerer på tvers av årskull i forbindelse med studieopptakene.
Eksamens reliabilitet (pålitelighet) er bedre undersøkt, i det minste når det gjelder matematikk og norsk skriftlig og karaktersetting. Det finnes likevel i liten grad studier om muntlig eller andre prøveformer, om andre fag enn norsk og matematikk eller om studier der sensurering av hver oppgave, og ikke bare karaktersetting som siste trinnet, utredes.
Forholdet mellom eksamens- og standpunktkarakterer er godt undersøkt, når det gjelder avvik i karakterene på tvers av utvalgte kriterier, men det finnes lite forskning om hvordan det er mulig, eller om det er nødvendig, å motvirke eller kompensere systematiske avvik, for eksempel på tvers av kjønn, regioner eller fag. Hvis forskjellene er knyttet til noe annet enn elevenes kompetanse, kan de svekke rettferdighetsdimensjonen. Overordnet gjenspeiler dette forskningshullet en generell uklarhet rundt forholdet mellom eksamen og standpunkt. - Elevperspektivet er også lite undersøkt. Det finnes nesten ingen forskning som direkte utreder elevens oppfatning av eksamensformer eller eksamensoppgaver i Norge. Ofte rapporterer bare lærerne om sine inntrykk av elevenes subjektive vurdering av eksamensformer og oppgaver. De få studiene vi har, tyder på systematiske forskjeller i oppfatninger av og mestring av ulike eksamensformer og at oppgaver samt instruksene noen ganger blir oppfattet som utydelige. Det trengs etter alt å dømme flere og mer systematiske studier av hvordan elevene tolker og mestrer oppgavene. Det er i tillegg vanskelig å skille mellom årsakene som muligens ligger bak eksamensengstelse eller press, fordi individuelle forutsetninger for å takle stress og forhold utenfor skolen er sjelden tatt med i de eksisterende studiene.
- Selv om utdanningssektoren har fått erfaring og kompetanse på å utvikle og vurdere eksamen ut fra kompetansebaserte læreplaner i Kunnskapsløftet, vil det nye kompetansebegrepet stille nye krav til prøveutvikling og sensurering. Forskning fra både andre land og UH-sektoren kan gi oss en første pekepinn på hvordan disse kravene kan møtes, men om disse anbefalingene virkelig passer til det norske eksamenssystemet, er et åpent spørsmål og må utredes. De store endringene i kjølvannet av fagfornyelsen skal evalueres, og det samme bør gjelde ved mulige endringer i eksamenssystemet og effektene av dette.
De viktigste konklusjonene på bakgrunn av denne rapporten er derfor at sluttvurderingen og dens kvalitetssikring trenger en helhetlig tilnærming, og at det er et stort behov for forskning som utreder fagfornyelsens og eksamenssystemets forutsetninger, prosessene og resultatene. Begge tiltakene kan bidra til en annen type diskusjoner om eksamen enn den vi har i dag. For å sikre validitet, reliabilitet og et rettferdig eksamenssystem er det behov for utprøvinger og tid til å tenke gjennom om slutningene som trekkes fra vurderingen kan anses som legitime. Dette er spesielt viktig når det gjelder high-stakes-situasjoner som eksamener.
13.2 Oppsummering av kunnskapsgrunnlaget
Om framveksten av dagens eksamenssystem
Norge har lange tradisjoner for at opptak til videre utdanning baseres på eksamener forvaltet av lærerprofesjonen selv i et tett samspill med nasjonale myndigheter. Eksamenssystemet har historisk representert statlige myndigheters viktigste verktøy for å styre og kontrollere lærernes karaktersetting. Den historiske gjennomgangen viser at lærerne har vært anerkjent som kompetente til å vurdere kvaliteten på elevenes prestasjoner og på denne måten hatt et stort ansvar for å kontrollere adgang til videre utdanning og yrkesliv. Eksamenssystemet i sin helhet og de viktigste prosedyrene har vært relativt stabile de siste tiårene, men vurderingskriterier har vært mye omdiskutert, og man har gått bort fra normrelatert og over til et målrelatert vurderingsprinsipp.
Om eksamens formål og organisasjon
Eksamens formål fremgår av forskrift til opplæringslova, der eksamenskarakterer, på lik linje med standpunktkarakterer, skal være et uttrykk for elevenes kompetanse ved avslutningen av opplæringen i et fag. Eksamenskarakterene, sammen med standpunktkarakterene, gir grunnlag for inntak til både videregående og høyere utdanning. Dette gir eksamen en formell funksjon utover å være et uttrykk for elevens sluttkompetanse i fag. Det kan argumenteres for at legitimiteten til en eksamen som en del av et rangeringssystem står og faller på at eksamenskarakteren er et uttrykk for elevens kompetanse og er et likeverdig uttrykk uavhengig av fag. Samtidig kan det argumenteres for at legitimiteten til kravet om at eleven viser sin kompetanse og at den i tillegg tallfestes står og faller på at eksamenskarakterene blir brukt til noe meningsfullt (som for eksempel opptak til videregående og høyere utdanning). Rollen i inntakssystemet vil derfor være viktig i diskusjonen i hva eksamen skal være og ikke være.
Eksamens- og standpunktkarakterene er i dag begge et uttrykk for elevens kompetanse ved avslutningen av opplæringen i faget, men de må anses som ulike. Det kan framstå som uklart i forskrift til opplæringslova om eksamen skal prøve hele bredden i læreplanen. Denne uklarheten kan medføre at de ulike aktørene i systemet tolker forholdet mellom eksamen og standpunkt ulikt.
Trekkordningen innebærer at elever blir fordelt, i all hovedsak basert på tilfeldige utvalg. Kunnskapsgrunnlaget viser at denne ordningen kanskje ikke gir alle elevene mulighet til å vise kompetanse på en valid måte. Den er heller ikke forenlig med tenkningen om sluttvurdering som et helhetlig system. Elevene selv kan oppfatte fordelingen på ulike eksamener som urettferdig fordi de ikke får den samme sjansen til å vise kompetansene sine. Attpåtil kan fag og antall eksamener på vitnemålet variere, noe som kan få utslag på gjennomsnittsberegningen for opptak til videregående opplæring og høyere utdanning.
Privatistordningen er et tilbud om å dokumentere kompetanse i et fag man ikke tidligere har fått opplæring eller sluttvurdering i, eller et tilbud dersom man ønsker å forbedre karakterer. Antallet forbedringsprøver har vokst over tid og utgjør i dag en betydelig andel med privatister, noe som setter spørsmåltegn ved formålet med denne ordningen. I tillegg er ordningen administrativt utfordrende å gjennomføre, noe som i mange tilfeller får konsekvenser for muligheten til videreutvikling av eksamen.
Selv om eksamenssystemet har vært relativt stabilt, har noen utprøvinger og endringer funnet sted de seneste årene som en følge av innspill fra brukere, embetene og fagmiljøer. Tiltak som nye eksamensformer eller tilgang til hjelpemidler gjenspeiler at eksamensordningen i et fag kan begrense elevenes mulighet til å vise sin sluttkompetanse på en god måte, og at den økende tilgangen på hjelpemidler krever nye diskusjoner om hva som skal vurderes, og på hvilke måter.
Kvalitet i dagens eksamenssystem
Sluttvurderingen skal gi rettferdig og relevant informasjon om elevenes kompetanse i fag. For å oppnå dette trenger lærere og sensorer støtte i sine vurderinger gjennom tydelige mål, vurderingskriterier, veiledning og kvalitetssikring. Denne rapporten utreder ulike kvalitetskriterier (særlig validitet, reliabilitet, rettferdighet) og bruker en helhetlig tilnærming som ivaretar samsvar i kvalitetskriteriene og ser på hele prosessen, fra utvikling av eksamensoppgavene, via administreringen av eksamen og fastsetting av resultatene, til måten resultatene blir tolket på og anvendt i praksis. En utfordring for eksamen, hvor oppgaver må være hemmelige før gjennomføring, er at det er vanskelig å vite at en eksamensoppgave har den ønskede kvaliteten før den tas i bruk, for eksempel å teste gjennom pilotering.
Om eksamens validitet
Det er nesten bare validiteten til matematikkeksamen som har blitt utredet til en viss grad. Her er de fleste lærerne enige i at det er godt samsvar mellom kompetansemålene og hva elevene blir prøvd i. Funn fra KAL-prosjektet forteller noe om validitet i norsk skriftlig eksamen, selv om denne undersøkelsen ligger en del tilbake i tid (Berge mfl., 2005). For øvrig er det altså lite forskning på sammenhengen mellom læreplan og eksamen og hvorvidt det er forskjeller mellom fag og de ulike eksamensformene. Blant skoleledere og skoleeiere er det uenighet om eksamen er egnet til å vise kompetanse i allefag. Det er også uenighet om hvorvidt det er klart hvilkenkompetanse elevene skal vise til eksamen.
Kunnskapsgrunnlaget viser at dagens eksamenssystem kan ha flere implisitte roller utover formål definert i lovverket, for eksempel i sertifisering, seleksjon, kvalitetssikring, videreutvikling av vurderingspraksis, styring av undervisningen og til og med støtte av læring i norsk grunnopplæring. Flere og ulike formål og roller kan føre til ulike tolkninger av eksamensresultater og ulike bivirkninger ved endringer. Det er derfor viktig å avklare de implisitte rollene eksamen har i praksis. Imidlertid finnes det lite forskning som utreder dette, og noen av rollene eksamen har i utdanningssystemet, er derfor muligens underkommunisert. Dette gjelder for eksempel eksamens rolle i kompetanseheving av sensorene og eksamens bidrag til profesjonalisering av vurderingen. Forskningen dokumenterer at skoleledere og lærere oppfatter deltakelse i sensur som viktig for den profesjonelle utviklingen til både skolen som organisasjon og den individuelle lærer.
Om eksamens reliabilitet
Det er et viktig kvalitetskjennetegn at en eksamensoppgave får samsvarende vurderinger av flere sensorer, slik at karaktersettingen ikke er preget av tilfeldigheter. Dette krever tydelige oppgaver med gode instrukser, tydelige vurderingskriterier (i.e. kjennetegn på måloppnåelse) og omfattende sensorskolering for å sikre tolkningsfellesskap.
Kjennetegn på måloppnåelse fra eksamener med sentral sensur blir mye brukt og oppleves som nyttig i skolenes vurderingsarbeid. Skoleledere og skoleeiere har i tillegg utarbeidet lokale kjennetegn. Kjennetegnene er formulert på karaktergruppene 2, 3–4 og 5–6. Fordi karakterene 3 og 4 utgjør en særlig stor andel ved karakterene, har lærere etterlyst klarere vurderingskriterier som skal gjøre det enklere å skille mellom en 3-er og en 4-er.
Lærere som har deltatt i sensorskolering, opplever dette som svært nyttig, og skolelederne opplever at sensorenes erfaringer bidrar til å heve vurderingskompetansen ved skolen. Mangel på samsvar mellom sensorene i vurderingen av eksamen ser likevel ut til å være et problem i flere fag. Elevenes besvarelser og sensorenes vurdering profitterer på eksplisitte forventninger, tydelige formål og detaljerte krav til innhold og struktur og vekting av kriterier. At eksamen består av et større antall oppgaver, er det viktigste for å oppnå høy reliabilitet og er viktigere enn å standardisere oppgaver. I tillegg bør oppgavene innen en eksamen vurderes av forskjellige lærere og sensorer.
Det er lite systematisk forskning på hvordan kommuner og fylkeskommuner arbeider kvalitativt med sensuren av lokalt gitt eksamen. Brukerinnsikt og spørreundersøkelsene viser at det er ulike former for samarbeid når det gjelder vurdering, men studiene sier ikke noe om kvaliteten i samarbeidsarenaene og i hvilken grad / måte dette arbeidet er knyttet til lokalt gitt eksamen.
En utfordring med dagens datagrunnlag fra forskning om eksamens reliabilitet er at sensorinformasjon om hvert fag bare finnes samlet på elevnivå, men ikke på oppgavenivå innen en elevs eksamen. Det gjør det vanskelig å i etterkant utrede hva som kan være årsaker til mulige problemer med mangel på sensorsamsvar.
Om systematiske forskjeller mellom eksamen og standpunkt
Forskjeller mellom eksamen og standpunkt trenger ikke i seg selv være en grunn til bekymring med mindre det dreier seg om systematiske forskjeller mellom grupper. Kjønnsrelaterte forskjeller mellom eksamen og standpunkt, forskjeller mellom private og offentlige skoler, store og små skoler, høytpresterende og lavtpresterende skoler samt forskjeller på tvers av regioner viser at det er systematikk i ulikheten i hva standpunkt og eksamen måler som ikke med rimelighet kan knyttes til elevenes faglige sluttkompetanse. Slike forskjeller skaper en situasjon der de ulike elevene gis ulike muligheter, noe som ikke er forenlig med tanken om en rettferdig vurdering.
Det er lite forskning om årsakene til de systematiske forskjellene. Eksempler tyder på at det kan være svakheter ved prosedyrer eller fagkulturelt betingede normer i sluttvurderingen i norsk skole. Eksamen og ekstern sensur kan tenkes å svekke de uheldige bieffektene hvis standpunktkarakterer gjenspeiler faktorer utover læreplanmålene, for eksempel elevenes innsats eller orden og oppførsel.
I tillegg til systematiske forskjeller på tvers av elevgrupper kommer forskjeller mellom eksamen og standpunkt knyttet til årskull og fag. Slik variasjon i nivået av karaktersetting kan slå ut som en kilde til ikke-fair konkurranse om de samme studieplassene. Et annet fenomen som kan få konsekvenser for opptak til høyere utdanning og yrkesliv, er skjevheter på bakgrunn av fagenes uttelling på vitnemålet ut fra timetall.
Om vurdering i fag
Fagenes egenart har i svært begrenset grad vært i vurderingsforskningens sentrum. Når vi skal prøve kompetanse i tråd med de nye læreplanene i fagfornyelsen, vil det bli viktig å anerkjenne skolefagenes innhold og struktur, noe som er ofte et undervurdert forhold. Det finnes fag som er tydelig disiplinært forankret i fagdomener i høyere utdanning, og de har samtidig en strammere struktur med hierarkisk og sekvensiell oppbygning. På den annen side finnes det fag som har svakere kobling til sine akademiske referansedisipliner, er mindre hierarkiske og mer segmentert. Fagfornyelsens idé med å definere kjerneelementer kan bidra til å anerkjenne fagenes innhold og struktur.
Det er skolefag som utgjør grunnlaget for læreres og sensorers vurdering. Vurdering i fag er basert på smalere eller bredere grunnlag, der den smale tilnærmingen gjerne er dominert av bruk av bare en vurderingsform, for eksempel skriftlig eksamen. Den brede tilnærmingen domineres av et bredere utvalg av vurderinger, for eksempel skriftlig og muntlig eller muntlig og praktisk prøving ved eksamen. I norsk kontekst er det mye som tyder på at det er eksamensformen for det enkelte fag som bidrar til å definere disse mer smale eller brede rammene for vurdering.
Om elevers opplevelse av eksamen
Elever har gjennom Norsk Gymnasiastsamband og Elevorganisasjonen påpekt mangler ved eksamenssystemet helt tilbake til 1963. Manglene som er påpekt, er blant annet at elevene ikke opplever å få vist sin fulle kompetanse, at dagsform i betydelig grad påvirker elevenes prestasjoner, og at det i stor grad er tilfeldig hvilket fag eleven blir trukket opp i. Forskning tyder på at det å lytte til elevene, for eksempel om de oppfatter oppgaver eller instrukser som klare eller uklare, kan bidra til økt validitet i utviklingen av eksamensoppgaver.
Kunnskapsgrunnlaget viser at elevers prøveengstelse er økende når elever opplever at testen vil ha stor betydning, når den er forventet å være vanskelig, og når forholdene rundt prøvesituasjonen er stressende. Elever foretrekker vurderingsformater som reduserer stress og nervøsitet, men det finnes ikke en ideell vurderingsform. Elevenes preferanser varierer blant annet med graden av oppgavenes åpenhet, kjønn, prestasjonskrav og læringsstrategier. Dette tyder på at det er viktig å variere eksamensformer så mye som mulig så at ulike elevgrupper har mulighet til å prestere på den best mulige måten.
Om prøving av fagfornyelsens utvidede kompetansebegrep
Kompetanseorienterte eksamener tar sikte på å måle komplekse evner og kunnskap. Fagfornyelsens kompetansebegrep framhever det å forstå, å anvende kunnskap og ferdigheter i kjente og ukjente sammenhenger, det å lære å lære og å reflektere over egen læring. Dybdelæring kan anses som en forutsetning for å utvikle kompleks kompetanse. Utviklingen av kompetanseorienterte eksamener er imidlertid ofte krevende fordi komplekse evner og kunnskap som regel er mindre presist definert, og fordi det ikke alltid er mulig å utvikle klare kriterier som definerer hvorvidt et svar er riktig eller galt.
Erfaring fra medisinutdanningen viser at før eksamensformen velges, er det nyttig å forestille seg i hvilke situasjoner elevene skal ha bruk for denne kompetansen senere i livet, og hva slags oppgaver som egner seg til å vurdere denne kompetansen. Kompleksiteten som ligger i fagfornyelsens kompetansebegrep, er nesten umulig å prøve med en enkel eksamen eller eksamensform, men krever at man tenker helhetlig på sluttvurderingen som et system. Mappevurdering har blitt pekt på som et mulig nyttig element i prøving av kompleks kompetanse fordi den kunne kompensere for at eksamen har preg av å være et øyeblikksbilde eller en stikkprøve, og ville styrket mangfoldigheten i prøveformer og gitt mulighet til å inkludere elevperspektivet ved å tilby valgmuligheter. Men med denne vurderingsformen følger det også noen utfordringer knyttet til vurderingsarbeidet. Et eksempel på det er manglende «kontroll av» om det er elevene som har utført arbeidet som inngår i mappa.
Å på den ene siden lage åpne og overordnede mål for at elevene skal kunne overføre det de har lært, til nye sammenhenger, og på den annen side gi tydelig uttrykk for hva elevene skal lære, og for hvilken kompetanse som skal være gjenstand for sluttvurdering, er en vanskelig balansegang. Det finnes svært lite forskning om kompetanseorienterte eksamener, i særdeleshet om hvilke fordeler og ulemper de har, og om psykometriske kvaliteter og styringsfunksjon, inkludert utilsiktede effekter. Fra forskning om eksamen i medisin framkommer det at et større antall eksamensoppgaver av ulike typer, kontekst og sensorer kan sikre god reliabilitet.
Om betydningen av teknologiske muligheter for eksamen
Digital teknologi kan påvirke eller endre forskjellige områder ved eksamen: eksamens administrasjon, bruk av hjelpemidler, innholdet til eksamen og sensurering. Tilgangen på ulike former for digitalt utstyr i norske skoler er generelt høy, men det å utnytte mulighetene for å få bedre kvalitet og effektivitet ved eksamen krever visse forutsetninger, og det oppstår et endringsbehov, spesielt knyttet til elevers og læreres digitale kompetanse. Den faglig-pedagogiske kompetansen blant lærerne til å ta i bruk digitale hjelpemidler ser ut til å variere mye. Elevgrupper som har bedre forutsetninger knyttet til tekniske forhold (tilgang til utstyr og infrastruktur) eller undervisningsforhold (omfang av og kvalitet på opplæring i digitale ferdigheter), har større sjanse å lykkes på eksamen enn andre elever.
Dagens eksamenssystem er digitalt i den forstand at elevene kan laste ned eksamensoppgavene og levere digitalt. Formålet er i hovedsak økt effektivitet, informasjonssikkerhet og personvern, men det åpner også for nye formater på produktet som skal vurderes, for eksempel lydfiler, video eller multimodale tekster. Den nye løsningen for å utvikle og gjennomføre eksamen som skal anskaffes innen 2021, skal kunne tilby slike nye oppgaveformater og i tillegg gi støtte til sensur. Den teknologiske utviklingen kan dermed gi muligheter for at eksamensoppgavene gjenspeiler bredden i kompetansebegrepet og følgelig blir mer valide. Gjennom å gi tilgang til automatisk skåring av oppgaver innebærer teknologi en betydelig tidsbesparelse ved sensuren.
Teknologiutvikling er også en driver for endring av skolens innhold og derigjennom hvilke kompetanser det er relevant å måle. Eksempler på dette er innføring av programmering i matematikkfaget, digitale tekstformer og tekstlige uttrykk i norskfaget eller kildekritisk kompetanse og digitale ferdigheter som en grunnleggende ferdighet. Teknologistøtte handler i tillegg om å bruke ulike digitale hjelpemidler i eksamenssituasjonen, for eksempel tilgang til åpent internett, lese-/skrivestøtte eller fagspesifikk programvare.
Samtidig kan den teknologiske utviklingen gi nye utfordringer: De nye mulighetene må balanseres med de faglige tradisjonene og kravene til at elevene skal kunne vise hvordan de mestrer grunnleggende kunnskaper og ferdigheter i det enkelte faget. I tillegg tar det tid for elever å lære å bruke hjelpemidler (både på papir og digitale) på en hensiktsmessig måte, og sensorer har behov for et tolkningsfellesskap for å sikre en felles forståelse av hva som kjennetegner god bruk av kilder. En spørreundersøkelse i etterkant av forsøket med åpent internett på eksamen i videregående skole tyder på at de fleste elevene opplever det som nyttig å ha tilgang til internett på eksamen, mens både sensorer og lærere er mer usikre på utbyttet av tilgangen. Samtidig opplever særlig jenter eksamen med åpent internett som mer stressende enn eksamen uten internett.
Om lærerutdanningen og vurderingskompetanse
Rammeplanene for lærerutdanning er ulike for trinn 1–7 og 5–10 på den ene siden og PPU og lektorprogrammet på den annen side. I rammeplanene for trinn 1–7 og 5–10 som ble vedtatt i 2013, vektlegges at lærerstudenter etter endt utdanning skal ha inngående kunnskap om blant annet vurderings- og kartleggingsverktøy samt om vurdering av elevenes læring. Lærerstudentene skal også kunne vurdere elevers læring og gi læringsfremmende tilbakemeldinger. PPUs og lektorutdanningens rammeplan refererer til det nye kompetansebegrepet samt kjennetegn på måloppnåelse under «Ferdigheter», men nevner ingen kunnskapsområder som lærerstudentene skal undervises i. Retningslinjene for PPU og lektorutdanningen nevner derimot eksplisitt sluttvurderingen og vurdering av læring. Karaktersetting eller sensurering er ikke uttrykkelig nevnt i noen av disse rammeplanene eller retningslinjene.
Det er svært begrenset med forskning og oppdatert systematisk informasjon eller kunnskap om hvordan disse kvalifikasjonskravene knyttet til vurdering ivaretas i lærerutdanningene. Vi vet heller ikke mye om læringsutbytte eller effekten av lærerutdanningen når det gjelder vurderingskompetanse. Det finnes noe regionalt arbeid med kompetanseutvikling for lærere i skole, men det er i iøynefallende at det ikke finnes tilsvarende store kompetanseutviklingsprogrammer når det gjelder summativ vurdering og karaktersetting, som det gjør for formativ vurdering og vurdering for læring, noe som muligens kan tolkes som en gjennomgående rød tråd fra lærerutdanningen til etter- og videreutdanning.
13.3 Problemstillinger og spørsmål i det videre arbeidet
Kunnskapsgrunnlaget som vi har sammenstilt her, selv om det er til dels begrenset, leder til noen grunnleggende spørsmål som eksamensgruppa skal utrede i det videre arbeidet. Disse områdene framgår som særdeles viktige:
- å tydelig definere eksamens formål
- å diskutere muligheter til å prøve det utvidede kompetansebegrepet i fag på eksamen
- å se på forholdet mellom standpunkt og eksamen
- å vurdere om trekkordningen er hensiktsmessig
- å videreutvikle kvalitetssikringen av eksamen ut fra validitet, reliabilitet og rettferdighet
- å vurdere betydningen av ny teknologi for eksamen
Noen drøftinger som mulig utgangspunkt for det videre arbeidet
Gjennomgangen av kunnskapsgrunnlaget viser at eksamenssystemet har flere roller utover formelt definerte formål, som heller ikke alltid er like synlige. Eksamen skal samtidig imøtekomme validitetskrav, dette gjør det viktig å tydeliggjøre formålet med eksamen og følge med på implisitte roller den kan ha, slik at disse kan ligge til grunn for valideringsprosesser knyttet til eksamens utforming og gjennomføring.
Hvis eksamenskarakteren skal ha som hovedformål å være en ekstern vurdering i tillegg til standpunktkarakteren, kan vi spørre oss hvorfor de fleste standpunktkarakterene ikke følges opp med en eksamensvurdering. Samtidig er det ikke opplagt hvorvidt det er formålstjenlig å kombinere eksamenens kvalitetssikrende funksjon med standpunktvurderingen.
I dag utgjør standpunktkarakterer omtrent 80 prosent og eksamenskarakterer 20 prosent av vitnemålet. Derfor er følgende spørsmål aktuelle: Er det rimelig at eksamen og standpunkt teller like mye på vitnemålet, og at skriftlig og muntlig eksamen teller likt gitt at skriftlige eksamener kan kvalitetssikres på en annen måte enn muntlig? Er det rimelig at noen fag kan vektes mer på vitnemålet enn antall timer gjennom videregående skole tilsier, mens andre fag kan vektes mindre?
Trekkordningen må drøftes i et større perspektiv som inkluderer systematisk tenkning om eksamens rettferdighet, forutsigbarhet og hvordan man organiserer eksamen. Det kan være utfordrende å se for seg hvordan trekkordningen kan inngå i et helhetlig system for eksamen og standpunkt som ivaretar disse nevnte perspektivene på en god måte.
Det er en relevant problemstilling om eksamen kan eller bør prøve bredden i elevenes kompetanse, eller om eksamen bare skal prøve visse deler av kompetansen. Hvis eksamen og standpunkt utfyller hverandre som deler av et helhetlig system for vurdering og blir planlagt deretter, kan problemene unngås. Samtidig skaper en slik helhetlig tilnærming en mulighet til å inkludere et bredt spekter av prøveformer som samlet sett prøver kompleks kompetanse.
Et spørsmål som kan stilles i denne konteksten, er om alle eksamensformer er like formålstjenlige. Noen kompetansemål kan egne seg i mindre grad til å prøves i skriftlig eller muntlig eksamen. Dersom en større andel kompetanser ikke er egnet for eksamensformen som tradisjonelt brukes, bør det tenkes nytt. En mulig innfallsvinkel er å i større grad velge eksamensformene ut fra kompetansen/ arbeidsformen elevene vil trenge i hverdags- eller yrkeslivet samt i videre og høyere utdanning.
Å prøve elevenes samarbeidsevne og/eller løsninger og produkter de har kommet fram til i fellesskap, kan være utfordrende ved hjelp av en individuell eksamen. Dagens regelverk åpner for ulike løsninger så lenge vurderingen fortsatt er individuell. Samtidig er det mulig å se på eksamen og standpunkt som et helhetlig system der standpunkt bedre ivaretar noen av dimensjonene enn eksamen.
Eksamensformer og vurderingsprosesser er forankret i fagenes innhold og struktur, og dette forholdet bør ikke tas for gitt. Med fagfornyelsens tverrgående temaer og arbeid med dybdelæring i flere parallelle fag blir dette en aktuell problemstilling som bør tas inn i den videre diskusjonen av eksamen og sluttvurdering. Forskning om validitet vil kunne belyse hvordan en eksamen utformes og anvendes i ulike kontekster og til ulike formål.
Kunnskapsgrunnlaget viser forskjeller i karaktersetting mellom skoler, fag, kjønn, over år osv. Forskning bør se på hvordan forskjellene kan forstås, og i hvilken grad de kan forsvares eller endres. Hvordan skal for eksempel nivået på ulike fag avstemmes mot hverandre? I hvilken grad måler eksamen i et fag det samme som eksamen i samme fag året etter? Rettferdigheten svekkes om kravene er systematisk høyere i enkelte fag eller år framfor andre.
En grundig kvalitetssikring trenger systematisk planlegging av tiltak basert på et rammeverk (se vedlegg for et eksempel), en ny tilnærming til datalagring og dokumentasjon av resultater som gjøres tilgjengelig. I noen hensyn er det relativt enkelt å ta grep som forbedrer kvaliteten til eksamen. Dette gjelder særlig reliabilitet ved å utvikle kjennetegn på måloppnåelse på alle karakterer, ved å bruke et større antall oppgaver som innen en elevs eksamen vurderes av forskjellige sensorer, og ved å utvikle på forhånd eksplisitte vurderingskriterier som tydeliggjør forventninger og detaljerte krav til innhold og struktur og vekting av kriterier.
Fra elevenes perspektiv er det naturlig å reise spørsmål om de får tilstrekkelig anledning til å påvirke eksamensinnholdet og hvordan de prøves. En annen del av drøftingen i denne konteksten kunne dreie seg om eksamen kan følges opp med en mer utfyllende tilbakemelding enn karakteren. Slike tilbakemeldinger vil være ressurskrevende hvis de ikke gis automatisk, så nytteverdien må utredes først.
Det finnes i dag ingen samlet oversikt over de totale kostnadene for både lokalt gitt og sentralt gitt eksamen. Selv om Udir har oversikt over sine kostnader ved sentralt gitt skriftlig eksamen, herunder oppgaveutvikling og produksjon (ca. 34 mill.), systemstøtte og IT-forvaltning (ca. 27 mill.), sensur og klagebehandling (128 mill.), er det ingen samlet framstilling som viser kostnadene lokalt. Her vil Udir gjennomføre en utredning i 2019 for å gi et bedre grunnlag for å vurdere føringen om å overholde gjeldende kostnadsramme i eksamensgruppas mandat.
Det bør åpnes for dialog med lærerutdanningen for å styrke vurderingskompetansen hos nyutdannede lærere. Lærere har et stort ansvar ved å vurdere og eksaminere elever. Lærerutdanningen har den beste muligheten for å bygge opp et godt grunnlag slik at alle lærere er kompetente til å utføre vurderingsoppgaven på en valid, reliabel og rettferdig måte. Økt publisering av norskspråklig faglitteratur/lærebøker på summativ vurdering, spesielt lærebøker tilpasset de ulike lærerutdanningene vil kunne være ønskelig.
Vedlegg
Kvalitetskriterium | Spørsmål | Mulige trusler |
---|---|---|
Formål |
|
|
Gyldighet |
|
|
Gyldighet |
|
|
Pålitelighet |
|
|
Pålitelighet |
|
|
Tolkning av resultater |
|
|
Konsekvenser og effekter |
|
|
Konsekvenser og effekter |
|
|
14. Litteraturliste
Andresen, S., Fossum, A., Rogstad, J., Smestad, B. (2017). På prøve. Evaluering av matematikkeksamen på 10. trinn våren 2017. Fafo.
Arbeidsgruppe nedsatt av nasjonalt råd for lærerutdanning: Christiansen, Enge, Lode (2015). Rapport frå karakterundersøkelsen i matematikk i GLU-utdanningene i 2014.
Association of Educational Assessment – Europe (AEA Europe) (2017). European Framework of Standards for Educational Assessment 1.0.
am: fra betingelser til forventninger. I T. Englund, E. Forsberg, og D. Sundberg (red.), Vad räknas som kunskap? Läroplansteoretiska utsikter ock inblickar i lärarutbildningen ock skola (s. 240–260). Stockholm: Liber.
Baeten, M., Struyven, K., og Dochy, F. (2008). Students assessment preferences and approaches to learning in new learning environments: A replica study. New York: AERA (Paper presented at AERA March 2008).
Baird, J.-A., og Hopfenbeck, T.N. (2016). Curriculum in the Twenty-First Century and the Future of Examinations. I D. Wyse, L. Hayward, og J. Pandya (red.), The SAGE handbook of curriculum, pedagogy and assessment (s. 821–837). Los Angeles; London; New Delhi; Singapore; Washington, DC: SAGE.
Beller, M., og Gafni, N. (2000). Can item format (multiple choice vs. open-ended) account for gender differences in mathematics achievement? Sex Roles: A Journal of Research, 42, 1–21.
Ben-Chaim, D., og Zoller, U. (1997). Examination-type preferences of secondary school students and their teachers in the science disciplines. Instructional Science, 25(5), 347–367.
Ben-Shakar, G., og Sinai, Y. (1991). Gender differences in multiple choice tests: The role of differential guessing. Journal of Educational Measurement, 28, 23–35.
Biggs, J.B., (2003). Teaching for quality learning at university. Buckingham: Open University Press/Society for Research into Higher Education. (Second edition).
Birenbaum, M., og Dochy, F. (1996). Introduction. I: M. Birenbaum og F. Dochy (red.). Alternatives in assessment of achievements, learning processes and prior knowledge (s. xiii–xv). Boston: Kluwer.
Birenbaum, M., og Feldman, R.A. (1998). Relationships between learning patterns and attitudes towards two assessment formats. Educational Research, 40(1), 90–97.
Bjørnset, M., Fossum, A., Rogstad, J., Smestad, B., og Talberg, N. (2018). Digitale skillelinjer: Evaluering av matematikkeksamen på 10. trinn våren 2018. Fafo-rapport 2018:36.
Black, P., Harrison, C., Lee, C.S., Marshall, B., og Wiliam, D. (2003). Assessment for learning, putting it into practice. Open University Press.
Black, P., Harrison, C., Hodgen, J., Marshall, B., og Serret, N. (2011). Can teachers summative assessments produce dependable results and also enhance classroom learning? Assessment in Education: Principles, Policy og Practice, 18(4), 451–469.
Borgonovi, F., Ferraram, A., og S. Maghnouj (2018): The gender gap in educational outcomes in Norway, OECD Education Working Papers, No. 183, OECD Publishing, Paris.
Broadfoot, P. (2007). An introduction to assessment. [London]; New York: Continuum.
Brookhart, S.M. (2013). Grading. I J.H. McMillan (red.), SAGE Handbook of Research on Classroom Assessment (s. 257–272). USA: Sage.
Buland, T., Engvik, G., Fjørtoft, H., Langseth, I., Sandvik, L.V., og Mordal, S. (2014): Vurdering i skolen. Utvikling av kompetanse og fellesskap. Sluttrapport fra prosjektet Forskning på individuell vurdering i skolen (FIVIS). NTNU.
Bøhn, H. (2017): What is to be assessed? Teachers' understanding of constructs in an oral English examination in Norway (doktoravhandling). Universitetet i Oslo.
Carlsen, C. (2013): Guarding the Guardians. Rating scale and rater training effects on reliability and validity of scores of an oral test of Norwegian as a second language (doktoravhandling). Universitetet i Bergen.
Crooks, T.J., Kane, M.T., og Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in Education: Principles, Policy og Practice, 3(3), 265–286.
Dale, E.L. (2008). Fellesskolen – reproduksjon av sosial ulikhet. Oslo: Cappelen akademisk forlag
Dale, E.L., og Wærness, J.I. (2006). Vurdering og læring i en elevaktiv skole. Oslo: Universitetsforlaget.
Dochy, F., og McDowell, L. (1997). Introduction assessment as a tool for learning. Studies in Educational Evaluation, 23(4), 279–298.
Duncan, C.R., og Noonan, B. (2005). Factors Affecting Teachers' Grading and Assessment Practices. The Alberta Journal of Educational Research, 53(1), 1–21.
Eccles, J. (1983). Expectancies, values and academic behavior. I: J.T. Spence (red). Academic and achievement motives. San Francisco: Freeman.
Eckstein, M.A., og Noah, H.J. (1993). Secondary School Examinations. International Perspectives on Policies and Practice. New Haven: Yale University Press.
Egeberg, G., Hultin, H., og Berge, O. (2016). Monitor skole 2016: Skolens digitale tilstand. Oslo: Senter for IKT i utdanningen.
Eggen, A.E. (2004). Alfa and Omega in Student Assessment; Exploring Identities of Secondary School Science Teachers (ph.d.-avhandling). Department of Teacher Education and School Research, University of Oslo.
Erstad, O. (2008). Changing Assessment Practices and the Role of IT. I J. Voogt og G. Knezek (red.), International Handbook of Information Technology in Primary and Secondary Education (Bind 20, s. 181–194): Springer US.
Evensen, L.S., Berge, K.L., Thygesen, R., Matre, S., og Solheim, R. (2016). Standards as a tool for teaching and assessing cross-curricular writing. The Curriculum Journal, 27, 229–245.
Federici, R.A., Gjerustad, C., Vaagland, K., Larsen, E.H., Rønsen, E., og Hovdhaugen, E. (2017). Spørsmål til Skole-Norge våren 2017. NIFU-rapport 2017:12. Oslo.
Finne, H., Jensberg, H., Aaslid, B.E., Haugsbakken, H., Holth Mathiesen, I., og Mordal, S. (2011). Oppfatninger av studiekvalitet i lærerutdanningen blant studenter, lærerutdannere, øvingslærere og rektorer (=SINTEF rapport; A18011). Trondheim: SINTEF.
Forsøksrådet for skoleverket (1969). Standardiserte prøver i skolen. Forsøk og reform i skolen – nr 16. Oslo: Universitetsforlaget.
Galloway, T.A, Kirkebøen, L.J., og Rønning, M. (2011): Karakterpraksis i grunnskoler: sammenheng mellom standpunkt- og eksamenskarakter. SSB.
Gellman, E., og Berkowitz, M. (1993). Test-item type: What students prefer and why. College Student Journal, 27(1), 17–26.
Gjerustad, C., Waagene, E., og Salvanes, K.V. (2015). Spørsmål til Skole-Norge høsten 2014. NIFU.
Gjone, G. (1993). Types of problems and how students in Norway solve them. I N. Mogens (red.), Cases of assessment in Mathematics Education: An ICMI Study (s. 107–118). Amsterdam: Kluwer Academic Press.
Gustafsson, J.-E., og Erickson, G. (2018). Nationella prov i Sverige – tradition, utmaning och förändring. Acta Didactica Norge, 12(4). DOI: http://dx.doi.org/10.5617/adno.6434
Haladyna, T.M., og Downing, S.M. (2005). Construct-Irrelevant Variance in High-Stakes Testing. Educational Measurement: Issues and Practice, 23(1), 17–27.
Harlen, W. (2005). Teachers' Summative Practices and Assessment for Learning – Tensions and Synergies. The Curriculum Journal, 16(2), 207–223.
Harris, L.R., og Brown, G.T.L. (2016). The Human and Social Experience of Assessment: Valuing the Person and the Context. I G.T.L. Brown og L.R. Harris (red.), Handbook of human and social conditions in assessment (s. 1–17). New York: Routledge, Taylor og Francis Group.
Hatlevik, O.E., Tømte, K., Skaug, J.H., og Ottestad, G. (2010). Monitor 2010: Samtaler om IKT i skolen. Oslo: Senter for IKT i utdanningen.
Hatlevik, O.E., Egeberg, G., Gudmundsdottir, G.B., Loftsgarden, M., og Loi, M. (2013). Monitor skole. Oslo: Senter for IKT i utdanningen.
Hatlevik, O.E., og Throndsen, I. (red.) (2015). Læring av IKT : Elevenes digitale ferdigheter og bruk av IKT i ICILS 2013. Oslo: Universitetsforlaget.
Herman, J.L., og Baker, E.L. (2009). Assessment policy: Making sense of the babel. I G. Sykes, B. Schneider og D. Plank (red.). Handbook of Education Policy Research, Newbury Park, London: Sage.
Hill, K.T. (1984). Debiliating motivation and testing: A major educational problem – Possible solutions and policy applications. I: R.E. Ames og C. Ames (red.), Research on motivation in education: Vol. 1. Student motivation. New York: Academic Press.
Hill, K.T., og Wigfield, A. (1984). Test anxiety: A major eduactional problem and what can be done about it. Elementary School Journal, 85, 105–126.
Hovde, P., og Olsen, S.O. (2015). Utredning – Digital eksamen NTNU 2015–2019. NTNU.
Hovdhaugen, E., Seland, I., Lødding, B., Prøitz, T., og Vibe, N. (2014). Karakter i offentlige og private videregående skoler. En analyse av eksamens- og standpunktkarakter i norsk og matematikk og rutiner for standpunktvurdering i offentlig og private videregående skoler. NIFU. Rapport 24/2014
Hovdhaugen, E., Prøitz, T., og Seland, I. (2018 in print). Eksamens- og standpunktkarakterer – to sider av samme sak? Acta Didactica Norge, 12(4).
Hultin, H., og Berge, O. (2014). Notat til utvalgsarbeid om digital kompetanse. Oslo: Senter for IKT i utdanningen.
Hægeland, T., Kirkebøen, L.J., Raaum, O., og Salvanes, K.G. (2005). Skolebidragsindikatorer: Beregnet for avgangskarakterer fra grunnskolen for skoleårene 2002–2003 og 2003–2004 (Rapporter SSB 2005/33). Oslo: Statistisk sentralbyrå.
Jarning, H., og Aas, G.H. (2008). Between Common Schooling and the Academe: The International Examinations Inquiry in Norway, 1935–1961. I: An Atlantic Crossing? The Work of the International Examination Inquiry, its Researchers, Methods and Influence, 181–204, redigert av M. Lawn. Oxford, UK: Symposium Books.
Kane, M.T. (2015). Explicating validity. Assessment in Education: Principles, Policy og Practice, 23(2), 1–14.
Kirke-, utdannings- og forskningsdepartementet (1996). Om elevvurdering, skolebasert vurdering og nasjonalt vurderingssystem (St.meld. nr. 47 (1995–1996)). Oslo: Departementet.
Kommunerevisjonen (2013). Standpunktkarakterer i videregående skole – likebehandles elevene? Oslo: Oslo kommune kommunerevisjonen.
Koretz, D. (1998). Large-scale portfolio assessments in the US: Evidence pertaining to the quality of measurement. Assessment in Education: Principles, Policy og Practice, 5(3), 309–334.
Krogh,L.C.(2016). Kreativitet og ambivalens: En undersøkelse av variasjoner i vurdering og kjennetegn ved sprikvurderte tekster fra eksamen i norsk hovedmål 2015. MasteroppgaveHøgskoleniSørøst-Norge.
Krumsvik, R.J., Egelandsdal, K., Sarastuen, N.K., Jones, L.Ø., og Eikeland, O.J. (2013). Sammenhengen mellom IKT-bruk og læringsutbytte (SMIL) i videregående opplæring. Bergen.
Kunnskapsdepartementet. (2013). På rett vei. (Meld. St. 20 (2012–2013)).
Kunnskapsdepartementet. (2016). Fag – Fordypning – Forståelse — En fornyelse av Kunnskapsløftet. (Meld. St. 28 (2015–2016)).
Kunnskapsdepartementet (2017). Organisering av skoleåret i videregående opplæring, rapport fra arbeidsgruppa oppnevnt av KD. Hentet 01.11.2018 fra: https://www.udir.no/globalassets/filer/tall-og-forskning/rapporter/2017/rapport---organisering-skolearet.pdf
Lawn, M. (2008). Red. An Atlantic Crossing? The work of the International Examination Inquiry, its researchers, methods and influence. Oxford: Symposium Books.
Lekholm, A.K., og Cliffordsson, C. (2008). Discrepancies between School Grades and Test Scores at Individual and School Level: Effects of Gender and Family Background. Educational Research and Evaluation, 14(2), 181–199.
Lekholm, A.K., og Cliffordsson, C. (2009). Effects of Student Characteristics on Grades in Compulsory School. Educational Research and Evaluation, 15(1), 1–23.
Lysne, A. (1999). Karakterer og kompetanse. Stridstema i norsk skolehistorie. AVA forlag.
Lysne, A. (2004). Karakterer og kompetanse. Kampen om skolen. AVA forlag.
Lysne, A. (2006). Assessment Theory and Practice of Students' Outcomes in the Nordic Countries. Scandinavian Journal of Educational Research, 50(3), 327–359.
Lundahl, Ch., og Tveit, S. (2014): Att legitimera nationella prov i Sverige och i Norge – en fråga om profession och tradition. Pedagogisk Forskning i Sverige, 19(4–5), 297–323.
Markus, K.A., og Borsboom, D. (2013). Frontiers of test validity theory: measurement, causation and meaning. New York, N.Y: Routledge / Taylor og Francis Group.
McDowell, L. (1995). The impact of innovative assessment on student learning. Innovations in Education and Training International, 32(4), 302–313.
McMillan, J.H. (2003). Understanding and improving teachers' classroom assessment decision-making: Implications for theory and practice. Educational Measurement: Issues and Practice, 2(4), 34–43.
Moss, P.A. (2007). Reconstructing Validity. Educational Researcher, 36(8), 470–476.
Moss, Pamela A., Girard, B.J., og Haniford, L.C. (2006). Validity in Educational Assessment. Review of Research in Education, 30 (Special Issue on Rethinking Learning: What Counts as Learning and What Learning Counts), 109–162.
Muller, J. (2009). Forms of Knowledge and Curriculum Coherence. Journal of Education and Work, 22(4), 205–226.
Munthe, E., Solbakken, J.I., Hjetland, H., og Hustad, B.C. (2014). Lærerutdanninger i endring: Indre utvikling – ytre kontekstuelle og strukturelle hinder (Følgegruppen for lærerutdanningsreformen; Rapport Nr. 4).
Nassar, Y.H.B., Qaraeen, K., og Naba'h, A.A. (2011). Secondary School Students' Perceptions of Essay and Multiple-Choice Type Exams. Dirasat, Educational Sciences, 38(1), 345–358.
Natriello, G., og Dornbusch, S.M. (1984). Teacher evaluative standards and student effort. New York: Longman.
Nesman, M., og Kovač, V.B. (2016): Privatister – hvem er de, og hva motiverer dem til å lykke på eksamen? Kartlegging av bakgrunnsvariabler og deres intensjon i lys av en utvidet versjon av teorien om planlagt adferd. Nordisk tidsskrift for pedagogikk og kritikk.
Newton, P.E. (2007). Clarifying the purposes of educational assessment. Assessment in Education, 14(2), 149–170.
NOKUT (2015). Centre for Professional Learning in Teacher Education (ProTed): Mid-term evaluation – Centre of Excellence in Higher Education.
Nordenbo, S.E., Allerup, P., Andersen, H.L., Dolin, J., Korp, H., Larsen, M.S., . . . Østergaard, S. (2009). Pædagogisk brug af test – Et systematisk review. København: Danmarks Pædagogiske Universitets Forlag
Norcini, J., Anderson, M., Brownell, Bollela, V., Burch, V., Costa, M.J., Duvivier, R., Hays, R., Palacios Mackay, M.F., Roberts, T., og Swanson, D. (2018). 2018 Consensus framework for good assessment, Medical Teacher, 9, 1–8. https://doi.org/10.1080/0142159X.2018.1500016
NOU (Norges offentlige utredninger) 2015: 8. (2015). Fremtidens skole: Fornyelse av fag og kompetanser. Oslo: Kunnskapsdepartementet.
NOU (Norges offentlige utredninger) 2018: 15. (2018). Kvalifisert, forberedt og motivert — Et kunnskapsgrunnlag om struktur og innhold i videregående opplæring. Oslo: Kunnskapsdepartementet.
NOU (Norges offentlige utredninger) 2019: 3. (2019). Nye sjanser – bedre læring: Kjønnsforskjeller i skoleprestasjoner og utdanningsløp. Oslo: Kunnskapsdepartementet.
Norgesuniversitetet (2015). Sluttrapport fra Ekspertgruppa for digital vurdering og eksamen per februar 2015
Nasjonalt råd for lærerutdanning (NRLU) (2017). Nasjonale retningslinjer for lektorutdanning for trinn 8–13.
Nasjonalt råd for lærerutdanning (NRLU) (2017b). Nasjonale retningslinjer for praktisk pedagogisk utdanning – allmennfag.
Nasjonalt råd for lærerutdanning (NRLU) (2018). Nasjonale retningslinjer for praktisk-pedagogisk utdanning for yrkesfag trinn 8-13.
Nygård Arntzen, H. (2015). Matematikkeksamen gjennom tre reformer: En analyse av avgangseksamen på høyeste nivå i den videregående skolen. Masteroppgave, UiT.
Pellegrino, J.W., Chudowsky, N., Glaser, R., og National Research Council (U.S.) (Red.). (2001). Knowing what students know: The science and design of educational assessment. Washington, DC: National Academy Press.
Popham, W.J., og Husek, T.R. (1969). Implications of criteriion-referenced measurement. Journal of Educational Measurement, 6(1), 1–9.
ProTed (2016). Centre for Professional Learning in Teacher Education: Annual report for 2016. Hentet 12.02.2019 fra: https://www.uv.uio.no/proted/om/arsrapporter/annual_report_2016_proted.pdf
ProTed (2017). Centre for Professional Learning in Teacher Education: Annual report for 2017. Hentet 12.02.2019 fra: https://www.uv.uio.no/proted/om/arsrapporter/annual-report-for-proted_2017.pdf
Prøitz, T.S., og J.S. Borgen (2010). Rettferdig standpunktvurdering – det (u)muliges kunst? NIFU STEP report 16/2010.
Prøitz, T.S., (2013a). Variations in grading practice—subjects matter. Education Inquiry, 4(3), 1–22. (in press, forthcoming September 2013).
Prøitz, T.S., (2018). Ten years later – variations in grading practices revisited, paper presented at LOaPP-project meeting 30.11.18 USN.
Rambøll (2012). Forsøk med internett til eksamen: Sluttrapport. Hentet 27.11.2108 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/Eksamen-med-tilgang-til-Internett/
Rambøll (2013). Sluttrapport: Evaluering av eksamen med tilgang til internett. Hentet 27.11.2018 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/Eksamen-med-tilgan-til- internett/
Rambøll (2014). Forsøk med tilgang til internett på eksamen. Hentet 27.11.2018 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/Forsokt-med-Internett-pa-eksamen/
Rambøll (2015). Evaluering av forsøk med tilgang til internett på eksamen 2014–2015. Hentet 27.11.2018 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/forsok-med-tilgang-til-internett-pa-eksamen/
Rambøll (2019). Evaluering av åpent internett til eksamen: Sluttrapport.
Redecker, C., og Johannessen, Ø. (2013). Changing Assessment: Towards a New Assessment Paradigm Using ICT. European Journal of Education, 48(1), s. 79–96. Blackwell.
Resh, N. (2009). Justice in Grades Allocation: Teachers' Perspective. Social Psychology of Education, 12(3), 315–325.
Sambell, K., McDowell, L., og Brown, S. (1997). «But is it fair?»: An exploratory study of student perceptions of the consequantial validity of assessment. Studies in Educational Evaluation, 23(4), 349–371.
Sandvik, L.V., Engvik G., Fjørtoft, H., Langseth, I.D., Aaslid, B.E., og Buland, T. (2012): Vurdering i skolen. Intensjoner og forståelse. Delrapport 1 fra prosjektet Forskning på individuell vurdering i skolen (FIVIS). Trondheim: NTNU.
Sandvik, L.V., og Buland, T. (2013). Vurdering i skolen. Operasjonaliseringer og praksiser Delrapport 2 fra prosjektet Forskning på individuell vurdering i skolen (FIVIS). Trondheim: NTNU/SINTEF.
Sanne, A., Berge, O., Bungum, B., Jørgensen, E.C., Kluge, A., Kristensen, T.E., Mørken, K.M., Svorkmo, A., og Voll, L.O. (2016). Teknologi og programmering for alle: En faggjennomgang med forslag til endringer i grunnopplæringen. Oslo. Hentet 19.11.2018 fra: https://www.udir.no/globalassets/filer/tall-og-forskning/forskningsrapporter/teknologi-og-programmering-for-alle.pdf
Schaper, N., Hilkenmeier, F., og Bender, E. (2013). Umsetzungshilfen für kompetenzorientiertes Prüfen: HRK-Zusatzgutachten. Bonn, Germany. Hentet 06.02.2019 her: https://www.hrk-nexus.de/fileadmin/redaktion/hrk-nexus/07-Downloads/07-03-Material/zusatzgutachten.pdf
Schunk, D. (1984). Self-efficacy perspective on achievement behavior. Educational Psychologist, 19, 48–58.
Sejersted, F. (2005). Sosialdemokratiets tidsalder. Norge og Sverige i det 20. århundre. Andre del av historieverket Norge og Sverige gjennom 200 år. Oslo: Pax forlag.
Seland, I., Lødding, B., og Prøitz, T.S. (2015). Delrapport 1 fra evaluering av forsøk med halvårsvurdering med én eller to karakterer i norsk. Litteraturstudie. NIFU-rapport 33/2015. Oslo: NIFU.
Seland, A., Hovdhaugen, E., Lødding, B., Prøitz, T., og Rønsen, E. (2018): Sluttrapport fra evaluering av forsøk med halvårsvurdering med én eller to karakterer i norsk. Oslo.
Sjaastad, J., Carlsten, T.C., og Wollscheid, S. (2016). Får elevene den opplæringen de har krav på? Kartlegging av undervisningstimer med kvalifiserte lærere i videregående opplæring. Rapport 26/2016. Oslo: NIFU.
Smestad, B., og Fossum, A. (2019). Primary school exams in calculations/mathematics in Norway 1946–2017: Content and form. CERME 2019.
Solheim, R. Og Matre, S. (2014). Lærarsamtalar om elevtekstar: Mot eit felles fagspråk om skriving og vurdering.
Steffensen, K., og Ziade, S.E. (2009): Skoleresultater 2008. En kartlegging av karakterer fra grunnskoler og videregående skoler i Norge. Rapporter 2009/23, Statistisk sentralbyrå.
Stobart, G. (2009). Determining validity in national curriculum assessments. Educational Research, 51(2), 161–179.
Tobias, S. (1985). Test anxiety: Interference, defective skills, and cognitive capacity. Educational Psychologist, 20, 135–142.
Tveit, S. (2007). Elevvurdering i Kunnskapsløftet. I: H. Hølleland (red.). På vei mot Kunnskapsløftet. Oslo: Cappelen akademiske forlag.
Tveit, S. (2018). (Trans)national Trends and Cultures of Educational Assessment: Reception and Resistance of National Testing in Norway and Sweden during the Twentieth Century. I "Assessment Cultures", edited by Cristina Alarcon and Martin Lawn. Book series Studia Educationis Historica. Berlin: Peter Lang.
Tveit, S., og Olsen, R.V. (2018). Eksamens mange roller i sertifisering, styring og støtte av læring og undervisning i norsk grunnopplæring. Acta Didactica Norge, 12(4).
Universitets- og Høgskolerådet (2011). En helhetlig tilnærming til lærerutdanning: Rapport fra en arbeidsgruppe nedsatt av Nasjonalt råd for lærerutdanning. Oslo: UHR.
Universitets- og Høgskolerådet – Lærerutdanning (UHL-LU) (2017). Felleskapittel – Nasjonale Retningslinjer for Lærarutdanningane. Hentet 12.02.2019 fra: https://www.uhr.no/_f/p1/i4fbd09e0-6a5f-4a13-9e89-3971c57cfa5d/fellestekst-for-retningslinjene-for-alle-typer-av-larerutdanning.pdf
Utdanningsdirektoratet (2009). Utdanningsspeilet 2008. Hentet 06.02.2019 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/Utdanningsspeilet-2008-ei-analyse-av-grunnopplaringa-2009/
Utdanningsdirektoratet (2013). Utdanningsspeilet 2013. Hentet 06.02.2019 fra: https://www.udir.no/globalassets/filer/tall-og-forskning/rapporter/utdanningsspeilet_2013/us2013.pdf
Utdanningsdirektoratet (2015). Rapport om utviklingen i klager på standpunktkarakterer fra 2010 til 2015. Oslo.
Utdanningsdirektoratet (2016). Erfaringer og vurderinger av eksamen våren 2012 og 2013. Oslo. Hentet 14.11.2018. Hentet 06.02.2019 fra: https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/Erfaringer-og-vurderinger-av-eksamen-varen-2012-og-2013/
Utdanningsdirektoratet (2017). Utdanningsspeilet (2017). fra: https://www.udir.no/globalassets/filer/tall-og-forskning/forskningsrapporter/utdanningsspeilet_2017.pdf
Utdanningsdirektoratet (2018). Utdanningsspeilet 2018. Hentet 16.12.2018. https://www.udir.no/tall-og-forskning/finn-forskning/tema/utdanningsspeilet/
Utdanningsdirektoratet (2018a). Rammeverk for lærerens profesjonsfaglige digitale kompetanse (PfDK). Oslo. Hentet 29.11.2018. Hentet 06.02.2019 fra: https://www.udir.no/kvalitet-og-kompetanse/digitalisering/rammeverk-larerens-profesjonsfaglige-digitale-komp/
Utdanningsdirektoratet (2018b). Trekkordning ved eksamen for grunnskolen og videregående opplæring Udir-2-2018. Hentet 17.12.2018 fra: https://www.udir.no/regelverkstolkninger/opplaring/eksamen/trekkordning-ved-eksamen-for-grunnskole-og-videregaende-opplaring-udir-2-2018/
Utdanningsdirektoratet (2018c). Rammeverk for eksamen. Hentet 16.12.2018 fra: https://www.udir.no/eksamen-og-prover/eksamen/rammeverk-eksamen/5.-analyse-av-eksamen-og-bruk-av-resultatene/
Utdanningsdirektoratet (2018d). Eksamensundersøkelse engelsk 10. trinn. Utdanningsdirektoratet, 31.5.2018.
Utdanningsdirektoratet (2019). Sluttrapport vurdering for læring. https://www.udir.no/tall-og-forskning/finn-forskning/rapporter/erfaringer-fra-nasjonal-satsing-pa-vurdering-for-laring-2010-2018/
Utdanningsdirektoratet (2018f). Retningslinjer for læreplanutvikling. (Upublisert).
Utdannings- og forskningsdepartementet (2004). Kultur for læring. (St.meld. nr. 30 (2003–2004)).
van de Watering, G., Gijbels, D., Dochy, F., og van der Rijt, J. (2008). Students' assessment preferences, perceptions of assessment and their relationships to study results. High Educ, 56, 645–658.
van der Vleuten, C., og Schuwirth, L.W.T (2005). Assessing professional competence: from methods to programmes. Medical Education (39), 309–317.
Waagene, E., Larsen, E., Vaagland, K., og Federici, R.A. (2018). Spørsmål til Skole-Norge høsten 2017: Analyser og resultater fra Utdanningsdirektoratets spørreundersøkelse til skoler og skoleeiere. NIFU.
Wass, V., Van der Vleuten, C., Shatzer, J., og Jones, R. (2001). Assessment of clinical competence. The Lancet (357), 945–949.
Wiliam, D. (1996). National Curriculum Assessments and Programmes of Study: validity and impact. British Educational Research Journal, 22(1), 129–141.
Wilson, M. (2005). Constructing Measures: An Item Response Modeling Approach, Volume 2. Lawrence Erlbaum Associates.
Wollscheid, S., Hjetland, H.N., Rogde, K., og Skjelbred, S.V. (2018): Årsaker til og tiltak mot kjønnsforskjeller i skoleprestasjoner. En kunnskapsoversikt. NIFU 2018:25.