Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling

Tor Midtbø; Arne Rossow; Brikt Sagbakken

doi:10.5617/adno.6358

Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling

Forfattere

Tor Midtbø
Arne Rossow
Brikt Sagbakken

DOI:

https://doi.org/10.5617/adno.6358

Emneord (Nøkkelord):

norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch Measurement

Sammendrag

Sensorer vurderer skriftlige tekster ulikt, og menneskelig sensur er en utfordring for prøvers reliabilitet. Dette er en utfordring som Kompetanse Norge må ta høyde for i arbeidet med å utvikle og kvalitetssikre Norskprøven for voksne innvandrere. Denne artikkelen redegjør for hvordan den statistiske modellen Many-Facets Rasch Measurement (MFRM) er brukt til å undersøke sensorkorpsets reliabilitet ved sensurering av Norskprøvens delprøve i skriftlig framstilling for desemberavviklingen 2017. MFRM-modellen gir oss informasjon om hvor streng og pålitelig hver sensor er i vurderingen av kandidatbesvarelser. Analysen viser at det er klare forskjeller i strenghet innad i sensorkorpset, og at kandidatens endelige resultat kan være påvirket av hvilke sensorer som vurderer besvarelsen. Samtidig finner vi at de fleste av de 77 sensorene sensurerer stabilt og pålitelig, som vil si at de har høy intra-sensorreliabilitet. Dette viser at sensorkorpset i stor grad oppfyller målsetningen om sensorer som uavhengige eksperter med konsekvent vurderingsadferd. Avslutningsvis diskuteres utfordringene knyttet til begrensninger ved prøvens utforming for analyse av sensorreliabilitet. I lys av diskusjonen vurderer vi MFRM sin rolle og egnethet, og peker på noen utviklingsområder.

Nøkkelord: norskprøve, skriftlig vurdering, reliabilitet, inter-sensorreliabilitet, intra-sensorreliabilitet, Many-Facet Rasch Measurement

Norwegian language test - Measuring rater reliability in the assessment of written presentation

Abstract
Raters assess written texts differently, and rater-mediated assessment is a challenge for test reliability. This is something Skills Norway has to take into consideration as test developer of the Norwegian test for adult immigrants. In this article, we demonstrate how the statistical model Many-Facets Rasch Measurement (MFRM) has been used to examine rater reliability in the written part of the test, using data from the December 2017 test. The MFRM model produces estimates on all raters in terms of severity and consistency. The results show large and significant variation in severity among the raters, and the candidates’ final results can be affected by which raters have assessed the test. Nevertheless, we find that most of the 77 raters assess consistently, showing high intra-rater reliability. This finding suggests that the raters, to a large degree, fulfil their role as independent experts with consistent rating behaviour. Finally, we discuss the challenges associated with the limitations of the test’s design, with respect to analysing rater reliability. We assess MFRM’s role and suitability, and identify possible areas of future study.

Keywords: language testing, written assessment, rater-mediated assessment, inter-rater reliability, intra-rater reliability, Many-Facet Rasch Measurement

Nedlastinger

Publisert

2018-11-27

Hvordan referere

Midtbø, T., Rossow, A., & Sagbakken, B. (2018). Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling. Acta Didactica Norge, 12(4), Art. 12, 25 sider. https://doi.org/10.5617/adno.6358

Last ned referanse

Utgave

Vol 12 Nr. 4 (2018)

Seksjon

Temaartikkel

Lisens

Innhold publisert

i tidsskriftet Acta Didactica er - dersom ikke annet er uttrykt - lisensiert gjennom Creative Commons Lisens BY-NC-ND-4.0 (https://creativecommons.org/licenses/by-nc-nd/4.0/). Dette betyr at innhold kan kopieres, distribueres og spres i hvilket som helst medium eller format, så lenge disse vilkårene er fulgt:

Kreditering: Du må oppgi korrekt kreditering og oppgi en lenke til lisensen.
Ikke-kommersiell bruk: Du kan ikke benytte materialet til kommersielle formål.
Ingen bearbeidelser: Du kan ikke distribuere bearbeidete versjoner av materialet.

NB: Creative Commons-lisensen gir deg ikke nødvendigvis alle de tillatelser som er nødvendig for din tiltenkte bruk. For eksempel kan andre rettigheter, som reklame-, personvern-, eller ideelle rettigheter, sette begrensninger på hvordan du kan bruke materialet.

Forfattere som publiserer i Acta Didactica aksepterer følgende vilkår:

Forfatter(ne) beholder opphavsretten til artikkelen og gir Acta Didactica rett til første publisering, samtidig som artikkelen blir lisensiert under Creative Commons Lisens BY-NC-ND-4.0. Denne lisensen tillater deling av artikkelen for ikke-kommersielle formål, så lenge forfatteren og første publiseringssted Acta Didactica krediteres. Lisensen tillater ikke publisering av bearbeidede versjoner av artikkelen.
Forfatteren står fritt til å publisere og distribuere arbeidet/artikkelen etter publikasjon i Acta Didactica, så lenge det henvises til tidsskriftet som første publiseringssted. Innsendte bidrag som er antatt for publikasjon eller som er til vurdering i Acta Didactica kan ikke samtidig være under vurdering for publikasjon i andre tidsskrifter, antologier, monografier eller lignende. Ved å sende inn bidrag aksepterer forfatteren at bidraget publiseres digitalt i Acta Didactica.

Måling av sensorreliabilitet ved vurdering av norskprøve i skriftlig framstilling

Forfattere

DOI:

Emneord (Nøkkelord):

Sammendrag

Nedlastinger

Publisert

Hvordan referere

Utgave

Seksjon

Lisens

Språk

etterfoelger