Børne- og Undervisningsudvalget 2015-16
BUU Alm.del Bilag 119
Offentligt
1607357_0001.png
Olof Palmes Allé 38
8200 Aarhus N
Tlf.nr.: 35 87 88 89
E-mail: [email protected]
www.stil.dk
CVR-nr.: 13223459
Undersøgelse af de nationale tests reliabilitet
Sammenfatning
I efteråret 2014 blev der i alt gennemført ca. 485.000 frivillige nationale
tests. 296.000 elever deltog i de frivillige test, heraf deltog 32.600 elever i
den samme test to gange.
I alle profilområder er der en statistisk signifikant positiv sammenhæng
mellem elevdygtigheden bestemt ved første og ved andet forsøg i de
frivillige test. Specielt i afkodning og tekstforståelse i dansk læsning samt
i engelsk er der en høj korrelation mellem to gentagne test.
Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1
og forsøg 2 på 0,79.
Eleverne opnår et statistisk signifikant bedre testresultat i deres andet
forsøg i dansk læsning, matematik og engelsk.
I gennemsnit opnår eleverne 3-6 point mere i deres andet forsøg i dansk,
læsning og matematik og 2 point mere i engelsk, fysik/kemi, biologi og
geografi.
Forskellen i elevdygtigheden mellem første og andet forsøg bliver stati-
stisk signifikant større des længere tid, der går mellem de to forsøg i de
fleste profilområder i dansk læsning i 2., 4. og 6. klasse samt i matematik
i 3. og i 6. klasse.
Ændringen i elevdygtigheden mellem første og andet forsøg bliver stati-
stisk signifikant større des større usikkerheden er på den estimerede
elevdygtighed.
Der er en stærk statistisk signifikant positiv sammenhæng mellem testre-
sultaterne i de obligatoriske nationale test og elevernes karakter i folke-
26.02.2016
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
2
skolens prøve i 9. klasse. Specielt tekstforståelse i 8. klasse korrelerer højt
med folkeskolens prøve i dansk læsning.
80 procent af de elever, der samlet opnår vurderingen ’mangelfuld’ i
dansk læsning 8. klasse, får højst karakteren 4 i dansk læsning i folkesko-
lens prøve i 9. klasse. 80 procent af de elever, der samlet opnår vurderin-
gen ’rigtig god’ i dansk læsning 8. klasse, får mindst 7 i dansk læsning i
folkeskolens prøve i 9. klasse. Næsten 60 procent af de elever, der samlet
opnår vurderingen ’fremragende’ i dansk læsning 8. klasse, får mindst 10
i dansk læsning i folkeskolens prøve i 9. klasse.
Tilsvarende er der en statistisk god sammenhæng mellem de kriteriebase-
rede tilbagemeldinger i matematik i 6. klasse og folkeskolens prøve i fær-
dighedsregning i 9. klasse. Fx opnår 75 procent af de elever, der samlet
opnår vurderingen ’fremragende’ i matematik 6. klasse, mindst 10 i fær-
dighedsregning i folkeskolens prøve i 9. klasse.
Ved afholdelse af de frivillige test i efteråret 2014 fik de elever, der deltog
to gange, i gennemsnit 25 procent af de samme opgaver anden gang som
de fik første gang.
Des større forskel i den beregnede elevdygtighed mellem de to frivillige
forsøg, des mindre er sandsynligheden for at eleven får de samme opga-
ver begge gange.
Når der er taget højde for elevens dygtighed bestemt ved første forsøg,
er der generelt ingen statistisk signifikant sammenhæng mellem elevens
dygtighed i andet forsøg og graden af gentestning. Det kan således ikke
påvises, at genanvendelse af opgaver øger sandsynligheden for et bedre
testresultat.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
3
Baggrund
Skoler kan deltage i de frivillige nationale test hvert efterår. Et stigende
antal skoler vælger denne mulighed. Folkeskoler har mulighed for at lade
deres elever deltage i en given test op til to gange ud over den obligatori-
ske nationale test. Skoler, der ikke er omfattet af lov om deltagelse i de
obligatoriske test, kan lade deres elever deltage i de frivillige test op til tre
gange.
Nogle skoler lader eleverne deltage i den samme frivillige test med få
dages eller få ugers mellemrum. Dette giver mulighed for at undersøge, i
hvilken udstrækning eleverne opnår samme testresultat i to på hinanden
følgende test.
Dette notat belyser testenes reliabilitet ved at se på testresultaterne for de
elever, der deltog i samme test to gange i efteråret 2014.
Endvidere undersøges, i hvilken udstrækning testresultaterne stemmer
overens med de prøveresultater, eleverne opnår i 9. klasse.
Endelig beskriver notatet omfanget af gentestning af enkelte opgaver,
dvs. hvor mange opgaver får den enkelte elev i test nummer to, som
eleven også fik i test nummer et.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0004.png
4
Deltagelse i de frivillige nationale test efteråret 2014
Tabel 1. Antallet af afholdte frivillige nationale tests efteråret 2014
Heraf antal
elever med
to test
6.057
4.421
5.134
2.558
7.590
5.440
2.424
1.169
761
1.028
49
24
32.566
Test
Dansk/læsning 2. klasse
Dansk/læsning 4. klasse
Dansk/læsning 6. klasse
Dansk/læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Biologi 8. klasse
Geografi 8. klasse
Dansk som andetsprog 5.
Dansk som andetsprog 7.
I alt
Antal test
62.765
64.327
61.126
42.220
61.027
58.642
41.564
29.264
29.304
31.032
2.415
1.839
485.525
Antal elever
56.708
59.891
55.964
39.610
53.427
53.179
39.103
28.056
28.522
29.964
2.366
1.815
295.744
I efteråret 2014 blev der gennemført godt 485.000 frivillige nationale
tests. I alt deltog næsten 296.000 elever i de frivillige test, heraf deltog
32.566 (11 procent) elever i den samme test to gange. 1.514 institutioner
deltog i de frivillige test, hvoraf 723 institutioner anvendte gentestning i
mindst ét fag.
I gennemsnit gik der 22 dage (range: 0-53 dage) mellem første og anden
test.
Der er relativt få elever, der tager testen i dansk som andetsprog mere
end én gang, hvorfor denne test ikke behandles yderligere i dette notat.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0005.png
5
Forskellen i elevdygtigheden mellem to gentagne frivilli-
ge test
Eleverne opnår et statistisk signifikant bedre testresultat i deres andet
forsøg i dansk læsning, matematik og engelsk.
Tabel 2. Forskel mellem forsøg 1 og forsøg 2 i elevdygtigheden
Test
Dansk/læsning
2. klasse
Dansk/læsning
4. klasse
Dansk/læsning
6. klasse
Dansk/læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
Biologi
8. klasse
Geografi
8. klasse
*
Profil-
område
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Antal
elever
6.057
6.057
6.057
4.421
4.421
4.421
5.134
5.134
5.134
2.558
2.558
2.558
7.590
7.590
7.590
5.440
5.440
5.440
2.424
2.424
2.424
1.169
1.169
1.169
761
761
761
1.028
1.028
1.028
Gennemsnit
(logit skala)
0,17
*
0,30
*
0,27
*
0,15
*
0,22
*
0,18
*
0,18
*
0,30
*
0,12
*
0,23
*
0,27
*
0,07
*
0,16
*
0,18
*
0,21
*
0,16
*
0,13
*
0,16
*
0,06
*
0,14
*
0,14
*
0,04
0,04
0,04
0,08
*
0,01
0,03
0,08
*
0,04
0,03
SD
(logit skala)
0,99
1,12
1,16
0,92
0,87
0,85
0,93
0,83
0,81
0,98
1,07
0,75
0,88
0,89
1,02
0,89
0,80
0,90
0,64
0,86
0,72
0,71
0,69
0,71
0,72
0,65
0,67
0,65
0,68
0,70
Gennemsnit
(percentil skala)
5
5
4
4
5
4
5
6
3
5
6
1
4
6
5
5
5
5
1
3
3
1
2
1
3
1
2
3
2
1
Statistisk signifikant forskellig fra 0
I gennemsnit opnår eleverne 3-6 point mere i deres andet forsøg i dansk,
læsning og matematik og 2 point mere i engelsk, fysik/kemi, biologi og
geografi (tabel 2).
Forskellen i elevdygtigheden mellem første og andet forsøg bliver stati-
stisk signifikant større des længere tid, der går mellem de to forsøg, for
dansk læsning i 2. klasse i alle tre profilområder, for dansk læsning i 4.
klasse for to af profilområderne, for dansk læsning i 6. klasse i ét profil-
område og for matematik i 3. og i 6. klasse i to af profilområderne (tabel
3).
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0006.png
6
Tabel 3. Forskel mellem forsøg 1 og forsøg 2 i elevdygtigheden målt på percentil
skalaen i forhold til tiden mellem de to forsøg
Profil-
område
1
*
2
*
3
*
1
2
*
3
*
1
2
*
3
1
2
3
1
*
2
3
*
1
*
2
3
*
1
2
3
1
2
3
1
2
3
1
2
3
Højst 1 uge
Antal
elever
Gns.
1.345
2
1.345
2
1.345
2
637
1
637
3
637
2
1.132
3
1.132
5
1.132
2
433
6
433
6
433
-2
1.654
3
1.654
6
1.654
4
876
1
876
2
876
0
400
-1
400
2
400
2
344
-0
344
-1
344
-2
95
3
95
3
95
3
138
3
138
-1
138
-0
1 til 2 uger
Antal
elever Gns.
1.275
4
1.275
4
1.275
3
840
3
840
5
840
3
730
5
730
6
730
3
571
6
571
7
571
2
1.313
5
1.313
6
1.313
5
832
5
832
5
832
4
346
2
346
3
346
3
362
2
362
4
362
4
200
2
200
0
200
-1
145
1
145
1
145
-2
2-3 uger
Antal
elever Gns.
1.086
6
1.086
5
1.086
5
852
5
852
4
852
5
801
5
801
7
801
4
272
4
272
8
272
6
1.277
3
1.277
5
1.277
3
1.058
6
1.058
6
1.058
6
363
2
363
2
363
3
119
1
119
8
119
4
52
14
52
-1
52
3
293
4
293
5
293
4
3+ uger
Antal
elever Gns.
2.351
6
2.351
6
2.351
6
2.092
4
2.092
5
2.092
5
2.471
5
2.471
7
2.471
3
1.282
5
1.282
6
1.282
1
3.346
6
3.346
6
3.346
6
2.674
6
2.674
5
2.674
6
1.315
2
1.315
3
1.315
3
344
2
344
2
344
2
414
3
414
1
414
2
452
4
452
1
452
1
Test
Dansk/læsning
2. klasse
Dansk/læsning
4. klasse
Dansk/læsning
6. klasse
Dansk/læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
Biologi
8. klasse
Geografi
8. klasse
*
Statistisk signifikant udvikling over tid. Den statistiske analyse er foretaget på logit skalaen
Forskellen i elevdygtigheden mellem første og andet forsøg bliver stati-
stisk signifikant større des større usikkerheden, SEM, er på den estime-
rede elevdygtighed. Specielt giver en stor usikkerhed på elevdygtigheden i
forsøg 2 en større forskel i elevdygtighederne mellem de to forsøg.
Hvis usikkerheden kommer under 0,40 i begge forsøg, da vil 50 procent
af eleverne højst opleve udsving på ± 10 point omkring den observerede
gennemsnitlige forskel mellem forsøg 1 og 2 i dansk og matematik i
samtlige profilområder.
Tilsvarende afhænger forskellen i elevdygtigheden mellem første og an-
det forsøg statistisk signifikant af det antal opgaver, der løses. Des flere
opgaver eleven når at besvare, des mindre forskel i elevdygtigheden mel-
lem de to forsøg.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0007.png
7
Endelig afhænger forskellen i elevdygtigheden mellem første og andet
forsøg statistisk signifikant af forskellen i det antal opgaver, der løses i de
to forsøg. Des større forskel, der er i det antal opgaver eleven når at be-
svare i de to forsøg, des større forskel i elevdygtigheden mellem de to
forsøg
Tabel 4. Forskel mellem første og andet forsøg i elevdygtigheden
målt på fem-trins skalaen. Andel elever (%)
Test
Dansk/læsning
2. klasse
Profil-
område
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
Antal
elever
6.057
6.057
6.057
6.057
4.421
4.421
4.421
4.421
5.134
5.134
5.134
5.134
2.558
2.558
2.558
2.558
7.590
7.590
7.590
7.590
5.440
5.440
5.440
5.440
2.424
2.424
2.424
2.424
1.169
1.169
1.169
1.169
761
761
761
761
1.028
1.028
1.028
1.028
Falder
mere
6
2
2
1
5
2
3
1
5
1
4
0
6
3
4
0
5
7
4
1
6
7
6
1
2
4
1
0
12
11
13
3
9
11
9
2
8
9
9
1
Falder
1 trin
17
13
14
12
18
14
16
12
19
12
17
12
16
14
18
13
18
17
17
14
19
18
19
15
21
17
15
12
19
20
20
20
21
22
20
22
18
20
23
21
Ingen
ændring
42
56
53
58
43
52
50
61
42
53
48
60
45
48
48
59
41
39
44
52
39
37
39
52
49
51
56
68
34
33
30
47
35
33
37
50
38
36
33
52
Stiger 1
trin
26
26
26
26
27
27
26
25
25
30
24
26
23
28
25
26
26
27
26
28
26
25
26
29
24
25
26
20
23
22
23
26
20
22
23
22
26
25
25
24
Stiger
mere
9
4
5
2
7
5
5
2
10
4
7
2
11
8
4
2
10
12
8
4
11
12
10
3
4
5
2
0
13
14
14
4
16
11
11
4
10
10
10
2
Dansk/læsning
4. klasse
Dansk/læsning
6. klasse
Dansk/læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
Biologi
8. klasse
Geografi
8. klasse
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0008.png
8
I dansk læsning er der højst 3 procent af testforløbene, hvor eleven ople-
ver en ændring på mere end et trin på fem-trins skalaen i den samlede
vurdering (tabel 4). I profilområde1, sprogforståelse, er der ca. 15 pro-
cent af testforløbene, hvor der sker en ændring på mere end et trin på
fem-trins skalaen.
I matematik er der højst 5 procent af testforløbene, hvor eleven oplever
en ændring på mere end et trin på fem-trins skalaen i den samlede vurde-
ring. I profilområde2, geometri, er der ca. 19 procent af testforløbene,
hvor der sker en ændring på mere end et trin på fem-trins skalaen.
For hver elev beregnes en standardiseret forskel, U, på den estimerede
elevdygtighed
����
1
− ����
2
���� =
2
2
√(������������
1
+ ������������
2
)
Her er
D
1
og
D
2
lig den estimerede elevdygtighed til første og andet for-
søg, mens SEM
1
og SEM
2
er de tilhørende estimerede usikkerheder. Ju-
steres endvidere med den gennemsnitlige niveauforskel fra første til an-
det forsøg, da vil U følge en standard normalfordeling. I denne fordeling
forventes 95 % af elevernes resultater at ligge mellem -1,96 og +1,96
mens 5 % af elevernes resultater forventes at ligge udenfor ±1,96.
Tabel 5 Andelen af elever, hvor forskellen i elevdygtigheden i før-
ste og andet forsøg ligger uden for 95 % sikkerhedsinterval
Test
Dansk/læsning 2. klasse
Dansk/læsning 4. klasse
Dansk/læsning 6. klasse
Dansk/læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Biologi 8. klasse
Geografi 8. klasse
Antal
elever
6.057
4.421
5.134
2.558
7.590
5.440
2.424
1.169
761
1.028
Profil-
område 1
16 %
13 %
11 %
14 %
12 %
13 %
5%
8%
8%
7%
Profil-
område 2
20 %
11 %
8%
14 %
11 %
9%
12 %
6%
5%
7%
Profil-
område 3
24 %
12 %
11 %
8%
14 %
12 %
9%
9%
6%
8%
I alt ligger 12 procent af forskellene mellem elevdygtighederne i forsøg 1
og forsøg 2 udenfor det forventede, hvilket er lidt mere end de 5 pro-
cent, der forventes i en normalfordeling (tabel 5). Spredningen i elever-
nes resultater mellem første og andet forsøg er således lidt større end,
der forventes, og større end usikkerheden (SEM) på elevdygtighederne
kan forklare. Specielt i dansk læsning i 2. klasse er der en større variation
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
9
mellem elevernes resultater i første og andet forsøg end, der umiddelbart
kan forklares ved usikkerheden i estimeringen af elevdygtighederne.
I engelsk og i de tre naturfag er der generelt en tilfredsstillende overens-
stemmelse mellem den estimerede elevdygtighed i første og andet forsøg.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0010.png
10
Sammenhæng mellem to gentagne test
Sammenhængen mellem elevernes to forsøg i de frivillige tests udtrykt
ved korrelationskoefficienten ses af tabel 6. Denne korrelation kaldes
også i nogle sammenhænge for ’test-retest-reliability coefficient’ eller
’coefficient of stability’. Korrelationskoefficienten udtrykker graden af
sammenhæng mellem to målinger og ligger mellem ÷1 og +1.
Tabel 6 Sammenhængen mellem forsøg 1 og forsøg 2 i elevdygtig-
heden målt på logit skalaen. Pearson korrelationen
Test
Dansk/læsning 2. klasse
Dansk/læsning 4. klasse
Dansk/læsning 6. klasse
Dansk/læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Biologi 8. klasse
Geografi 8. klasse
*
Antal
elever
6.057
4.421
5.134
2.558
7.590
5.440
2.424
1.169
761
1.028
Profil-
område 1
0,57
*
0,63
*
0,56
*
0,66
*
0,60
*
0,61
*
0,76
*
0,45
*
0,41
*
0,47
*
Profil-
område 2
0,80
*
0,78
*
0,81
*
0,74
*
0,56
*
0,56
*
0,77
*
0,41
*
0,49
*
0,47
*
Profil-
område 3
0,75
*
0,75
*
0,73
*
0,74
*
0,66
*
0,60
*
0,80
*
0,39
*
0,50
*
0,45
*
Statistisk signifikant forskellig fra 0
I alle profilområder er der en statistisk signifikant positiv sammenhæng
mellem elevdygtigheden bestemt ved første og ved andet frivillig test
forsøg.
En korrelationskoefficient på 0,70 eller derover anses ofte som tilfreds-
stillende i forbindelse med måling af reliabiliteten1. Disse er markeret
med
fed
i tabel 6. Det drejer sig om afkodning (profilområde 2) og tekst-
forståelse (profilområde 3) i dansk læsning samt om alle tre profilområ-
der i engelsk. En korrelationskoefficient under 0,60 anses som regel som
utilfredsstillende. Hertil skal det dog bemærkes, at en korrelationskoeffi-
cient også afhænger af variationen i resultaterne mellem eleverne. Hvis
variationen mellem eleverne er lille, vil korrelationen være svag uanset at
elevernes testresultater i de to forsøg afspejler samme dygtighed. Variati-
onen mellem elevernes resultater er relativ lille i geometri (profilområde
2 i matematik) samt i de tre naturfag i 8. klasse.
Generel guideline til vurdering af reliabilitet: ’0,0-0,5’=uacceptabel;
’0,5-0,6’=dårlig; ’0,6-0,7’=tvivlsom; ’0,7-0,8’=acceptabel; ’0,8-0,9’=god;
’0,9-1,0’=fremragende
1
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0011.png
11
Korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2
er totalt set på 0,79.
I figur 1 – figur 5 ses sammenhængen i elevdygtigheden udtrykt på logit
skalaen mellem elevernes to forsøg i de frivillige test.
Figur 1.
Sammenhængen mellem elevdygtigheden beregnet i første test
(x-aksen) og anden test (y-aksen). Dansk læsning 2. og 4. klasse
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0012.png
12
Figur 2.
Sammenhængen mellem elevdygtigheden beregnet i første test
(x-aksen) og anden test (y-aksen). Dansk læsning 6. og 8. klasse
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0013.png
13
Figur 3.
Sammenhængen mellem elevdygtigheden beregnet i første test
(x-aksen) og anden test (y-aksen). Matematik 3. og 6. klasse
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0014.png
14
Figur 4.
Sammenhængen mellem elevdygtigheden beregnet i første test
(x-aksen) og anden test (y-aksen). Engelsk og fysik/kemi
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0015.png
15
Figur 5.
Sammenhængen mellem elevdygtigheden beregnet i første test
(x-aksen) og anden test (y-aksen). Biologi og geografi
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0016.png
16
Sammenhæng mellem elevernes resultater i de obligato-
riske nationale test og folkeskolens prøver
Sammenhængen mellem elevernes karakterer i folkeskolens 9.-
klasseprøver fra sommeren 2015 sammenlignes med elevernes testresul-
tater i de nationale test. Det er kun elever med både en prøvekarakter og
et testresultat, der indgår i analysen.
Dansk læsning
Elevernes karakter i dansk læsning i folkeskolens prøve i 9. klasse fra
sommeren 2015 sammenholdes med elevernes testresultater i de obliga-
toriske nationale test i dansk læsning i 8. klasse fra foråret 2014.
Tabel 7 Sammenhængen mellem folkeskolens prøve i dansk læs-
ning og testresultatet i dansk læsning i de obligatoriske na-
tionale test på logit skalaen. Spearman korrelationen
Test
Dansk/læsning 8. klasse
*
Antal
elever
48.382
Sprogfor-
ståelse
0,44
*
Afkod-
ning
0,53
*
Tekstfor-
ståelse
0,62
*
Statistisk signifikant forskellig fra 0
Der er en statistisk signifikant positiv sammenhæng mellem testresulta-
terne i de obligatoriske nationale test i 8. klasse dansk læsning og elever-
nes karakter i folkeskolens prøve i dansk læsning året efter i 9. klasse.
Specielt tekstforståelse korrelerer højt med folkeskolens prøve.
Af tabel 8 ses, at 86 procent af de elever, der ligger på ’Mangelfuld’ i
tekstforståelse, har fået karakteren 4 eller derunder i folkeskolens prøve i
dansk læsning året efter, mens 81 procent af de elever, der ligger på
’Jævn’ i tekstforståelse, har fået karakteren 4 eller 7 i folkeskolens prøve i
dansk læsning året efter. 72 procent af de elever, der ligger på ’Fremra-
gende’ i tekstforståelse, har mindst fået karakteren 10 året efter.
Sammenhængen mellem den samlede vurdering i dansk læsning i 8. klas-
se i de obligatoriske nationale test og folkeskolens prøve i dansk læsning i
9. klasse ses i figur 6. 68 procent af de elever, der opnår en ikke tilstræk-
kelig præstation i de nationale test, får året efter højst karakteren 2 i fol-
keskolens prøve i dansk læsning. 84 procent af de elever, der opnår en
god præstation i de nationale test, får året efter karakteren 4 eller 7 i fol-
keskolens prøve i dansk læsning. 56 procent af de elever, der opnår en
fremragende præstation i de nationale test, får året efter mindst karakte-
ren 10 i folkeskolens prøve i dansk læsning.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0017.png
17
Tabel 8 Fordelingen på karakteren fra folkeskolens prøve i dansk læsning
efter elevernes testresultat i de obligatoriske nationale test i dansk
læsning 8. klasse udtrykt på den kriteriebaserede skala. Andel ele-
ver (%)
Profil-
område
Sprog
forståelse
Testresultat
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Afkodning Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Tekst
Ikke tilstrækkelig
forståelse Mangelfuld
Jævn
God
Rigtig god
Fremragende
Samlet
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
-3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
25
7
3
1
1
1
26
11
4
1
25
10
3
1
0
0
33
13
4
1
0
0
Karakter
2
4
7
32 38
5
18 56 18
9 46 36
4 30 43
2 20 37
3 27 40
28 38
7
22 50 15
15 53 24
4 29 40
29
23
12
5
1
0
35
26
15
5
1
1
38
53
54
38
16
3
28
51
56
41
19
10
6
13
27
44
44
24
4
9
23
43
44
32
10
0
1
6
16
22
16
1
2
3
16
0
1
3
10
25
29
0
1
2
9
23
25
12
0
0
1
7
19
13
0
0
1
10
0
0
0
3
14
43
0
0
0
2
12
31
I alt
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
Figur 6 De nationale test i dansk læsning 8. klasse og folkeskolens
prøve i dansk læsning 9. klasse
100
90
80
70
60
50
40
30
20
10
0
79
68
60
39
19
0
1
2
6
11
1
1
84
63
35
56
42
<=2
4-7
>=10
Procent
32
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0018.png
18
Matematik
Elevernes karakter i matematiske færdigheder i folkeskolens prøve i 9.
klasse fra sommeren 2015 sammenholdes med elevernes testresultater i
de obligatoriske nationale test i matematik i 6. klasse fra foråret 2012.
Tabel 9 Sammenhængen mellem folkeskolens prøve i matematiske
færdigheder og testresultatet i matematik i de obligatori-
ske nationale test på logit skalaen. Spearman korrelatio-
nen
Test
Matematik 6. klasse
*
Antal
elever
52.345
Tal og
algebra
0,41
*
Geometri
0,50
*
Matematik i
anvendelse
0,51
*
Statistisk signifikant forskellig fra 0
Der er en statistisk signifikant positiv sammenhæng mellem testresulta-
terne i de obligatoriske nationale test i 6. klasse matematik og elevernes
karakter i folkeskolens prøve i matematiske færdigheder tre år efter i 9.
klasse. Korrelationen er ikke så stor som for dansk læsning, men i mate-
matik er der også 3 år mellem de obligatoriske nationale test og folkesko-
lens prøve.
Af tabel 10 ses, at 63 procent af de elever, der ligger på ’Jævn’ i tal og
algebra, har fået karakteren 4 eller 7 i folkeskolens prøve i matematiske
færdigheder tre år efter, mens 84 procent af de elever, der ligger på
’Fremragende’ i tal og algebra, har fået karakteren 7 eller derover i folke-
skolens prøve i matematik tre år efter.
Sammenhængen mellem den samlede vurdering i matematik i 6. klasse i
de obligatoriske nationale test og folkeskolens prøve i færdighedsregning
i 9. klasse ses i figur 7. 55 procent af de elever, der opnår en ikke til-
strækkelig præstation i de nationale test får tre år efter højst karakteren 2
i folkeskolens prøve i færdighedsregning. 58 procent af de elever, der
opnår en rigtig god præstation og 75 procent af de elever, der opnår en
fremragende præstation i de nationale test, får tre år efter mindst karakte-
ren 10 i folkeskolens prøve i færdighedsregning.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0019.png
19
Tabel 10 Fordelingen på karakteren fra folkeskolens prøve i matematiske
færdigheder efter elevernes testresultat i de obligatoriske nationa-
le test i matematik 6. klasse udtrykt på den kriteriebaserede skala.
Andel elever (%)
Profil-
område
Tal og
algebra
Testresultat
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
Ikke tilstrækkelig
Mangelfuld
Jævn
God
Rigtig god
Fremragende
-3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
15
5
2
1
0
0
13
6
2
0
1
0
14
5
2
1
0
0
18
7
2
1
0
0
Karakter
2
4
7
10 12
33 31 16
4
1
23 35 26
9
2
12 29 34 17
6
7 20 34 26 12
3 12 28 32 24
4 12 27 28 29
36 31 15
4
1
24 36 26
7
2
13 31 34 17
4
4 15 32 30 19
. 13 34 30 21
12
9 18 35 26
33 33 15
5
0
24 37 26
7
1
15 31 33 15
3
7 23 37 23
9
2
9 29 35 24
0
3 13 35 49
37 30 12
3
0
28 38 21
5
1
15 34 33 13
3
7 23 37 24
8
2 10 30 35 23
1
5 18 33 42
I alt
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
Geometri
Matematik
i anven-
delse
Samlet
Figur 7 De nationale test i matematik 6. klasse og folkeskolens
prøve i færdighedsregning i 9. klasse
100
90
80
70
60
50
40
30
20
10
0
Procent
55
42
59
35
67
75
60
32
58
40
24
2
1
<=2
4-7
>=10
17 16
3
6
8
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0020.png
20
Engelsk
Elevernes karakter i mundtlig engelsk i folkeskolens prøve i 9. klasse fra
sommeren 2015 sammenholdes med elevernes testresultater i de obliga-
toriske nationale test i engelsk i 7. klasse fra foråret 2013.
Tabel 11 Sammenhængen mellem folkeskolens prøve i mundtlig
engelsk og testresultatet i engelsk i de obligatoriske natio-
nale test på logit skalaen. Spearman korrelationen
Test
Engelsk 7. klasse
*
Antal
elever
47.553
Læsning
0,60
*
Ordfor-
råd
0,60
*
Sprog og
sprogbrug
0,63
*
Statistisk signifikant forskellig fra 0
Der er en statistisk signifikant positiv sammenhæng mellem testresulta-
terne i de obligatoriske nationale test i engelsk 7. klasse og elevernes ka-
rakter i folkeskolens prøve i mundtlig engelsk to år efter i 9. klasse.
Fysik/kemi, biologi og geografi
Elevernes karakter i fysik/kemi, biologi og geografi i folkeskolens prøve i
9. klasse fra sommeren 2015 sammenholdes med elevernes testresultater
i de obligatoriske nationale test i 8. klasse fra foråret 2014.
Tabel 12 Sammenhængen mellem folkeskolens prøve i fysik/kemi,
biologi og geografi og testresultatet i de obligatoriske na-
tionale test på logit skalaen. Spearman korrelationen
Test
Fysik/kemi 8. klasse
Biologi
**
Geografi
**
*
Antal
elever
46.522
12.164
11.991
Profilom-
råde 1
0,40
*
0,54
*
0,51
*
Profilom-
råde 2
0,38
*
0,57
*
0,50
*
Profilområ-
de 3
0,38
*
0,57
*
0,55
*
Statistisk signifikant forskellig fra 0.
**
Prøvefag til udtræk
Der er en statistisk signifikant positiv sammenhæng mellem testresulta-
terne i de obligatoriske nationale test i de tre naturfag og elevernes karak-
ter i folkeskolens prøve året efter i 9. klasse.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0021.png
21
Genanvendelse af testopgaver
Eleverne kan ikke få den samme opgave flere gange i ét og samme test-
forløb. Derimod kan eleverne godt blive præsenteret for nogle af de
samme opgaver igen, hvis eleven tager den samme test flere gange. Hvis
en elev tager den samme test som frivillig test to gange eller tager såvel
den frivillige test som den tilsvarende obligatoriske test, da kan eleven
anden gang godt blive præsenteret for nogle af de samme opgaver. Dette
afsnit undersøger omfanget af denne form for gentestning.
Andelen af de opgaver eleven bliver præsenteret for anden gang, som
eleven også har besvaret første gang i de frivillige test ses af tabel 13.
Ved afholdelse af de frivillige test i efteråret 2014 fik de elever, der deltog
to gange, i gennemsnit 25 procent af de samme opgaver anden gang som
de fik første gang.
Tabel 13 Andelen af de opgaver eleven får anden gang ved de fri-
villige test som eleven også fik første gang (%)
Test
Dansk/læsning
2. klasse
Dansk/læsning
4. klasse
Dansk/læsning
6. klasse
Dansk/læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
Biologi
8. klasse
Geografi
8. klasse
I alt
Profil-
område
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Samlet
Antal
elever
6.057
6.057
6.057
4.421
4.421
4.421
5.134
5.134
5.134
2.558
2.558
2.558
7.590
7.590
7.590
5.440
5.440
5.440
2.424
2.424
2.424
1.169
1.169
1.169
761
761
761
1.028
1.028
1.028
25 %
fraktil
10
8
7
6
12
7
5
30
8
10
63
13
4
6
7
0
0
4
7
5
14
0
0
6
5
6
6
8
4
7
11
Gennem-
snit
27
30
29
18
34
29
15
53
32
28
71
42
17
17
19
12
13
13
26
17
31
13
12
14
14
15
16
17
13
16
25
75 %
fraktil
41
47
47
25
53
47
20
76
53
40
90
71
25
25
27
18
19
20
41
25
41
18
18
20
20
22
23
25
19
22
35
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0022.png
22
Der er store forskelle på graden af gentestning mellem de enkelte profil-
områder. I dansk, læsning 8. klasse er gentestningsgraden på godt 50
procent, mens den kun er på 13 procent i matematik i 6. klasse. I afkod-
ning (profilområde 2 i dansk læsning) ligger graden af gentestning gene-
relt højt.
Der er generelt ingen statistisk signifikant korrelation mellem graden af
genanvendelse af opgaver og tiden mellem de to frivillige test. I de fleste
profilområder er der en svag tendens til, at graden af genanvendelse fal-
der des længere tid, der er mellem elevens to test, men der er også enkel-
te profilområder, hvor tendensen er den modsatte. Det må umiddelbart
forventes, at graden af genanvendelse falder, hvis elevens dygtighed æn-
dres, da eleven så vil få opgaver fra andre områder i opgavebanken.
Sammenhængen mellem graden af genanvendelse af opgaver og elevens
dygtighed i det andet forsøg i de frivillige test ses af tabel 14.
En positiv korrelation betyder, des dygtigere eleven er målt på logit ska-
laen des større er graden af genanvendelse af opgaver i andet forsøg i de
frivillige nationale test.
Specielt i afkodning (profilområde 2) og i tekstforståelse (profilområde 3)
i dansk læsning samt i alle tre profilområder i engelsk er der en høj posi-
tiv korrelation. Des dygtigere eleven er, des større sandsynlighed er der
for at eleven får opgaver i andet forsøg, som eleven også har haft i første
forsøg. Dette hænger sandsynligvis sammen med, at specielt disse profil-
områder mangler svære opgaver i opgavebanken.
Tabel 14 Sammenhængen mellem graden af genanvendelse af op-
gaver og elevdygtigheden målt på logit skalaen i forsøg 2.
Spearman korrelationen
Test
Dansk/læsning 2. klasse
Dansk/læsning 4. klasse
Dansk/læsning 6. klasse
Dansk/læsning 8. klasse
Matematik 3. klasse
Matematik 6. klasse
Engelsk 7. klasse
Fysik/kemi 8. klasse
Biologi 8. klasse
Geografi 8. klasse
*
Antal
elever
6.057
4.421
5.134
2.558
7.590
5.440
2.424
1.169
761
1.028
Profil-
område 1
0,07
*
-0,03
*
-0,09
*
0,05
0,21
*
0,01
0,47
*
-0,09
*
-0,17
*
-0,11
*
Profil-
område 2
0,43
*
0,57
*
0,65
*
0,52
*
0,17
*
0,07
*
0,28
*
-0,02
0,07
*
-0,03
Profil-
område 3
0,01
0,48
*
0,61
*
0,70
*
0,10
*
-0,01
*
0,37
*
0,01
0,02
-0,12
*
Statistisk signifikant forskellig fra 0
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
23
Når der er taget højde for elevens dygtighed bestemt ved første forsøg,
er der generelt ingen statistisk signifikant sammenhæng mellem elevens
dygtighed i andet forsøg og graden af gentestning.
Det kan således ikke
påvises, at gentestning øger sandsynligheden for et bedre testresultat.
Derudover er der en svag statistisk signifikant negativ sammenhæng mel-
lem graden af genanvendelse af opgaver i andet forsøg og ændringen i
elevdygtigheden fra første til andet forsøg. Des større forskel i den be-
regnede elevdygtighed mellem de to frivillige forsøg, des mindre er sand-
synligheden for at eleven får de samme opgaver begge gange. Samlet er
korrelationen dog kun på -0,02, hvilket kan skyldes, at elevernes dygtig-
hed ikke ændres markant på logit skalaen mellem de to frivillige testfor-
søg.
Eleverne opnår i gennemsnit næsten den samme score på de opgaver, de
genanvender (tabel 15). Hvis scoren i andet forsøg generelt var større
end i første forsøg, da kunne det indikere, at eleven havde lettere ved at
svare korrekt i andet forsøg. Dette er altså ikke tilfældet.
BUU, Alm.del - 2015-16 - Bilag 119: Orientering om analyse af pålideligheden i de nationale test i folkeskolen, fra ministeren for børn, undervisning og ligestilling
1607357_0024.png
24
Tabel 15 Forskel mellem scoren i forsøg 1 og forsøg 2 på de opga-
ver eleven møder begge gange
Test
Dansk/læsning
2. klasse
Profil-
område
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
1
2
3
Samlet
Antal
elever
5.532
5.499
5.182
6.027
3.666
4.086
3.838
4.404
4.118
4.929
4.511
5.130
2.354
2.515
2.317
2.558
5.786
6.171
6.456
7.479
3.905
4.061
4.099
5.302
1.986
1.878
2.424
2.424
829
837
919
1.144
575
592
625
744
886
776
842
1.009
25 %
fraktil
0
0
0
-1
0
0
0
0
0
0
0
0
0
0
-1
0
0
0
0
-1
0
0
0
0
0
0
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
-1
-1
Gennem-
snit
0
1
1
2
0
1
0
1
0
1
1
2
0
1
1
2
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
75%
fraktil
1
2
1
3
1
1
1
3
1
2
1
3
1
2
2
3
1
1
1
2
1
1
1
1
1
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
Dansk/læsning
4. klasse
Dansk/læsning
6. klasse
Dansk/læsning
8. klasse
Matematik
3. klasse
Matematik
6. klasse
Engelsk
7. klasse
Fysik/kemi
8. klasse
Biologi
8. klasse
Geografi
8. klasse