ID: 071S_Lesing av statistikk
Versjon: 1
Utarbeidet av: Morten Røe
Godkjent av: Klassifiseringsutvalget
Gyldig fra: 1. September 2014
1. Hensikt Beskrive sentrale statistiske begreper som brukes i forbindelse med klassifisering. Statistikk er et verktøy for å beskrive kvaliteten og å hindre at vesentlig avvik fra normene på klassifiseringsarbeidet.
2. Omfang Gjelder alle slakteriene i klassifiseringsordningen. Gjelder alle godkjente klassifisører. Alle aktørene plikter å sette seg inn i og forstå statistiske begreper som har betydning for kvaliteten på klassifiseringsarbeidet.
3. Ansvar og Myndighet Slakteriene i klassifiseringsordningen har ansvaret for å sette seg inn i relevante statistikker som har betydning for driften av klassifiseringssystemet.
4. Beskrivelse
4.1 Matematiske og statistiske begreper
Variabel: (På latin: variablilis); foranderlig, vekslende eller ustadig. En variabel er et navn på en egenskap, et symbol eller en bokstavbetegnelse som representerer et vilkårlig tall eller et element i en mengde. Elementene i denne mengden kalles verdiene til variabelen. En konstant representerer, i motsetning til en variabel, er bestemt størrelse.
I en likning er x en fri variabel i mengden av alle reelle tall. Til hvert valg av x svarer da ifølge likningen en bestemt verdi av y. Man kaller y for en avhengig variabel. X er den uavhengige variabelen.
Variabler kan anta både heltall- og desimalverdier. Variabler som observeres som heltall kalles også for gruppevariabler.
Parameter: Med en parameter i et matematisk uttrykk mener man et symbol, en bokstavstørrelse, som kan gis flere verdier, men som hver gang en slik verdi er valgt, oppfattes som en KONSTANT. Brukes spesielt i forbindelse med utvikling av likninger, hvor stigningstallene/ vekttallene (b verdiene) i likningene kalles for parametere.
Eksempler på parametere er vekttall i likninger, såkalte b-verdier.
Y=A +b1*X1 +b2*X2 + …… + bz*Xz
Koeffisient: Den beregnede verdien til en parameter.
Observasjon: En registrering av verdien til en variabel, kalles for en observasjon. Et synonym til observasjon er registrering og utfall.
Tilfeldig utvalg: På en uavhengig måte å velge ut neste observasjon. Ikke på forhånd har bestemt seg for hvilke observasjoner en ønsker å gjøre.
Sannsynlighet: Måleverdi for et utfall eller en hendelse. Sannsynligheten, bokstavkode p, oppgis normalt som en verdi fra og med 0 (null) til og med 1. Kan også oppgis i prosent.
Hvis p=0 så er det helt umulig å forutsi neste utfall (helt tilfeldig).
Hvis p=1 er utfallet gitt på forhånd.
Hendelser vi ikke kan forutsi, som for eksempel terningkast, kalles tilfeldige forsøk. Hvor mange utfall kan et terningkast ha? En terning har øyne, fra en til seks, det betyr at utfallet vil være blant disse. Vi kaller alle mulige utfall for utfallsrommet. Et enkelt utfall vil være et element i utfallsrommet: U = { 1, 2, 3, 4, 5, 6 }
Blindtest: En bedømmelsestest hvor en ikke har skriftlig/ muntlig informasjon om det som en skal bedømme før bedømmelsen skjer.
Sum: Abstrakt begrep for å beskrive en kvantitet. Summen finnes ved å summere/ legge sammen registreringene av de adskilte objekter. Et vanlig tegn for en sum er ∑.
Antall: Abstrakt begrep for å beskrive en kvantitet. Brukes ved å telle opp mengden (hvor mange) av adskilte objekter. Antall er summen av hvor mange adskilte objekter/ observasjoner/ registreringer som kan telles.
Prosent: Fra latin, av 100/ per 100. Uttrykk for relativ mengde (per 100), i motsetning til absolutt mengde (måleenhet: antall og kilo). Forholdstall som angir antall 100 deler. Skrives som oftest “%” eller forkortet “pst.”.
Gjennomsnitt: Andre ord for det samme er middeltall og forventning. Kalles også aritmetisk middeltall. Beskriver den absolutte midterste verdien i en tallrekke. Beregnes ved å summere alle aktuelle tall og dividere med antall. Middeltallet vil med stor sannsynlighet være et desimaltall, dvs. ha tall bak et komma.
Median: Et sentralitetsmål som defineres som verdien til tallet som deler et utvalg i to deler slik at hver del har like mange elementer. For et utvalg der antall observasjoner er et oddetall, er medianen den midterste verdien der utvalget er sortert i rekkefølge. For et utvalg der antall observasjoner er et partall er medianen gjennomsnittet av de to midterste verdiene.
Varians: Matematisk uttrykk for det gjennomsnittlige kvadratavviket fra middeltallet.
Variansen finner en ved å kvadrere (gange med seg selv) alle observerte verdier og deretter summere dem. Fra denne summen trekker en ifra (substraherer) kvadratet av middelverdien ganget med antall observasjoner. Til slutt deler en dette uttrykket med antall observasjoner. Dette uttrykket kalles variansen. Variansen brukes normalt for videre å beregne standardavviket. Varians er et viktig uttrykk i forbindelse med variansanalyse.
Variansanalyse: beregne hvordan variasjonen i en/ flere egenskaper påvirker utviklingen i en/ flere avhengige variabler. Finnes svært mange metoder som dette kan gjøres på.
Regresjonsanalyse: For oss den mest vanlige metode for variansanalyse. For å kunne lage en modell/ likning for sammenhengen mellom de avhengige og de uavhengige variablene, så må alle parametere i likningen beregnes (konstantleddet A og alle b-verdier).
Standard avvik: Et tall som beskriver den gjennomsnittlige variasjonen rundt middeltallet. Variasjonen vil være forskjellig avhengig av hvilken egenskap/ting/variabel som en arbeider med. Måleenheten for standard avvik er den samme som for gjennomsnittstallet.
Måten standardavviket blir beregnet på, ut fra variansen, gjør at tallet alltid er positivt.
Avvik: beskriver lengden fra observasjonen til middelverdien. Et avvik kan være både positivt og negativt, i motsetning til standardavviket.
Gjennomsnittlig avvik: Et gjennomsnittlig avvik er et middelavvik for en rekke av observasjoner av en egenskap. Den kan beregnes ved å summere alle avvik og dele på antall observasjoner.
Bruttoavvik: Summen av alle avvik hvor en ser bort fra fortegnet på avviket.
Bruttoavviksprosent: Størrelsen på bruttoavviket oppgitt i prosent (%). Finner bruttoavviksprosenten ved å dele bruttoavviket med antall observasjoner og gange dette uttrykket med 100.
Nettoavvik: Summen av alle avvik hvor en tar hensyn til fortegnet på avviket.
Nettoavviksprosent: Størrelsen på nettoavviket oppgitt i prosent (%). Finner nettoavviksprosenten ved å dele/ dividere nettoavviket med antall observasjoner og gange dette uttrykket med 100.
Korrelasjon: Et tall som beskriver samvariasjonen/koordinasjon mellom to variabler på en standardisert måte. Standardiseringen oppnås ved tilslutt i beregningen å dele samvariasjonen med produktet av standardavvikene for de to variablene. På den måten vil korrelasjonsverdien alltid variere fra og med -1 via 0 til +1. Utgangspunktet for beregning av korrelasjonen er beregning av kovariansen, som også er et uttrykk for den samme samvariasjonen, men for kovariansen blir ikke samvariasjonen standardisert.
Når korrelasjon er -1 så vil de to variablene utvikle seg systematisk i motsatte retninger, den ene mot pluss og den andre mot minus, i like stort tempo/ like lange skritt. Når korrelasjonen er +1 utvikler de to variablene seg i samme retning, pluss eller minus, i like stort tempo/ like lange skritt.
Korrelasjonen kan også oppgis i prosent, da vil variasjonen være mellom -100 og +100.
4.2 Andre begreper
Indeks: Standardisert variabel med en gitt variasjon/ variasjonsområde eller gitte intervaller. Indeksen bygger på informasjon av flere andre variabler og representerer et uttrykk for informasjonen som ligger i disse variablene. Standardiseringen skjer normalt ved å gi indeksvariabelen standard normalvariasjon, dvs. bli til en variabel med middel/ forventning lik 0 (null) og standardavvik lik 1.
Det er ikke uvanlig at indeksen har et utgangspunkt i 100 som basisverdi. Variasjonen over eller under beskriver utviklingen i egenskapen.
Klassifiseringsindeks: Beregnet uttrykk for kvaliteten på klassifiseringsarbeidet. Klassifiseringsindeksen er beregnet ved hjelp av regresjonsanalyse. Ved å bruke informasjonen i mer eller mindre korrelerte variabler kan en komme fra til en klassifiseringsindeks.
Sikkerheten i indeksutfallet er avhengig av bakgrunnsvariablene. Indeksens sikkerhet kan bestemmes gjennom variansanalyse.
Klassifiseringsindeksen har 100 som middelverdi eller norm. Normen tar utgangspunkt i landsmiddelet, ut fra foreliggende statistikk. Klassifiseringsindeksen blir på denne måten en relativ størrelse, ikke absolutt. Den tar utgangspunkt i et “flytende” landsmiddel for egenskapen.
Indeks større enn 100 angir at klassifisering må anses å være strengere enn normen.