071S Lesing av statistikk

19 mar, 2017

ID: 071S_Lesing av statistikk
Versjon: 1
Utarbeidet av: Morten Røe, 12. oktober 2012
Godkjent av: Klassifiseringsutvalget
Gyldig fra: 05. oktober 2012

1. Hensikt
Beskrive sentrale statistiske begreper som brukes i forbindelse med klassifisering. Statistikk er et verktøy for å beskrive kvaliteten og å hindre at vesentlig avvik fra normene på klassifiseringsarbeidet.

2. Omfang
Gjelder alle slakteriene i klassifiseringsordningen. Gjelder alle godkjente klassifisører. Alle aktørene plikter å sette seg inn i og forstå statistiske begreper som har betydning for kvaliteten på klassifiseringsarbeidet.

3. Ansvar og Myndighet
Slakteriene i klassifiseringsordningen har ansvaret for å sette seg inn i relevante statistikker som har betydning for driften av klassifiseringssystemet.

4. Beskrivelse

4.1 Matematiske og statistiske begreper

Variabel: (På latin: variablilis); foranderlig, vekslende eller ustadig. En variabel er et navn på en egenskap, et symbol eller en bokstavbetegnelse som representerer et vilkårlig tall eller et element i en mengde. Elementene i denne mengden kalles verdiene til variabelen. En konstant representerer, i motsetning til en variabel, er bestemt størrelse.

I en likning er x en fri variabel i mengden av alle reelle tall. Til hvert valg av x svarer da ifølge likningen en bestemt verdi av y. Man kaller y for en avhengig variabel. X er den uavhengige variabelen.

Variabler kan anta både heltall- og desimalverdier. Variabler som observeres som heltall kalles også for gruppevariabler.

Parameter: Med en parameter i et matematisk uttrykk mener man et symbol, en bokstavstørrelse, som kan gis flere verdier, men som hver gang en slik verdi er valgt, oppfattes som en KONSTANT. Brukes spesielt i forbindelse med utvikling av likninger, hvor stigningstallene/ vekttallene (b verdiene) i likningene kalles for parametere.

Eksempler på parametere er vekttall i likninger, såkalte b-verdier. Y=A +b1*X1 +b2*X2 + ...... + bz*Xz

Koeffisient: Den beregnede verdien til en parameter.

Observasjon: En registrering av verdien til en variabel, kalles for en observasjon. Et synonym til observasjon er registrering og utfall.

Tilfeldig utvalg: På en uavhengig måte å velge ut neste observasjon. Ikke på forhånd har bestemt seg for hvilke observasjoner en ønsker å gjøre.

Sannsynlighet: Måleverdi for et utfall eller en hendelse. Sannsynligheten, bokstavkode p, oppgis normalt som en verdi fra og med 0 (null) til og med 1. Kan også oppgis i prosent.

Hvis p=0 så er det helt umulig å forutsi neste utfall (helt tilfeldig). Hvis p=1 er utfallet gitt på forhånd.

Hendelser vi ikke kan forutsi, som for eksempel terningkast, kalles tilfeldige forsøk. Hvor mange utfall kan et terningkast ha? En terning har øyne, fra en til seks, det betyr at utfallet vil være blant disse. Vi kaller alle mulige utfall for utfallsrommet. Et enkelt utfall vil være et element i utfallsrommet: U = { 1, 2, 3, 4, 5, 6 }

Blindtest: En bedømmelsestest hvor en ikke har skriftlig/ muntlig informasjon om det som en skal bedømme før bedømmelsen skjer.

Sum: Abstrakt begrep for å beskrive en kvantitet. Summen finnes ved å summere/ legge sammen registreringene av de adskilte objekter. Et vanlig tegn for en sum er ∑.

Antall: Abstrakt begrep for å beskrive en kvantitet. Brukes ved å telle opp mengden (hvor mange) av adskilte objekter. Antall er summen av hvor mange adskilte objekter/ observasjoner/ registreringer som kan telles.

Prosent: Fra latin, av 100/ per 100. Uttrykk for relativ mengde (per 100), i motsetning til absolutt mengde (måleenhet: antall og kilo). Forholdstall som angir antall 100 deler. Skrives som oftest “%” eller forkortet “pst.”.

Gjennomsnitt: Andre ord for det samme er middeltall og forventning. Kalles også aritmetisk middeltall. Beskriver den absolutte midterste verdien i en tallrekke. Beregnes ved å summere alle aktuelle tall og dividere med antall. Middeltallet vil med stor sannsynlighet være et desimaltall, dvs. ha tall bak et komma.

Median: Et sentralitetsmål som defineres som verdien til tallet som deler et utvalg i to deler slik at hver del har like mange elementer. For et utvalg der antall observasjoner er et oddetall, er medianen den midterste verdien der utvalget er sortert i rekkefølge. For et utvalg der antall observasjoner er et partall er medianen gjennomsnittet av de to midterste verdiene.

Varians: Matematisk uttrykk for det gjennomsnittlige kvadratavviket fra middeltallet.

Variansen finner en ved å kvadrere (gange med seg selv) alle observerte verdier og deretter summere dem. Fra denne summen trekker en ifra (substraherer) kvadratet av middelverdien ganget med antall observasjoner. Til slutt deler en dette uttrykket med antall observasjoner. Dette uttrykket kalles variansen. Variansen brukes normalt for videre å beregne standardavviket. Varians er et viktig uttrykk i forbindelse med variansanalyse.

Variansanalyse: beregne hvordan variasjonen i en/ flere egenskaper påvirker utviklingen i en/ flere avhengige variabler. Finnes svært mange metoder som dette kan gjøres på.

Regresjonsanalyse: For oss den mest vanlige metode for variansanalyse. For å kunne lage en modell/ likning for sammenhengen mellom de avhengige og de uavhengige variablene, så må alle parametere i likningen beregnes (konstantleddet A og alle b-verdier).

Standard avvik: Et tall som beskriver den gjennomsnittlige variasjonen rundt middeltallet. Variasjonen vil være forskjellig avhengig av hvilken egenskap/ting/variabel som en arbeider med. Måleenheten for standard avvik er den samme som for gjennomsnittstallet.

Måten standardavviket blir beregnet på, ut fra variansen, gjør at tallet alltid er positivt.

Avvik: beskriver lengden fra observasjonen til middelverdien. Et avvik kan være både positivt og negativt, i motsetning til standardavviket.

Gjennomsnittlig avvik: Et gjennomsnittlig avvik er et middelavvik for en rekke av observasjoner av en egenskap. Den kan beregnes ved å summere alle avvik og dele på antall observasjoner.

Bruttoavvik: Summen av alle avvik hvor en ser bort fra fortegnet på avviket.

Bruttoavviksprosent: Størrelsen på bruttoavviket oppgitt i prosent (%). Finner bruttoavviksprosenten ved å dele bruttoavviket med antall observasjoner og gange dette uttrykket med 100.

Nettoavvik: Summen av alle avvik hvor en tar hensyn til fortegnet på avviket.

Nettoavviksprosent: Størrelsen på nettoavviket oppgitt i prosent (%). Finner nettoavviksprosenten ved å dele/ dividere nettoavviket med antall observasjoner og gange dette uttrykket med 100.

Korrelasjon: Et tall som beskriver samvariasjonen/koordinasjon mellom to variabler på en standardisert måte. Standardiseringen oppnås ved tilslutt i beregningen å dele samvariasjonen med produktet av standardavvikene for de to variablene. På den måten vil korrelasjonsverdien alltid variere fra og med -1 via 0 til +1. Utgangspunktet for beregning av korrelasjonen er beregning av kovariansen, som også er et uttrykk for den samme samvariasjonen, men for kovariansen blir ikke samvariasjonen standardisert.

Når korrelasjon er -1 så vil de to variablene utvikle seg systematisk i motsatte retninger, den ene mot pluss og den andre mot minus, i like stort tempo/ like lange skritt. Når korrelasjonen er +1 utvikler de to variablene seg i samme retning, pluss eller minus, i like stort tempo/ like lange skritt.

Korrelasjonen kan også oppgis i prosent, da vil variasjonen være mellom -100 og +100.

4.2 Andre begreper
Indeks: Standardisert variabel med en gitt variasjon/ variasjonsområde eller gitte intervaller. Indeksen bygger på informasjon av flere andre variabler og representerer et uttrykk for informasjonen som ligger i disse variablene. Standardiseringen skjer normalt ved å gi indeksvariabelen standard normalvariasjon, dvs. bli til en variabel med middel/ forventning lik 0 (null) og standardavvik lik 1.

Det er ikke uvanlig at indeksen har et utgangspunkt i 100 som basisverdi. Variasjonen over eller under beskriver utviklingen i egenskapen.

Klassifiseringsindeks: Beregnet uttrykk for kvaliteten på klassifiseringsarbeidet. Klassifiseringsindeksen er beregnet ved hjelp av regresjonsanalyse. Ved å bruke informasjonen i mer eller mindre korrelerte variabler kan en komme fra til en klassifiseringsindeks.

Sikkerheten i indeksutfallet er avhengig av bakgrunnsvariablene. Indeksens sikkerhet kan bestemmes gjennom variansanalyse.

Klassifiseringsindeksen har 100 som middelverdi eller norm. Normen tar utgangspunkt i landsmiddelet, ut fra foreliggende statistikk. Klassifiseringsindeksen blir på denne måten en relativ størrelse, ikke absolutt. Den tar utgangspunkt i et “flytende” landsmiddel for egenskapen.

Indeks større enn 100 angir at klassifisering må anses å være strengere enn normen.