Abstrakter Uttalelser Historie

Hva er en variasjonsserie i statistikk. Distribusjons- og grupperingsserier

Variasjonell kalles distribusjonsserier konstruert på kvantitativ basis. Verdiene av kvantitative egenskaper i individuelle enheter av befolkningen er ikke konstante og skiller seg mer eller mindre fra hverandre.

Variasjon- fluktuasjon, endring av verdien av en egenskap blant enheter av befolkningen. Skille numeriske verdier kjennetegn funnet i populasjonen som studeres kalles alternativer verdier. Manglen på gjennomsnittsverdien til å karakterisere befolkningen fullt ut tvinger oss til å supplere gjennomsnittsverdiene med indikatorer som lar oss vurdere typiskheten til disse gjennomsnittene ved å måle variasjonen (variasjonen) til egenskapen som studeres.

Tilstedeværelsen av variasjon skyldes påvirkningen av et stort antall faktorer på dannelsen av egenskapens nivå. Disse faktorene virker med ulik styrke og i forskjellige retninger. Variasjonsindekser brukes til å beskrive målet for egenskapsvariabilitet.

Mål for statistisk studie av variasjon:

  • 1) studie av karakteren og graden av variasjon av egenskaper i individuelle enheter av befolkningen;
  • 2) å bestemme rollen til individuelle faktorer eller deres grupper i variasjonen av visse egenskaper ved befolkningen.

Brukes i statistikk spesielle metoder studier av variasjon basert på bruk av et system av indikatorer, Med som variasjonen måles etter.

Forskning på variasjon er viktig. Måling av variasjoner er nødvendig når man utfører prøveobservasjon, korrelasjons- og variansanalyse osv. Ermolaev O.Yu. Matematisk statistikk for psykologer: Lærebok [Tekst]/ O.Yu. Ermolaev. - M.: Flint Publishing House ved Moscow Psychological and Social Institute, 2012. - 335 s.

Ut fra graden av variasjon kan man bedømme homogeniteten til befolkningen, stabiliteten til individuelle verdier av egenskaper og typiskheten til gjennomsnittet. På grunnlag av dem utvikles indikatorer for nærhet til forholdet mellom egenskaper og indikatorer for å vurdere nøyaktigheten av prøveobservasjon.

Det skilles mellom variasjon i rom og variasjon i tid.

Variasjon i rom forstås som fluktuasjonen av attributtverdier blant befolkningsenheter som representerer individuelle territorier. Tidsvariasjon refererer til endringer i verdiene til en karakteristikk over forskjellige tidsperioder.

For å studere variasjon i distribusjonsrader, er alle varianter av attributtverdier ordnet i stigende eller synkende rekkefølge. Denne prosessen kalles serierangering.

De enkleste tegnene på variasjon er minimum og maksimum- minst og høyeste verdi tegn i aggregatet. Antallet repetisjoner av individuelle varianter av funksjonsverdier kalles repetisjonsfrekvens (fi). Det er praktisk å erstatte frekvenser med frekvenser - wi. Frekvens er en relativ indikator på frekvens, som kan uttrykkes i brøkdeler av en enhet eller prosent og lar deg sammenligne variasjonsserier med forskjellige antall observasjoner. Uttrykt med formelen:

hvor Xmax, Xmin er maksimums- og minimumsverdiene for karakteristikken i aggregatet; n - antall grupper.

For å måle variasjonen til en karakteristikk, brukes ulike absolutte og relative indikatorer. Absolutte variasjonsindikatorer inkluderer variasjonsområdet, gjennomsnittlig lineært avvik, spredning og standardavvik. Relative indikatorer for oscillasjon inkluderer oscillasjonskoeffisienten, relativ lineært avvik og variasjonskoeffisient.

Finne eksempel variantserie

Trening. For denne prøven:

  • a) Finn variasjonsserien;
  • b) Konstruer fordelingsfunksjonen;

nr.=42. Eksempelelementer:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Løsning.

  • a) konstruksjon av en rangert variantserie:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konstruksjon av en diskret variasjonsserie.

La oss beregne antall grupper i variasjonsserien ved å bruke Sturgess-formelen:

La oss ta antall grupper lik 7.

Når vi kjenner antall grupper, beregner vi størrelsen på intervallet:

For å gjøre det enklere å konstruere tabellen, tar vi antall grupper lik 8, intervallet vil være 1.

Ris. 1 Volumet av salg av varer av en butikk i en viss tidsperiode

Som et resultat av å mestre dette kapittelet, må studenten: vet

  • indikatorer på variasjon og deres forhold;
  • grunnleggende lover for fordeling av egenskaper;
  • essensen av samtykkekriteriene; være i stand til
  • beregne variasjonsindekser og kriterier for godhet;
  • bestemme distribusjonsegenskaper;
  • vurdere de grunnleggende numeriske egenskapene til statistiske distribusjonsserier;

egen

  • metoder for statistisk analyse av distribusjonsserier;
  • grunnleggende om variansanalyse;
  • teknikker for å kontrollere statistiske distribusjonsserier for samsvar med de grunnleggende distribusjonslovene.

Variasjonsindikatorer

I den statistiske studien av egenskaper ved ulike statistiske populasjoner er det av stor interesse å studere variasjonen av karakteristikken til individuelle statistiske enheter av befolkningen, samt arten av fordelingen av enheter i henhold til denne egenskapen. Variasjon - dette er forskjeller i individuelle verdier av en egenskap blant enheter av befolkningen som studeres. Studiet av variasjon er av stor praktisk betydning. Ut fra graden av variasjon kan man bedømme variasjonsgrensene til en egenskap, homogeniteten til populasjonen for en gitt karakteristikk, typiskheten til gjennomsnittet og forholdet mellom faktorer som bestemmer variasjonen. Variasjonsindikatorer brukes til å karakterisere og organisere statistiske populasjoner.

Resultatene av sammendraget og grupperingen av statistisk observasjonsmateriale, presentert i form av statistiske distribusjonsserier, representerer en ordnet fordeling av enheter av populasjonen som studeres i grupper i henhold til gruppering (varierende) kriterier. Hvis en kvalitativ karakteristikk legges til grunn for grupperingen, kalles en slik distribusjonsserie attributive(fordeling etter yrke, kjønn, farge osv.). Hvis en distribusjonsserie er konstruert på kvantitativ basis, kalles en slik serie variasjon(fordeling etter høyde, vekt, lønn osv.). Å konstruere en variasjonsserie betyr å organisere den kvantitative fordelingen av befolkningsenheter etter karakteristiske verdier, telle antall befolkningsenheter med disse verdiene (frekvens), og ordne resultatene i en tabell.

I stedet for frekvensen til en variant, er det mulig å bruke forholdet til det totale volumet av observasjoner, som kalles frekvens (relativ frekvens).

Det finnes to typer variasjonsserier: diskrete og intervall. Diskret serie- Dette er en variasjonsserie, hvis konstruksjon er basert på egenskaper med diskontinuerlig endring (diskrete egenskaper). Sistnevnte inkluderer antall ansatte ved bedriften, tariffkategori, antall barn i familien osv. En diskret variantserie representerer en tabell som består av to kolonner. Den første kolonnen angir den spesifikke verdien av attributtet, og den andre kolonnen angir antall enheter i populasjonen med en spesifikk verdi av attributtet. Hvis en egenskap har en kontinuerlig endring (inntektsbeløp, tjenestetid, kostnad for anleggsmidler til foretaket, etc., som innenfor visse grenser kan få en hvilken som helst verdi), er det mulig å konstruere for denne egenskapen intervallvariasjonsserier. Ved konstruksjon av en intervallvariasjonsserie har tabellen også to kolonner. Den første indikerer verdien av attributtet i intervallet "fra - til" (alternativer), den andre indikerer antall enheter inkludert i intervallet (frekvens). Frekvens (repetisjonsfrekvens) - antall repetisjoner av en bestemt variant av attributtverdier. Intervaller kan være lukkede eller åpne. Det er begrenset med lukkede intervaller på begge sider, d.v.s. har både en nedre (“fra”) og en øvre (“til”) grense. Åpne intervaller har én grense: enten øvre eller nedre. Hvis alternativene er ordnet i stigende eller synkende rekkefølge, kalles radene rangert.

For variasjonsserier er det to typer frekvensresponsalternativer: akkumulert frekvens og akkumulert frekvens. Den akkumulerte frekvensen viser hvor mange observasjoner verdien av karakteristikken tok verdier mindre enn en gitt verdi. Den akkumulerte frekvensen bestemmes ved å summere frekvensverdiene til en karakteristikk for en gitt gruppe med alle frekvensene til tidligere grupper. Den akkumulerte frekvensen karakteriserer andelen observasjonsenheter hvis attributtverdier ikke overstiger den øvre grensen for den gitte gruppen. Dermed viser den akkumulerte frekvensen andelen opsjoner i helheten som har en verdi som ikke er større enn den gitte. Frekvens, frekvens, absolutte og relative tettheter, akkumulert frekvens og frekvens er kjennetegn på variantens størrelse.

Variasjoner i egenskapene til populasjonens statistiske enheter, så vel som arten av fordelingen, studeres ved å bruke indikatorer og karakteristika for variasjonsseriene, som inkluderer gjennomsnittsnivået til serien, gjennomsnittlig lineært avvik, standardavviket, spredning , oscillasjonskoeffisienter, variasjon, asymmetri, kurtose, etc.

Gjennomsnittsverdier brukes for å karakterisere distribusjonssenteret. Gjennomsnittet er en generaliserende statistisk karakteristikk der det typiske nivået av en egenskap som er i besittelse av medlemmer av befolkningen som studeres, kvantifiseres. Imidlertid kan det være tilfeller av sammenfall av aritmetiske gjennomsnitt med forskjellige distribusjonsmønstre, derfor, som statistiske kjennetegn ved variasjonsserier, beregnes de såkalte strukturelle middelene - modus, median, samt kvantiler, som deler distribusjonsserien i like. deler (kvartiler, desiler, persentiler osv. ).

mote - Dette er verdien av en egenskap som forekommer i distribusjonsserien oftere enn dens andre verdier. For diskrete serier er dette alternativet med høyest frekvens. I intervallvariasjonsserier, for å bestemme modusen, er det nødvendig å først bestemme intervallet den befinner seg i, det såkalte modale intervallet. I en variasjonsserie med like intervaller bestemmes det modale intervallet av høyeste frekvens, i serier med ulikt intervall - men av høyeste distribusjonstetthet. Formelen brukes deretter til å bestemme modusen i rader med like intervaller

hvor Mo er moteverdien; xMo - nedre grense for det modale intervallet; h- modal intervallbredde; / Mo - frekvensen til det modale intervallet; / Mo j er frekvensen til det premodale intervallet; / Mo+1 er frekvensen til det postmodale intervallet, og for en serie med ulikt intervall i denne beregningsformelen, i stedet for frekvensene / Mo, / Mo, / Mo, bør distribusjonstettheter brukes Mind 0 _| , Mind 0> UMO+"

Hvis det er en enkelt modus, så sannsynlighetsfordelingen tilfeldig variabel kalt unimodal; hvis det er mer enn én modus, kalles den multimodal (polymodal, multimodal), i tilfelle av to moduser - bimodal. Som regel indikerer multimodalitet at distribusjonen som studeres ikke følger loven normal distribusjon. Homogene populasjoner er som regel preget av enkelt-vertex-fordelinger. Multivertex indikerer også heterogeniteten til befolkningen som studeres. Utseendet til to eller flere hjørner gjør det nødvendig å omgruppere dataene for å identifisere mer homogene grupper.

I en intervallvariasjonsserie kan modusen bestemmes grafisk ved hjelp av et histogram. For å gjøre dette, tegn to kryssende linjer fra de øverste punktene i den høyeste kolonnen i histogrammet til de øverste punktene i to tilstøtende kolonner. Deretter, fra skjæringspunktet, senkes en perpendikulær ned på abscisseaksen. Verdien av funksjonen på x-aksen som tilsvarer perpendikulæren er modusen. I mange tilfeller, når man karakteriserer en populasjon som en generalisert indikator, foretrekkes modusen fremfor det aritmetiske gjennomsnittet.

Median - Dette er den sentrale verdien av attributtet; det eies av det sentrale medlemmet av den rangerte serien av distribusjonen. I diskrete serier, for å finne verdien av medianen, bestemmes først serienummeret. For å gjøre dette, hvis antall enheter er oddetall, legges en til summen av alle frekvenser, og antallet deles på to. Hvis det er et partall av enheter på rad, vil det være to medianenheter, så i dette tilfellet er medianen definert som gjennomsnittet av verdiene til de to medianenhetene. Dermed er medianen i en diskret variasjonsserie verdien som deler serien i to deler som inneholder samme antall alternativer.

I intervallserier, etter å ha bestemt serienummeret til medianen, blir det mediale intervallet funnet ved å bruke de akkumulerte frekvensene (frekvensene), og deretter ved å bruke formelen for å beregne medianen, bestemmes verdien av selve medianen:

hvor Me er medianverdien; x meg - nedre grense for medianintervallet; h- bredden på medianintervallet; - summen av frekvensene til distribusjonsserien; /D - akkumulert frekvens av pre-median intervall; / Me - frekvens av medianintervallet.

Medianen kan finnes grafisk ved hjelp av et kumulert. For å gjøre dette, på skalaen av akkumulerte frekvenser (frekvenser), akkumuleres fra punktet som tilsvarer serienummer median trekkes en rett linje parallelt med abscisseaksen til den skjærer kumulatet. Deretter, fra skjæringspunktet mellom den indikerte linjen med kumulatet, senkes en vinkelrett til abscisseaksen. Verdien av attributtet på x-aksen som tilsvarer den tegnede ordinaten (vinkelrett) er medianen.

Medianen er preget av følgende egenskaper.

  • 1. Det avhenger ikke av de attributtverdiene som er plassert på hver side av den.
  • 2. Den har egenskapen minimalitet, noe som betyr at summen av absolutte avvik av attributtverdiene fra medianen representerer en minimumsverdi sammenlignet med avviket til attributtverdiene fra enhver annen verdi.
  • 3. Når man kombinerer to fordelinger med kjente medianer, er det umulig å forutsi på forhånd verdien av medianen til den nye fordelingen.

Disse egenskapene til medianen er mye brukt når du designer plasseringen av offentlige servicepunkter - skoler, klinikker, bensinstasjoner, vannpumper, etc. For eksempel, hvis det planlegges å bygge en klinikk i en bestemt blokk av byen, vil det være mer hensiktsmessig å plassere den på et punkt i blokken som halverer ikke lengden på blokken, men antallet beboere.

Forholdet mellom modus, median og aritmetisk gjennomsnitt indikerer arten av fordelingen av karakteristikken i aggregatet og lar oss vurdere symmetrien til fordelingen. Hvis x Me så er det en høyresidig asymmetri i serien. Med normalfordeling X - Meg - Mo.

K. Pearson, basert på justeringen av ulike typer kurver, bestemte at for moderat asymmetriske fordelinger er følgende omtrentlige forhold mellom aritmetisk gjennomsnitt, median og modus gyldige:

hvor Me er medianverdien; Mo - betydningen av mote; x aritme - verdien av det aritmetiske gjennomsnittet.

Hvis det er behov for å studere strukturen til variasjonsseriene mer detaljert, beregner du karakteristiske verdier som ligner medianen. Slike karakteristiske verdier deler alle distribusjonsenheter i like tall; de kalles kvantiler eller gradienter. Kvantiler er delt inn i kvartiler, desiler, persentiler osv.

Kvartiler deler befolkningen i fire like deler. Den første kvartilen beregnes på samme måte som medianen ved å bruke formelen for å beregne den første kvartilen, etter å ha bestemt det første kvartalsintervallet tidligere:

der Qi er verdien av den første kvartilen; xQ^- nedre grense for det første kvartilområdet; h- bredden på det første kvartalsintervallet; /, - frekvenser av intervallserien;

Kumulativ frekvens i intervallet før det første kvartilintervallet; Jq ( - frekvensen av det første kvartilintervallet.

Den første kvartilen viser at 25 % av befolkningsenhetene er mindre enn verdien, og 75 % er flere. Den andre kvartilen er lik medianen, dvs. Q 2 = Meg.

I analogi beregnes den tredje kvartilen, etter først å ha funnet det tredje kvartalsintervallet:

hvor er den nedre grensen for det tredje kvartilområdet; h- bredden på det tredje kvartilintervallet; /, - frekvenser av intervallserien; /X" - akkumulert frekvens i intervallet forut

G

tredje kvartil intervall; Jq er frekvensen til det tredje kvartilintervallet.

Den tredje kvartilen viser at 75 % av befolkningsenhetene er mindre enn verdien, og 25 % er flere.

Forskjellen mellom tredje og første kvartil er interkvartilområdet:

hvor Aq er verdien av det interkvartile området; Q 3 - tredje kvartil verdi; Q, er verdien av den første kvartilen.

Desiler deler befolkningen i 10 like deler. En desil er en verdi av en egenskap i en distribusjonsserie som tilsvarer tideler av populasjonsstørrelsen. I analogi med kvartiler viser den første desilen at 10 % av populasjonsenhetene er mindre enn verdien, og 90 % er større, og den niende desilen viser at 90 % av populasjonsenhetene er mindre enn verdien, og 10 % er større. Forholdet mellom den niende og første desiler, dvs. Desilkoeffisienten er mye brukt i studiet av inntektsdifferensiering for å måle forholdet mellom inntektsnivåene til de 10 % mest velstående og 10 % av den minst velstående befolkningen. Persentiler deler den rangerte befolkningen i 100 like deler. Beregningen, betydningen og anvendelsen av persentiler ligner på desiler.

Kvartiler, desiler og andre strukturelle egenskaper kan bestemmes grafisk analogt med medianen ved bruk av kumulater.

For å måle størrelsen på variasjonen brukes følgende indikatorer: variasjonsområde, gjennomsnittlig lineært avvik, standardavvik, spredning. Størrelsen på variasjonsområdet avhenger helt av tilfeldigheten i fordelingen av de ekstreme medlemmene av serien. Denne indikatoren er av interesse i tilfeller der det er viktig å vite hva amplituden av svingninger i verdiene til en karakteristikk er:

Hvor R- verdien av variasjonsområdet; x max - maksimumsverdien for attributtet; x tt - minimumsverdien av attributtet.

Ved beregning av variasjonsområdet er det ikke tatt hensyn til verdien til de aller fleste seriemedlemmer, mens variasjonen er knyttet til hver verdi av seriemedlemmet. Indikatorer som er gjennomsnitt oppnådd fra avvik av individuelle verdier av en karakteristikk fra deres gjennomsnittsverdi, har ikke denne ulempen: gjennomsnittlig lineært avvik og standardavvik. Det er en direkte sammenheng mellom individuelle avvik fra gjennomsnittet og variasjonen til en bestemt egenskap. Jo sterkere fluktuasjonen er, desto større er den absolutte størrelsen på avvikene fra gjennomsnittet.

Det gjennomsnittlige lineære avviket er det aritmetiske gjennomsnittet av de absolutte verdiene av avvik for individuelle opsjoner fra deres gjennomsnittsverdi.

Gjennomsnittlig lineært avvik for ugrupperte data

hvor /pr er verdien av det gjennomsnittlige lineære avviket; x, - er verdien av attributtet; X - P - antall enheter i befolkningen.

Gjennomsnittlig lineært avvik for den grupperte serien

hvor / vz - verdien av det gjennomsnittlige lineære avviket; x, er verdien av attributtet; X - gjennomsnittsverdien av karakteristikken for befolkningen som studeres; / - antall befolkningsenheter i en egen gruppe.

I dette tilfellet ignoreres tegnene på avvik, ellers vil summen av alle avvik være lik null. Det gjennomsnittlige lineære avviket, avhengig av grupperingen av de analyserte dataene, beregnes ved hjelp av ulike formler: for grupperte og ugrupperte data. Det gjennomsnittlige lineære avviket, på grunn av dets betingelser, atskilt fra andre variasjonsindikatorer, brukes i praksis relativt sjelden (spesielt for å karakterisere oppfyllelsen av kontraktsmessige forpliktelser for enhetlig levering; i omsetningsanalyse utenrikshandel, sammensetning av arbeidere, produksjonsrytme, produktkvalitet som tar hensyn til teknologiske funksjoner ved produksjon, etc.).

Standardavviket karakteriserer hvor mye i gjennomsnitt de individuelle verdiene til karakteristikken som studeres avviker fra gjennomsnittsverdien av befolkningen, og uttrykkes i måleenheter for karakteristikken som studeres. Standardavviket, som er et av hovedmålene for variasjon, er mye brukt til å vurdere variasjonsgrensene for en karakteristikk i en homogen populasjon, ved å bestemme ordinatverdiene til en normalfordelingskurve, samt i beregninger knyttet til organisering av prøveobservasjon og etablering av nøyaktigheten av prøvekarakteristikker. Standardavviket til ugrupperte data beregnes ved hjelp av følgende algoritme: hvert avvik fra gjennomsnittet blir kvadrert, alle kvadrater summeres, hvoretter summen av kvadrater deles på antall ledd i serien og kvadratroten trekkes ut fra kvotient:

hvor en Iip er verdien av standardavviket; Xj- attributt verdi; X- gjennomsnittsverdien av karakteristikken for befolkningen som studeres; P - antall enheter i befolkningen.

For grupperte analyserte data beregnes standardavviket til dataene ved hjelp av den vektede formelen

Hvor - standardavvik verdi; Xj- attributt verdi; X - gjennomsnittsverdien av karakteristikken for befolkningen som studeres; f x - antall befolkningsenheter i en bestemt gruppe.

Uttrykket under roten kalles i begge tilfeller varians. Dermed beregnes spredning som gjennomsnittlig kvadrat av avvik av attributtverdier fra deres gjennomsnittlige verdi. For uvektede (enkle) attributtverdier bestemmes variansen som følger:

For vektede karakteristiske verdier

Det er også en spesiell forenklet metode for beregning av varians: generelt

for uvektede (enkle) karakteristiske verdier for vektede karakteristiske verdier
ved hjelp av den nullbaserte metoden

hvor a 2 er dispersjonsverdien; x, - er verdien av attributtet; X - gjennomsnittsverdien av egenskapen, h- gruppeintervallverdi, t 1 - vekt (A =

Spredning har sitt eget uttrykk i statistikk og er en av de viktigste variasjonsindikatorene. Det måles i enheter som tilsvarer kvadratet av måleenhetene for egenskapen som studeres.

Dispersjonen har følgende egenskaper.

  • 1. Varians konstant verdi lik null.
  • 2. Å redusere alle verdier av en karakteristikk med samme verdi A endrer ikke verdien av spredningen. Dette betyr at det gjennomsnittlige kvadratet av avvik ikke kan beregnes fra gitte verdier av en karakteristikk, men fra deres avvik fra et konstant tall.
  • 3. Redusere eventuelle karakteristiske verdier i k ganger reduserer spredningen med k 2 ganger, og standardavviket er inne k ganger, dvs. alle verdier av attributtet kan deles med et konstant tall (si, med verdien av serieintervallet), standardavviket kan beregnes og deretter multipliseres med et konstant tall.
  • 4. Hvis vi beregner gjennomsnittlig kvadrat av avvik fra en hvilken som helst verdi Og forskjellig i en eller annen grad fra det aritmetiske gjennomsnittet, så vil det alltid være større enn det gjennomsnittlige kvadratet av avvikene beregnet fra det aritmetiske gjennomsnittet. Gjennomsnittlig kvadrat av avvikene vil være større med en veldig viss mengde - med kvadratet av forskjellen mellom gjennomsnittet og denne konvensjonelt tatt verdi.

Variasjon av en alternativ karakteristikk består i tilstedeværelsen eller fraværet av den studerte egenskapen i enheter av befolkningen. Kvantitativt uttrykkes variasjonen av et alternativt attributt med to verdier: tilstedeværelsen av en enhet av den studerte egenskapen er angitt med en (1), og dens fravær er angitt med null (0). Andelen enheter som har eiendommen under utredning angis med P, og andelen enheter som ikke har denne egenskapen angis med G. Dermed er variansen til et alternativt attributt lik produktet av andelen enheter som har denne egenskapen (P) med andelen enheter som ikke har denne egenskapen (G). Den største variasjonen i befolkningen oppnås i tilfeller der en del av befolkningen, som utgjør 50 % av det totale volumet av befolkningen, har en egenskap, og en annen del av befolkningen, også lik 50 %, ikke har denne egenskapen, og dispersjonen når en maksimal verdi på 0,25, t.e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 og o2 = 0,5 0,5 = 0,25. Den nedre grensen for denne indikatoren er null, som tilsvarer en situasjon der det ikke er noen variasjon i aggregatet. Praktisk bruk varians av en alternativ karakteristikk består i å konstruere konfidensintervaller når du utfører en prøveobservasjon.

Jo mindre varians og standardavvik er, jo mer homogen blir populasjonen og jo mer typisk vil gjennomsnittet være. I praksis med statistikk er det ofte behov for å sammenligne variasjoner av ulike egenskaper. For eksempel er det interessant å sammenligne variasjoner i arbeidstakernes alder og deres kvalifikasjoner, tjenestetid og lønn, kostnad og fortjeneste, tjenestetid og arbeidsproduktivitet osv. For slike sammenligninger er indikatorer på absolutt variasjon av egenskaper uegnet: det er umulig å sammenligne variasjonen i arbeidserfaring, uttrykt i år, med variasjonen av lønn, uttrykt i rubler. For å utføre slike sammenligninger, samt sammenligninger av variabiliteten til samme karakteristikk i flere populasjoner med forskjellige aritmetiske gjennomsnitt, brukes variasjonsindikatorer - oscillasjonskoeffisienten, den lineære variasjonskoeffisienten og variasjonskoeffisienten, som viser målet. av svingninger av ekstreme verdier rundt gjennomsnittet.

Oscillasjonskoeffisient:

Hvor V R - oscillasjonskoeffisientverdi; R- verdien av variasjonsområdet; X -

Lineær variasjonskoeffisient".

Hvor Vj- verdien av den lineære variasjonskoeffisienten; JEG - verdien av det gjennomsnittlige lineære avviket; X - gjennomsnittsverdien av karakteristikken for populasjonen som studeres.

Variasjonskoeffisienten:

Hvor V a - variasjonskoeffisient verdi; a er verdien av standardavviket; X - gjennomsnittsverdien av karakteristikken for populasjonen som studeres.

Oscillasjonskoeffisienten er prosentforholdet mellom variasjonsområdet og gjennomsnittsverdien til karakteristikken som studeres, og den lineære variasjonskoeffisienten er forholdet mellom gjennomsnittlig lineært avvik og gjennomsnittsverdien av karakteristikken som studeres, uttrykt som en prosentdel. Variasjonskoeffisienten er prosentandelen av standardavviket til gjennomsnittsverdien av karakteristikken som studeres. Som en relativ verdi, uttrykt i prosent, brukes variasjonskoeffisienten for å sammenligne graden av variasjon av ulike egenskaper. Ved å bruke variasjonskoeffisienten vurderes homogeniteten til en statistisk populasjon. Hvis variasjonskoeffisienten er mindre enn 33 %, er populasjonen som studeres homogen og variasjonen svak. Hvis variasjonskoeffisienten er mer enn 33 %, er populasjonen som studeres heterogen, variasjonen er sterk, og gjennomsnittsverdien er atypisk og kan ikke brukes som en generell indikator på denne populasjonen. I tillegg brukes variasjonskoeffisienter for å sammenligne variabiliteten til en egenskap i ulike aggregater. For eksempel for å vurdere variasjonen i tjenestetiden til arbeidere ved to virksomheter. Jo høyere koeffisientverdien er, desto mer signifikant er variasjonen av karakteristikken.

Basert på de beregnede kvartilene er det også mulig å beregne den relative indikatoren for kvartalsvariasjon ved hjelp av formelen

hvor Q 2 Og

Interkvartilområdet bestemmes av formelen

Kvartilavviket brukes i stedet for variasjonsområdet for å unngå ulempene forbundet med bruk av ekstreme verdier:

For ulikt intervallvariasjonsserier beregnes også fordelingstettheten. Det er definert som kvotienten til den tilsvarende frekvensen eller frekvensen delt på verdien av intervallet. I ulik intervallserier brukes absolutte og relative fordelingstettheter. Den absolutte distribusjonstettheten er frekvensen per lengdeenhet av intervallet. Relativ distribusjonstetthet - frekvens per enhet intervalllengde.

Alt det ovennevnte gjelder for distribusjonsserier hvis distribusjonslov er godt beskrevet av normalfordelingsloven eller er nær den.

Grupperingsmetoden lar deg også måle variasjon(variabilitet, fluktuasjon) av tegn. Når antallet enheter i en populasjon er relativt lite, måles variasjonen basert på det rangerte antallet enheter som utgjør populasjonen. Serien heter rangert, hvis enhetene er ordnet i stigende (synkende) rekkefølge av karakteristikken.

Rangerte serier er imidlertid ganske veiledende når det er nødvendig Sammenlignende egenskaper variasjoner. I tillegg må vi i mange tilfeller forholde oss til statistiske populasjoner som består av et stort antall enheter, som er praktisk talt vanskelige å representere i form av en bestemt serie. I denne forbindelse, for en første generell kjennskap til statistiske data og spesielt for å lette studiet av variasjon i egenskaper, kombineres fenomenene og prosessene som studeres vanligvis i grupper, og grupperingsresultatene presenteres i form av gruppetabeller.

Hvis en gruppetabell bare har to kolonner - grupper i henhold til en valgt egenskap (alternativer) og antall grupper (frekvens eller frekvens), kalles den nær distribusjon.

Distribusjonsområde - den enkleste typen strukturell gruppering basert på én karakteristikk, vist i en gruppetabell med to kolonner som inneholder varianter og frekvenser av karakteristikken. I mange tilfeller med en slik strukturell gruppering, dvs. Med sammenstillingen av distribusjonsserier starter studiet av det innledende statistiske materialet.

En strukturell gruppering i form av en distribusjonsserie kan gjøres om til en genuin strukturell gruppering dersom de utvalgte gruppene ikke bare karakteriseres av frekvenser, men også av andre statistiske indikatorer. Hovedformålet med distribusjonsserier er å studere variasjonen av egenskaper. Teorien om distribusjonsserier er utviklet i detalj av matematisk statistikk.

Distribusjonsseriene er delt inn i attributive(gruppering etter attributive egenskaper, for eksempel ved å dele befolkningen etter kjønn, nasjonalitet, sivilstand osv.) og variasjon(gruppering etter kvantitative egenskaper).

Variasjonsserie er en gruppetabell som inneholder to kolonner: gruppering av enheter i henhold til én kvantitativ egenskap og antall enheter i hver gruppe. Intervallene i variasjonsserien er vanligvis utformet like og lukkede. Variasjonsserien er følgende gruppering av den russiske befolkningen etter gjennomsnittlig pengeinntekt per innbygger (tabell 3.10).

Tabell 3.10

Fordeling av befolkningen i Russland etter gjennomsnittlig inntekt per innbygger i 2004-2009.

Befolkningsgrupper etter gjennomsnittlig kontantinntekt per innbygger, rub./måned

Innbyggertall i gruppen, % av totalen

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Over 25 000,0

Hele befolkningen

Variasjonsserier er på sin side delt inn i diskrete og intervaller. Diskret variasjonsserier kombinerer varianter av diskrete egenskaper som varierer innenfor snevre grenser. Et eksempel på en diskret variasjonsserie er fordelingen Russiske familier i henhold til antall tilgjengelige barn.

Intervall variasjonsserier kombinerer varianter av enten kontinuerlige egenskaper eller diskrete egenskaper som varierer over et bredt spekter. Intervall er variasjonsserien av fordelingen av den russiske befolkningen etter gjennomsnittlig pengeinntekt per innbygger.

Diskrete variasjonsserier brukes ikke så ofte i praksis. I mellomtiden er det ikke vanskelig å kompilere dem, siden sammensetningen av gruppene bestemmes av de spesifikke variantene som de studerte grupperingsegenskapene faktisk har.

Intervallvariasjonsserier er mer utbredt. Når du kompilerer dem, oppstår det kompleks problemstilling om antall grupper, samt størrelsen på intervallene som bør etableres.

Prinsippene for å løse dette problemet er nedfelt i kapittelet om metodikk for å konstruere statistiske grupperinger (se avsnitt 3.3).

Variasjonsserier er et middel til å kollapse eller komprimere mangfoldig informasjon til en kompakt form; fra dem kan man gjøre en ganske klar vurdering av variasjonens art, og studere forskjellene i egenskapene til fenomenene som er inkludert i settet som studeres. Men den viktigste betydningen av variasjonsserier er at på grunnlag av disse beregnes de spesielle generaliserende egenskapene til variasjon (se kapittel 7).

Statistisk distribusjonsserie– dette er en ordnet fordeling av befolkningsenheter i grupper etter en viss varierende egenskap.
Avhengig av karakteristikken som ligger til grunn for dannelsen av distribusjonsserien, er det attributive og variasjonelle distribusjonsserier.

Tilstedeværelsen av en felles egenskap er grunnlaget for dannelsen av en statistisk populasjon, som representerer resultatene av en beskrivelse eller måling vanlige trekk forskningsobjekter.

Studieemnet i statistikk er skiftende (varierende) egenskaper eller statistiske egenskaper.

Typer statistiske egenskaper.

Distribusjonsserier kalles attributive bygget etter kvalitetskriterier. Attributiv– dette er et skilt som har et navn (for eksempel yrke: syerske, lærer, etc.).
Distribusjonsserien presenteres vanligvis i form av tabeller. I tabellen 2.8 viser attributtfordelingsserien.
Tabell 2.8 - Fordeling av typer juridisk bistand gitt av advokater til borgere i en av regionene i Den russiske føderasjonen.

Variasjonsserie– dette er verdiene til karakteristikken (eller verdiintervallene) og deres frekvenser.
Variasjonsserier er distribusjonsserier, bygget på kvantitativ basis. Enhver variasjonsserie består av to elementer: alternativer og frekvenser.
Varianter anses å være de individuelle verdiene til en egenskap som den tar i en variasjonsserie.
Frekvenser er antallet individuelle varianter eller hver gruppe av en variasjonsserie, dvs. Dette er tall som viser hvor ofte visse alternativer forekommer i en distribusjonsserie. Summen av alle frekvenser bestemmer størrelsen på hele befolkningen, dens volum.
Frekvenser er frekvenser uttrykt som brøkdeler av en enhet eller som en prosentandel av totalen. Følgelig er summen av frekvensene lik 1 eller 100%. Variasjonsserien lar en estimere distribusjonslovens form basert på faktiske data.

Avhengig av arten av variasjonen av egenskapen, er det diskrete og intervallvariasjonsserier.
Et eksempel på en diskret variasjonsserie er gitt i tabellen. 2.9.
Tabell 2.9 - Fordeling av familier etter antall okkuperte rom i individuelle leiligheter i 1989 i Russland.

Den første kolonnen i tabellen viser alternativer for en diskret variasjonsserie, den andre kolonnen inneholder frekvensene til variasjonsserien, og den tredje inneholder frekvensindikatorer.

Variasjonsserie

I befolkning en viss kvantitativ egenskap undersøkes. En prøve av volum trekkes tilfeldig ut fra den n, det vil si at antall prøveelementer er lik n. I det første stadiet av statistisk behandling, varierer prøver, dvs. nummerbestilling x 1, x 2, …, x n Stigende. Hver observert verdi x i kalt alternativ. Frekvens m jeg er antall observasjoner av verdien x i i prøven. Relativ frekvens(Frekvens) w i er frekvensforholdet m jeg til prøvestørrelse n: .
Når man studerer variasjonsserier, brukes også begrepene akkumulert frekvens og akkumulert frekvens. La x et eller annet nummer. Deretter antall alternativer , hvis verdier er mindre x, kalles den akkumulerte frekvensen: for x i n kalles den akkumulerte frekvensen w i max.
En karakteristikk kalles diskret variabel hvis dens individuelle verdier (varianter) skiller seg fra hverandre med en viss endelig verdi (vanligvis et heltall). Variasjonsserien til en slik karakteristikk kalles en diskret variasjonsserie.

Tabell 1. Generell oversikt over en diskret variasjonsfrekvensserie

Karakteristiske verdierx i x 1 x 2 x n
Frekvenserm jeg m 1 m 2 m n

En egenskap kalles kontinuerlig varierende hvis verdiene avviker fra hverandre med en vilkårlig liten mengde, dvs. et tegn kan ha hvilken som helst verdi i et visst intervall. En kontinuerlig variasjonsserie for en slik karakteristikk kalles intervall.

Tabell 2. Generell oversikt over intervallvariasjonsseriene av frekvenser

Tabell 3. Grafiske bilder av variantserien

RadPolygon eller histogramEmpirisk distribusjonsfunksjon
Diskret
Intervall
Ved å gjennomgå resultatene av observasjonene bestemmes det hvor mange variantverdier som faller inn i hvert spesifikt intervall. Det antas at hvert intervall tilhører en av dens ender: enten i alle tilfeller venstre (oftere) eller i alle tilfeller høyre, og frekvenser eller frekvenser viser antall alternativer innenfor de angitte grensene. Forskjeller a i – a i +1 kalles delintervaller. For å forenkle etterfølgende beregninger kan intervallvariasjonsserien erstattes med en betinget diskret. I dette tilfellet, gjennomsnittsverdien Jeg-intervall tas som et alternativ x i, og den tilsvarende intervallfrekvensen m jeg– for frekvensen til dette intervallet.
For grafisk representasjon av variasjonsserier er de mest brukte polygon, histogram, kumulativ kurve og empirisk distribusjonsfunksjon.

I tabellen 2.3 (Gruppering av den russiske befolkningen etter gjennomsnittlig inntekt per innbygger i april 1994) er presentert intervallvariasjonsserier.
Det er praktisk å analysere distribusjonsserier ved hjelp av et grafisk bilde, som lar en bedømme formen på distribusjonen. En visuell representasjon av arten av endringer i frekvensene til variasjonsserien er gitt av polygon og histogram.
Polygonet brukes når man viser diskrete variasjonsserier.
La oss for eksempel grafisk skildre boligmassens fordeling etter leilighetstype (tabell 2.10).
Tabell 2.10 - Fordeling av boligmassen i tettstedet etter leilighetstype (betinget tall).


Ris. Boligfordelingsområde


Ikke bare frekvensverdiene, men også frekvensene til variasjonsserien kan plottes på ordinataksene.
Histogrammet brukes til å avbilde en intervallvariasjonsserie. Når du konstruerer et histogram, er verdiene til intervallene plottet på abscisseaksen, og frekvensene er avbildet av rektangler bygget på de tilsvarende intervallene. Høyden på søylene ved like intervaller bør være proporsjonal med frekvensene. Et histogram er en graf der en serie er avbildet som søyler ved siden av hverandre.
La oss grafisk skildre intervallfordelingsserien gitt i tabellen. 2.11.
Tabell 2.11 - Fordeling av familier etter boarealstørrelse per person (betingede tall).
N p/p Grupper av familier etter størrelse på boareal per person Antall familier med en gitt størrelse på boareal Akkumulert antall familier
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Ris. 2.2. Histogram over fordelingen av familier etter størrelsen på boareal per person


Ved å bruke dataene til den akkumulerte serien (tabell 2.11) konstruerer vi kumulere distribusjon.


Ris. 2.3. Kumulativ fordeling av familier etter størrelse på boareal per person


Representasjonen av en variasjonsserie i form av et kumulat er spesielt effektiv for variasjonsserier hvis frekvenser er uttrykt som brøker eller prosenter av summen av seriefrekvensene.
Hvis vi endrer aksene når vi grafisk viser en variasjonsserie i form av kumulater, får vi ogiva. I fig. 2.4 viser en ogiv konstruert på grunnlag av dataene i Tabell. 2.11.
Et histogram kan konverteres til et distribusjonspolygon ved å finne midtpunktene på sidene til rektanglene og deretter koble disse punktene med rette linjer. Den resulterende distribusjonspolygonen er vist i fig. 2.2 med stiplet linje.
Når man konstruerer et histogram over fordelingen av en variasjonsserie med ulikt intervall, er det ikke frekvensene som plottes langs ordinataksen, men tettheten av fordelingen av karakteristikken i de tilsvarende intervallene.
Fordelingstettheten er frekvensen beregnet per enhet intervallbredde, dvs. hvor mange enheter i hver gruppe er per enhet av intervallverdi. Et eksempel på beregning av distribusjonstettheten er presentert i tabellen. 2.12.
Tabell 2.12 - Foretakenes fordeling etter antall ansatte (betingede tall)
N p/p Grupper av foretak etter antall ansatte, personer. Antall foretak Intervallstørrelse, folk. Distribusjonstetthet
EN 1 2 3=1/2
1 Opptil 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Kan også brukes til å representere variasjonsserier grafisk kumulativ kurve. Ved å bruke en kumulering (sumkurve), er en serie med akkumulerte frekvenser avbildet. Kumulative frekvenser bestemmes ved å sekvensielt summere frekvenser på tvers av grupper og viser hvor mange enheter i populasjonen som har attributtverdier som ikke er større enn verdien som vurderes.


Ris. 2.4. Ogive av fordeling av familier etter størrelsen på boareal per person

Når du konstruerer kumulatene til en intervallvariasjonsserie, plottes varianter av serien langs abscisseaksen, og akkumulerte frekvenser plottes langs ordinataksen.

Kontinuerlig variasjonsserie

Kontinuerlig variasjonsserie - en serie konstruert på grunnlag av en kvantitativ statistisk egenskap. Eksempel. Gjennomsnittlig sykdomsvarighet for domfelte (dager per person) i høst-vinterperioden i år var:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5