Abstrakter Uttalelser Historie

Prosjektoppgaver om temaet korrelasjonsavhengigheter. Korrelasjonsavhengigheter

Målet med arbeidet: få en ide om korrelasjonsavhengigheten av mengder; mestre metoden for å beregne korrelasjonskoeffisienten ved å bruke KOPPEL-funksjonen.
Programvare brukt: regnearkprosessor Microsoft Office Excel.

Øvelse 1

Det er pålagt å foreta beregninger av sammenhengen mellom elevprestasjoner og skolens virksomhetsutgifter, beskrevet i § 38 i læreboka.
1. Fyll ut regnearket med følgende data:

2. Konstruer et spredningsdiagram over avhengigheten av mengder.

3. Utfør den statistiske funksjonen KOPEL, og spesifiser verdiområdene i dialogboksen: B2:B21 og C2:C21.
4. Skriv ned verdien av korrelasjonskoeffisienten.

Oppgave 2

Utfør korrelasjonsberegninger av elevprestasjoner på levering av lærebøker og på levering av datamaskiner, presentert i følgende tabell.

Oppgave for selvstendig gjennomføring om temaet «Korrelasjonsavhengigheter»

Kom opp med en tabell med sammenkoblede målinger av verdiene til noen mengder som det er en hypotetisk korrelasjon mellom. Analyser denne avhengigheten for tilstedeværelsen av en lineær korrelasjon.

      Eksempler på relevante relaterte mengder inkluderer:
      utdanningsnivå (målt for eksempel i skoleår totalt) og nivå på månedlig inntekt;
      utdanningsnivå og stillingsnivå (for sistnevnte, kom opp med en konvensjonell skala);
      antall datamaskiner på skolen per elev og gjennomsnittlig testpoengsum for ferdighetsnivået i standarder;
      antall timer videregående elever bruker på lekser og gjennomsnittskarakter;
      mengden gjødsel som tilføres jorda og utbyttet av en bestemt avling.

I dette tilfellet kan du gå to veier. Den første, mer alvorlig og praktisk nyttig: du kommer ikke bare med en hypotetisk korrelasjon, men finner også faktiske data om det i litteraturen. Den andre måten er enklere: du behandler det som et spill for å forstå hva korrelasjon er og utvikle de tekniske ferdighetene til å analysere det, og komme opp med tilsvarende data, og prøve å gjøre det på den mest plausible måten.

Unified State Exam i informatikk er en valgfri eksamen som søkere til IT-fag tar. En ekspert på Unified State Examination, en spesialist i pedagogisk og metodisk arbeid, og en utvikler av forberedelsesprogrammer til informatikkeksamenen snakket om hvordan man best forbereder seg til denne eksamenen. Lyudmila Gontar.

Hvordan er dagens situasjon med informatikk i ungdomsskolen? Hvor godt kan skolebarn informatikk?
På en vanlig skole avsettes en til to timer i uken til informatikk. Samtidig inneholder læreplanen ganske mye materiale; skolebarn studerer ulike emner. I prinsippet kan vi si at barn kan datavitenskap godt. Stort sett kommer elever med gode og gode karakterer til kursene mine. Men jeg kan analysere kunnskapsnivået om individuelle datavitenskapelige emner som er nødvendige for bestått Unified State-eksamenen, og her er ikke alt så bra. Forbered deg spesielt til Unified State-eksamenen skoletimer Det er vanskelig nok. Informatikk er et valgfag, og for å få en høy poengsum her, trenger du tilleggskunnskap og følgelig tilleggsklasser for å studere visse emner mer i dybden. Det kan være selvstudium, et valgfag på skolen, klasser med veileder eller kurs - valget er opp til elevene og deres foreldre.

I fjor, fra første del av Unified State Exam i informatikk, ble alle testoppgaver som krevde å velge riktig svar ekskludert. Nå skal eksamensdeltakerne selv legge inn besvarelsen. Hvor vanskelig gjorde dette eksamen?
Dette er en veldig god innovasjon. Eksamen ble vanskeligere for svake elever, da valg av svar gjorde at de kunne finne den riktige ved hjelp av en utvalgsmetode. For resten av barna var ikke eksamen vanskelig.

Etter din erfaring, hvilke områder innen informatikk er de vanskeligste for skolebarn og forårsaker mest vanskeligheter? Hvilke emner er de enkleste?
Flere BRUK-oppgaver kan klassifiseres under ett stort emne. Derfor er det bedre å si at det er oppgaver der skolebarn gjør flest feil. Jeg vil navngi numrene deres: dette er oppgavene nr. 5, nr. 9, nr. 10, nr. 11, nr. 12, nr. 16, nr. 18 og nr. 23. De fem første er grunnleggende spørsmål om emner som "Ujevn og enhetlig koding", "Koding av tekst, lyd, bitmapbilder", "Rekursive algoritmer" og "Adressering på Internett". De vanligste årsakene til problemer med disse oppgavene er beregningsfeil eller mekanistisk mestring av emnet. Når spørsmålet endres, er eleven tapt, selv om løsningen på problemet ikke endres.

Oppgave nr. 16, nr. 18 og nr. 23 vurderes knapt eller ikke i det hele tatt i skoleløpet. Nr. 16 og nr. 18 er oppgaver på avansert nivå for barn som sikter mot høy poengsum. Oppgave nr. 16 relaterer seg til temaet "Regnesystemer", og feilene her er hovedsakelig beregningsmessige. I oppgave nr. 18 om transformasjon av logiske uttrykk gjør nyutdannede oftest feil i utførelsesteknikken. Men oppgave nr. 23 er teknisk sett den vanskeligste av hele første del av Unified State Exam, bare de mest forberedte skoleelevene fullfører den.

I tillegg bør ikke informatikk tas av barn som har problemer med matematikk. Hvis du har vanskeligheter med matematikk, vil det være vanskelig i informatikk. Disse to fagene er svært nært beslektet.

Hvis vi snakker om det meste enkle emner, så er disse "Binære tallsystemer", "Sannhetstabeller for logiske beregninger", "Database og filsystemer", "Regneark", "Variabler, tildelingsoperatør" og "beregningsalgoritmer". Alle gjenspeiles i oppgavene nr. 1 til nr. 6, som utføres av nesten alle elever, også de svake.

Hvilke oppgaver på Unified State Exam i informatikk er verdt flest poeng? Hva er den beste måten å forberede seg på dem?
Jo høyere oppgavenummer, jo høyere poengsum - slik fungerer Unified State Exam. Den siste oppgaven - nr. 27 - er vurdert høyere enn resten, nemlig 4 poeng av de innledende 35. For oppgave nr. 26 og nr. 24 kan du få 3 poeng, for oppgave nr. 25 - 2 poeng, Nei 23 - 1 poeng. De fire oppgavene i del 2 (nr. 24-27) utgjør 34 poeng av 100 prøvepoeng, det vil si mer enn en tredjedel av maksimal poengsum til eksamen.

For å forberede deg godt på disse oppgavene, må du fullføre et stort nummer avøvelser og jobb med feil hver gang. Det er også viktig å søke hjelp hos en lærer her, siden det tar mye mer tid å mestre alt dette på egenhånd.

Finnes det en "formel for suksess" som vil hjelpe deg med å forberede deg til Unified State-eksamenen i informatikk på best mulig måte?
Den første regelen er arbeid: du må jobbe, jobbe og jobbe igjen. Den andre hemmeligheten er å jobbe med feil; det må gjøres uten feil. Og for det tredje, når du fullfører en oppgave, les spørsmålet nøye fra begynnelse til slutt for å unngå uoppmerksomme feil. Det er synd når skoleelever svarer på feil spørsmål som stilles i problemet.
Hvilke kilder anbefaler du å bruke til selvstudium til eksamen?
1. "FIPI-nettsted";
2. "Site of K. Polyakov";
3. Samlinger testoppgaver Unified State Exam og FIPI-treningsøvelser.

Hva er fallgruvene i oppgavene i del 2? Hva bør du være oppmerksom på når du forbereder deg på oppgaver med økt kompleksitet?
Oppgave nr. 24 Her må du kunne utføre og forstå en algoritme skrevet i et programmeringsspråk. Hvis du forstår, betyr det at du vil fullføre oppgavene som er angitt i problemet; hvis du ikke gjør det, vil du ikke gjøre det. Denne oppgaven stiller to eller tre spørsmål, og det første av dem inneholder hemmeligheten til å forstå algoritmen og finne de feilene som foreslås funnet, skrevet ned og rettet. Svar på det første spørsmålet først, dette vil hjelpe deg å forstå algoritmen og finne feil.

Oppgave nr. 25 For å fullføre denne oppgaven er det først og fremst nødvendig å analysere problemalgoritmene foreslått i FIPI "Unified State Examination Codifier in Computer Science". Oppgaven krever at du lager en algoritme for å løse et problem i et programmeringsspråk, spesielt for å kunne jobbe med tall, for å kunne velge tall med de nødvendige betingelsene fra et sett med tall, for å jobbe i et hvilket som helst tallsystem , og å kjenne tegnene på delbarhet. Hvis gutta studerte "Algorithmics" på skolen, er det lettere for dem å fullføre denne oppgaven. Skolebarn som kommer til klassene mine og ikke er kjent med dette emnet, begynner først og fremst å konsekvent studere algoritmene fra "Codifier".

Oppgave nr. 26 I denne oppgaven er det viktig å finne svaret på det foreslåtte spørsmålet, formulere et fullstendig svar og bevise riktigheten av det valgte svaret.

Oppgave nr. 27 Oppgaven er kreativ – og den eneste der den nyutdannede skal skrive et program selvstendig. Vanligvis er det vellykket utført av skolebarn som har skrevet programmer i flere år og kan matematikk godt. Oppgaven er verdt enten 2 poeng eller 4. I timene jobber jeg med gutta i detalj om nyansene i denne oppgaven slik at de får maksimalt poeng på eksamen.

Det er én måned igjen til Unified State-eksamen i informatikk. Hvordan vil du råde nyutdannede til å bruke tiden sin?
I den gjenværende tiden må du trene hardt for å konsolidere de ervervede ferdighetene. Det er nødvendig å løse så mange problemer som mulig og separat arbeide med de oppgavene som forårsaker de største vanskelighetene med å fullføre. Hvis du forberedte deg til Unified State-eksamen på egenhånd, er det veldig viktig å nå rådføre seg med en lærer, fordi hver oppgave har sin egen vri som du trenger å vite.

«Galton var sterkt imponert over Darwins evolusjonsteori, og spesielt av ideen om at individer som tilhører samme biologiske art skiller seg fra hverandre. Individuelle egenskaper som fremmer overlevelse er gjenstand for "naturlig utvalg" og videreført til avkom. Galton mente at intelligens var en egenskap som varierte mellom individer, var viktig for å overleve, og ble arvet på samme måte som fysiske egenskaper som øyenfarge eller høyde. Han samlet fakta som bekreftet arvbarheten til intelligens, og ga ut to bøker om dette problemet: Hereditary Geniuses (1869) og English Scientists: Nature and Nurture (1874). Sistnevnte arbeid populariserte begrepene "natur" og "pleie" som er allment kjent i dag. I sitt arbeid bemerket Hupton en statistisk tendens til at genialitet og evner på visse felt (for eksempel evne til kjemi eller jus) kan spores tilbake gjennom flere generasjoner i en familie. Han undervurderte imidlertid påvirkningen fra miljøet og konkluderte med at genialitet oppstår som et resultat av overføring av arvelig informasjon. Han argumenterte sitt synspunkt, spesielt med det faktum at intelligens i en befolkning har normal distribusjon. Andre arvelige egenskaper (som høyde) har også en normalfordeling, og derfor tok Galton dette statistiske faktum som en indikator på påvirkning av arv.

Først i 1888 klarte forskeren å vise den høye frekvensen av forekomst av slike egenskaper som geni i familier: han formulerte ideene sine i et verk med tittelen "Korrelasjon og dens måling." Først oppdaget Galton at data kunne organiseres i rader og kolonner på en spesiell måte og kom opp med prototypen på dagens "spredningsplott." For det andre la Galton merke til at når "korrelasjonen" var ufullstendig, begynte et mønster å dukke opp. Foreldre med høyde over gjennomsnittet hadde høye barn, men ganske ofte var de ikke like høye som mor og far. Foreldre med høyde under gjennomsnittet hadde barn som var lave, men ikke så lave. Dette betyr at barns høyde har en tendens til å være forkrøplet, eller regress, mot det aritmetiske gjennomsnittet i befolkningen.

Fenomenet «regression to the mean», som utgjør en trussel mot forskningens interne gyldighet, er en av Galtons mest bemerkelsesverdige oppdagelser.

Galtons tredje observasjon var at en graf av det aritmetiske gjennomsnittet for hver kolonne i spredningstabellen ga en mer eller mindre rett linje. I hovedsak er det en type "regresjonslinje". Dermed oppdaget Galton de viktigste egenskapene til korrelasjonsanalyse.

Etter å ha lest om Galtons arbeid, fortsatte Karl Pearson sin forskning på dette området og utviklet en formel for å beregne korrelasjonskoeffisienten. Han merket koeffisienten "r", som står for "regresjon", til ære for Galtons oppdagelse av regresjon til gjennomsnittet. Etter Galton mente Pearson at korrelasjonsanalyse bekrefter ideen om arvbarheten til mange eiendommer funnet i individuelle familier.» (Sitert av Goodwin D., Research in Psychology. Peter, 2004, s. 312-313).

Variabler anses å være korrelerte hvis det er noen sammenheng mellom dem. Dette antydes av selve begrepet "korrelasjon" - gjensidig forbindelse, forhold. I tilfelle av direkte eller positiv korrelasjon er forholdet slik at høye verdier av en variabel er assosiert med høye verdier av en annen, og lave verdier av den første med lave verdier av den andre. En negativ korrelasjon betyr en omvendt sammenheng. Høye verdier av en variabel er assosiert med lave verdier for en annen, og omvendt.

Forholdet mellom tid viet til studier og karakterer er et eksempel på en positiv sammenheng. Et eksempel på en negativ korrelasjon vil være forholdet mellom bortkastet tid og GPA. bortkastet tid kan være operativt definert som antall timer per uke brukt på spesifikke aktiviteter, for eksempel å spille videospill eller se på TV-serier.

Styrken til korrelasjonen vises av en spesiell verdi av beskrivende statistikk - "korrelasjonskoeffisienten". Korrelasjonskoeffisienten er -1,00 for en direkte negativ korrelasjon, 0,00 for ingen korrelasjon og +1,00 for en perfekt positiv korrelasjon. Den vanligste korrelasjonskoeffisienten er Pearsons r. Pearson r beregnes for data innhentet vha intervall- eller forholdsskala. For andre måleskalaer vurderes andre typer korrelasjon. For eksempel, for ordinaldata (det vil si ordnet), beregnes Spearmans ρ(rho) (ellers kjent som r s).

Akkurat som det aritmetiske gjennomsnittet og standardavviket, er korrelasjonskoeffisienten en beskrivende statistikk. Den endelige analysen avgjør om en bestemt korrelasjon er betydelig større (eller mindre) enn null. For korrelasjonsstudier sier altså nullhypotesen (H 0) at den faktiske verdien av r = 0 (dvs. det er ingen sammenheng), og den alternative hypotesen (H 1) sier at r ≠ 0. For å forkaste nullhypotesen er å bestemme at det er en signifikant sammenheng mellom to variabler.

Spredningsplott

Styrken til korrelasjonen kan oppdages ved å se på et spredningsplott. Det er en grafisk fremstilling av forholdet som korrelasjonen indikerer. Ved en fullstendig positiv eller helt negativ korrelasjon danner punktene en rett linje, og en nullkorrelasjon gir et type (a) spredningsplott hvis punkter er fordelt tilfeldig. Sammenlignet med moderat korrelasjon (d og e), er sterke punkter plassert nærmere hverandre (b og c). Generelt, når korrelasjonen svekkes, beveger punktene på spredningsplottet seg lenger bort fra diagonalen som forbinder punktene ved full korrelasjon. oppstemthet lik +1,00 eller -1,00.

a) r = 0 b) r = -0,9 c) r = +0,9

d) r = - 0,56 d) r = +0,61

Spredningsplottene diskutert ovenfor (bortsett fra a) ble tilnærmet med rette linjer, det vil si at de reflekterte lineære avhengigheter. Imidlertid er ikke alle sammenhenger lineære, og å beregne Pearsons r for et ikke-lineært tilfelle vil ikke bidra til å avsløre naturen til et slikt forhold. Den følgende figuren viser et hypotetisk eksempel på forholdet mellom opphisselse og oppgaveutførelse, og illustrerer Yerkes-Dodson-loven: komplekse oppgaver utføres godt ved moderate nivåer av opphisselse, men dårlig på svært lave og svært høye nivåer. Spredningsplottet viser at punktene faller langs en bestemt kurve, men hvis vi prøver å bruke lineær korrelasjon vil vi få r nær null.

Når du utfører korrelasjonsforskning, er det viktig å ta hensyn til personer som har skåre innenfor et bredt spekter. Å begrense rekkevidden til en eller begge variablene reduserer korrelasjonen. Anta at vi studerer forholdet mellom GPA og akademiske prestasjoner ved et universitet (vurdert ved gjennomsnittlig poengsum oppnådd av freshmen ved slutten av året). I fig. a) viser hvordan et spredningsplott kan se ut i en studie med 25 elever. Korrelasjonskoeffisienten er +0,87. Men hvis du studerer dette forholdet ligatur ved å bruke eksemplet med elever som fikk en gjennomsnittlig poengsum på skolen på 4,5 og høyere, t o korrelasjonen vil endre seg, den faller til +0,27.

a) r = 0,87 b) r = 0,27

Bestemmelseskoeffisient – ​​g 2

Det er viktig å huske på at det er ganske enkelt feil forstå betydningen av en bestemt Pearson r-verdi. Hvis den er +0,70, er forholdet faktisk relativt sterkt, men tror ikke at +0,70 på en eller annen måte er relatert til 70 %, og i dette tilfellet er forholdet etablert ved 70%. Dette er ikke sant. For å tolke korrelasjonsverdien bør bestemmelseskoeffisienten (r 2) brukes. Den finnes ved å kvadrere r, og verdien er derfor aldri negativ. Denne koeffisienten er formelt definert som graden av variabilitet i en korrelasjonsvariabel forårsaket av variabilitet i en annen variabel. La oss forklare dette med et spesifikt eksempel.

Det gjennomføres en studie der 100 deltakere blir målt for nivåer av emosjonell depresjon og GPA. Vi tester sammenhengen mellom de to variablene og finner en negativ korrelasjon: jo høyere nivå av depresjon, jo lavere gjennomsnittsskår, og omvendt, jo lavere depresjon, jo høyere gjennomsnittsskår. Tenk på to korrelasjonsverdier som kan fås fra denne studien - -1,00 og -0,50. Bestemmelseskoeffisienten vil være lik henholdsvis 1,00 og 0,25. For å forstå betydningen av disse verdiene, må du først vurdere at den gjennomsnittlige poengsummen på 100 personer som er studert sannsynligvis vil variere fra 3,0 til 5,0. Som forskere ønsker vi å finne ut årsaken til slik variasjon– hvorfor en person får 3,2 poeng og en annen 4,4, osv. Vi vil med andre ord vite hva som forårsaker individuelle forskjeller i GPA? Faktisk, dette kan skyldes flere faktorer: studievaner, generell intelligensnivå, emosjonell stabilitet, tendens til å velge enkle emner å studere, osv. Som vist av depresjonstestresultater, vår hypotetiske studie undersøker en av disse faktorene- følelsesmessig stabilitet, G 2 viser hvor mye variasjon i gjennomsnittsskårer kan tilskrivesdirekte med depresjon. I det første tilfellet, hvor r = -1,00 og r 2 = 1,00, kan vi konkludere med at 100 % av variasjonen i gjennomsnittsskårer skyldes variasjon i depresjonsskårene. Derfor kan vi si at 100 % av forskjellene mellom gjennomsnittsskår (3,2 og 4,4 osv.) skyldes depresjon. I en ekte studie kan et slikt resultat selvfølgelig ikke oppnås. I det andre tilfellet, hvor r = -0,5 og r 2 = 0,25, vil bare en fjerdedel (25%) av variansen i gjennomsnittsskår skyldes depresjon. De resterende 75 % skyldes andre faktorer som ligner de som er oppført ovenfor. Kort sagt er bestemmelseskoeffisienten et bedre mål på styrken til et forhold enn Pearsons r.

Regresjonsanalyse: Gjøre antagelser

Det viktigste ved korrelasjonsstudier er muligheten hvis det er en sterk sammenheng gjøre antagelser om fremtidig atferd. Korrelasjonen mellom to variabler gjør det mulig, basert på verdiene til en av dem, å forutsi verdiene til den andre. Dette er enkelt å vise ved å bruke et eksempel med gjennomsnittlig poengsum. Hvis vi vet at tid viet til studier og GPA er korrelert, og at noen studerer 45 timer i uken, kan vi nøyaktig forutsi en relativt høy GPA for den studenten. På samme måte vil en høy GPA forutsi studietiden din. Å gjøre antagelser basert på korrelasjonsstudier kalles regresjonsanalyse.

I fig. viser et spredningsplott for: a) tid viet til studier og GPA og b) bortkastet tid og GPA. Hver graf viser også en regresjonslinje, som brukes til å gjøre antakelser. Regresjonslinjen kalles også den "optimale linjen": den representerer den best mulige måten å oppsummere poengene til et spredningsplott. Dette betyr at de absolutte verdiene av de vertikale avstandene mellom hvert punkt på grafen og regresjonslinjen er minimale.

Regresjonslinjen beregnes ved hjelp av formelen Y = en + b X, der a er punktet der den rette linjen skjærer Y-aksen (dvs. segmentet avskåret på Y-aksen), en b– dette er helningsvinkelen til den rette linjen, eller dens relative bratthet. X er en kjent størrelse, og Y er mengden vi prøver å forutsi. Ved å vite 1) styrken på korrelasjonen og 2) standardavviket for de korrelerte variablene kan vi beregne mengden b, å vite 1) verdien b og 2) gjennomsnittsverdiene til de korrelerte variablene kan bli funnet EN.

Regresjonsanalyse bruker en regresjonsligning for å forutsi en Y-verdi (som GPA) basert på en X-verdi (som tid viet til å studere). Y kalles noen ganger kriterierl variabel, og X - predikat-revet variabel. Men for å gjøre nøyaktige antakelser, må korrelasjonen være godt over null. Jo høyere korrelasjon, jo nærmere spredningsplott-punktene vil være regresjonslinjen, og jo sikrere vil du være på at antakelsene dine er riktige. Dermed reduserer rekkeviddebegrensningsproblemet som er nevnt tidligere, som reduserer korrelasjonen, også gyldigheten av spådommer.

En regresjonsligningsgraf viser hvordan du lager spådommer ved hjelp av en regresjonslinje.

For eksempel hvilken gjennomsnittskarakter som bør forventes av en student som bruker 34 timer i uken på å studere. For å få svaret trekker vi perpendikulære fra X-aksen til regresjonslinjen, og deretter fra skjæringspunktet til Y-aksen. Verdien av punktet på Y-aksen vil være den estimerte verdien (husk at riktigheten av antakelsen avhenger av styrken på korrelasjonen). Dermed ville 40 timers studietid forutsi en GPA på 3,4, og bortkastede 41 timer ville forutsi en GPA like over 2,3. Ved bruk av formler regresjon kan beregne mer nøyaktige verdier og gjøre mer nøyaktige spådommer.

Du bør vite at regresjonsanalyse brukes i de fleste studiene vi lærer om fra media.

For eksempel kan vi støte på en rapport fra en studie om «risikofaktorer for hjerteinfarkt» som, basert på en signifikant sammenheng mellom røyking og hjertesykdom, konkluderer med at storrøykere er mer sannsynlig å utvikle hjerte- og karsykdommer enn ikke-røykere. Dette betyr at røyking er en prediktor for hjertesykdom. Basert på en annen studie som undersøker «profilen til en voldelig ektefelle», kan det konkluderes med at sannsynligheten for slik atferd øker dersom gjerningsmannen er arbeidsledig. Dette følger av sammenhengen mellom arbeidsledighet og tendensen til krenkende atferd. Basert på tilstedeværelsen av korrelasjon ved hjelp av regresjonsanalyse Når vi kjenner den første, kan vi anta den andre.

Korrelasjonsavhengigheter

Matematiske regresjonsmodeller bygges i tilfeller der det er kjent at det eksisterer en sammenheng mellom to faktorer og det kreves for å få dens matematiske beskrivelse. Nå skal vi se på problemer av et annet slag. La viktig egenskap av et komplekst system er faktor A. Den kan påvirkes samtidig av mange andre faktorer: B, C, D og så videre.

Vi vil vurdere to typer problemer - vi må bestemme:

1. har faktor B noen merkbar regelmessig effekt på faktor A;

Som et eksempel på et komplekst system vil vi vurdere en skole. For den første typen problem, la faktor A være den gjennomsnittlige akademiske ytelsen til skoleelever, og faktor B være skolens økonomiske utgifter for økonomiske behov: bygningsrenovering, oppdatering av møbler, estetisk utforming av rommet osv. Her er ikke påvirkningen av faktor B på faktor A åpenbar. Sannsynligvis har andre årsaker en mye sterkere innflytelse på akademiske prestasjoner: lærernes kvalifikasjonsnivå, antall elever, nivået tekniske midler trening og andre.

Statistikere vet at for å identifisere avhengighet av en bestemt faktor, er det nødvendig å utelukke så mye som mulig påvirkning av andre faktorer. Enkelt sagt, når du samler inn informasjon fra forskjellige skoler, må du velge skoler som har omtrent samme studentpopulasjon, lærerkvalifikasjoner osv., men skolens driftsutgifter er forskjellige (noen skoler kan ha rike sponsorer, andre kanskje ikke).


Så la skolens forretningsutgifter uttrykkes med antall rubler per antall elever på skolen (rub/person) brukt over en viss tidsperiode (for eksempel i løpet av de siste 5 årene). La akademiske prestasjoner vurderes ut fra den gjennomsnittlige poengsummen til skoleelever basert på resultatene fra deres siste skoleår. Nok en gang gjør vi oppmerksom på at i statistiske beregninger brukes vanligvis relative og gjennomsnittlige verdier.

Resultatene av datainnsamling for 20 skoler, lagt inn i et regneark, er presentert i fig. 1. I fig. Figur 2 viser et spredningsplott konstruert fra disse dataene.

Ris. 1 Statistikk

Ris. 2 Spredningsplott

Verdiene av begge mengdene: økonomiske kostnader og studentprestasjoner har en betydelig spredning, og ved første øyekast er forholdet mellom dem ikke synlig. Imidlertid kan det godt eksistere.

Avhengigheter mellom størrelser, som hver er gjenstand for fullstendig ukontrollerbar spredning, kalles korrelasjonsavhengigheter.

Kapittel matematisk statistikk som undersøker slike avhengigheter kalles korrelasjonsanalyse. Korrelasjonsanalyse studerer den gjennomsnittlige oppførselsloven for hver mengde avhengig av verdiene til en annen mengde, samt mål på slik avhengighet.

Vurderingen av korrelasjonen av verdier begynner med en hypotese om den mulige arten av forholdet mellom deres verdier. Oftest antas en lineær sammenheng. I dette tilfellet er målet for korrelasjonsavhengighet en verdi som kalles korrelasjonskoeffisienten. Som før vil vi ikke skrive formlene som det beregnes etter; De er ikke vanskelige å skrive, men det er mye vanskeligere å forstå hvorfor de er som de er. På sånn som det er nå Alt du trenger å vite er følgende:

· Korrelasjonskoeffisienten (vanligvis betegnet med den greske bokstaven ρ) er et tall fra -1 til +1;

· hvis dette tallet er nær 1 i absolutt verdi, så er det en sterk korrelasjon, hvis det er nær 0, så er det svakt;

· nærhet av ρ til +1 betyr at en økning i ett sett med verdier tilsvarer en økning i et annet sett, nærhet til -1 betyr det motsatte;

· verdien av ρ er lett å finne ved hjelp av Excel (innebygde statistiske funksjoner).

I Excel kalles funksjonen for å beregne korrelasjonskoeffisienten CORREL og er en del av gruppen statistiske funksjoner. Vi viser deg hvordan du bruker den. På samme Excel-ark hvor tabellen vist i fig. 1, må du plassere markøren på en hvilken som helst ledig celle og kjøre CORREL-funksjonen. Den vil be om to verdiområder. Vi vil angi kostnader og ytelse. Etter å ha lagt inn dem, vil svaret vises: ρ = 0,. Denne verdien indikerer et gjennomsnittlig korrelasjonsnivå.

Sammenhengen mellom skoledriftskostnader og faglige prestasjoner er ikke vanskelig å forstå. Elevene går gjerne på en ren, vakker og koselig skole, de føler seg hjemme der og studerer derfor bedre.

I det følgende eksempelet utføres en studie for å bestemme avhengigheten av ytelsen til elever på videregående skole av to faktorer: rikdom skolebibliotek lærebøker og levering av skoledatamaskiner. Begge egenskapene er kvantitativt uttrykt som en prosentandel av normen. Standardbestemmelsen for lærebøker er deres fult sett, det vil si beløpet når hver student får utdelt fra biblioteket alle bøkene han trenger til studiene. Vi vil vurdere antall datamaskiner som normen slik at det er én datamaskin for hver fire videregående skoleelever på skolen. Det forutsettes at elevene bruker datamaskiner ikke bare i informatikk, men også i andre timer, samt i fritidstimer.


I tabellen vist i fig. Tabell 3 viser resultatene av måling av begge faktorene på 11 ulike skoler. La oss huske at påvirkningen av hver faktor studeres uavhengig av de andre (det vil si at påvirkningen av andre signifikante faktorer bør være omtrent den samme).

Lineære korrelasjonskoeffisienter ble oppnådd for begge avhengighetene. Som det fremgår av tabellen, er korrelasjonen mellom tilbudet av lærebøker og akademiske prestasjoner sterkere enn korrelasjonen mellom datastøtte og akademiske prestasjoner (selv om begge korrelasjonskoeffisientene ikke er veldig store). Av dette kan vi konkludere med at boken fortsatt er en viktigere kilde til kunnskap enn datamaskinen.

Kort om det viktigste

Avhengigheter mellom størrelser, som hver er gjenstand for fullstendig ukontrollerbar spredning, kalles korrelasjoner.

Ved hjelp av korrelasjonsanalyse kan du løse følgende problemer: finne ut om en faktor har en betydelig innvirkning på en annen faktor; velg den mest betydningsfulle fra flere faktorer.

Et kvantitativt mål på korrelasjonen mellom to størrelser er korrelasjonskoeffisienten.

Verdien av korrelasjonskoeffisienten ligger mellom -1 og +1. Jo nærmere dens absolutte verdi er 1, desto sterkere er korrelasjonen (forbindelsen).

I MS Excel, for å bestemme korrelasjonskoeffisienten, brukes CORREL-funksjonen fra gruppen av statistiske funksjoner.

Spørsmål og oppgaver

1. Hva er korrelasjonsavhengighet?

2. Hva er korrelasjonsanalyse?

3. Hvilke typer problemer kan løses ved hjelp av korrelasjonsanalyse?

4. Hvilken verdi er et kvantitativt mål på korrelasjon? Hvilke verdier kan det ta?

5. Ved hjelp av hvilken regnearkprosessor kan du beregne korrelasjonskoeffisienten?

6. For dataene fra tabellen presentert i fig. 3, bygge to lineære regresjon modeller.

7. For de samme dataene, beregne korrelasjonskoeffisienten. Sammenlign med de som er vist i fig. 3 resultater.

Dataverksted "Beregning av korrelasjonsavhengigheter i MS Excel"

Mål med arbeidet: å få en ide om korrelasjonsavhengigheten av mengder; mestre metoden for å beregne korrelasjonskoeffisienten ved å bruke CORREL-funksjonen.

Programvare som brukes: MS Excel regnearkprosessor.

Oppgave 1. Tabellen nedenfor inneholder data om parvise målinger av to mengder gjort på en bestemt skole: lufttemperatur i klasse x og andel elever med forkjølelse y:

Avhengigheten er av statistisk natur, siden det for eksempel er umulig å si pålitelig at ved en temperatur på 15 °C på skolen er 5 % av elevene syke, og ved en temperatur på 20 °C – 2 %. I tillegg til temperatur er det andre faktorer som påvirker forkjølelse, forskjellige for ulike skoler, og det er umulig å kontrollere dem alle.

Gjør følgende:

Þ bruk et spredningsplott for å visuelt vise tabellavhengigheten;

Þ svar på spørsmålet om det, basert på dette spredningsdiagrammet, er mulig å anta at det er en lineær korrelasjon mellom mengdene;

Þ hvis svaret er åpenbart negativt, så korriger tabellen slik at hypotesen om en lineær korrelasjon blir mer plausibel;

Þ bruk CORREL-funksjonen, finn korrelasjonskoeffisienten og bekreft eller avkreft den spesifiserte hypotesen.

Oppgave 2. Kom opp med en tabell med parvise målinger av verdiene til noen størrelser som det er en hypotetisk korrelasjon mellom. Analyser denne sammenhengen for tilstedeværelsen av en lineær korrelasjon.

Eksempler på relevante relaterte mengder inkluderer:

ü utdanningsnivå (målt for eksempel i utdanningsår generelt) og nivå på månedlig inntekt;

ü utdanningsnivå og stillingsnivå (for sistnevnte, kom opp med en konvensjonell skala);

ü antall datamaskiner på skolen per elev og gjennomsnittlig poengsum ved testing av ferdighetsnivået i standardteknologier Informasjonsbehandling ;

ü antall timer brukt av en videregående elev på lekser og gjennomsnittskarakteren;

ü mengden gjødsel som tilføres jorda og utbyttet av en bestemt landbruksavling.

I dette tilfellet kan du gå to veier. Den første, mer alvorlig og praktisk nyttig - du kommer ikke bare med en hypotetisk korrelasjon, men finner også faktiske data om det i litteraturen. Den andre måten, enklere - du anser denne oppgaven som et spill som er nødvendig for å forstå hva en korrelasjon er, og utvikle de tekniske ferdighetene til analysen, og komme opp med tilsvarende data, og prøve å gjøre dette på den mest plausible måten.