Primer intervalne variacijske serije. V

Pri obdelavi velikih količin informacij, kar je še posebej pomembno pri izvajanju sodobnega znanstvenega razvoja, se raziskovalec sooča z resno nalogo pravilnega združevanja izvornih podatkov. Če so podatki diskretne narave, potem, kot smo videli, ne nastanejo nobene težave - samo izračunati morate frekvenco vsake lastnosti. Če ima preučevana lastnost neprekinjeno znak (kar je v praksi bolj pogosto), potem izbira optimalnega števila intervalov združevanja značilnosti nikakor ni nepomembna naloga.

Za združevanje zveznih naključnih spremenljivk je celotno variacijsko območje značilnosti razdeljeno na določeno število intervalov. Za.

Skupinski interval (neprekinjeno) variacijske serije se imenujejo intervali, razvrščeni po vrednosti atributa (), kjer so števila opazovanj, ki spadajo v i"-ti interval, ali relativne frekvence (), navedene skupaj z ustreznimi frekvencami ():

Intervali karakterističnih vrednosti
frekvenca mi

Histogram in kumulacija (ogiva), ki smo jih že podrobno obravnavali, so odlično sredstvo za vizualizacijo podatkov, ki vam omogoča, da dobite primarno predstavo o strukturi podatkov. Takšni grafi (sl. 1.15) so zgrajeni za zvezne podatke na enak način kot za diskretne podatke, le ob upoštevanju dejstva, da zvezni podatki popolnoma zapolnijo območje njihovih možnih vrednosti in prevzamejo poljubne vrednosti.

riž. 1.15.

zato stolpca na histogramu in kumulatu se morata dotikati drug drugega in nimata območij, kjer vrednosti atributov ne spadajo v vse možne(tj. histogram in kumulacije ne smejo imeti "lukenj" vzdolž osi abscise, ki ne vsebujejo vrednosti proučevane spremenljivke, kot na sliki 1.16). Višina stolpca ustreza frekvenci – številu opazovanj v določenem intervalu ali relativni frekvenci – deležu opazovanj. Intervali se ne smejo sekati in so običajno enake širine.

riž. 1.16.

Histogram in poligon sta približka krivulje gostote verjetnosti (diferencialna funkcija) f(x) teoretična porazdelitev, obravnavana pri teoriji verjetnosti. Zato je njihova konstrukcija tako pomembna pri primarni statistični obdelavi kvantitativnih zveznih podatkov - po njihovem videzu je mogoče soditi hipotetični zakon porazdelitve.

Cumulate – krivulja akumuliranih frekvenc (frekvenc) intervala variacijske serije. Graf funkcije kumulativne porazdelitve primerjamo s kumulato F(x), o čemer se razpravlja tudi pri predmetu teorije verjetnosti.

V bistvu sta koncepta histograma in kumulacije povezana posebej z zveznimi podatki in njihovimi serijami intervalnih variacij, saj so njuni grafi empirične ocene funkcije gostote verjetnosti oziroma porazdelitvene funkcije.

Konstrukcija intervalne variacijske serije se začne z določitvijo števila intervalov k. In ta naloga je morda najtežja, pomembna in kontroverzna v tem vprašanju.

Število intervalov ne sme biti premajhno, ker bo histogram postal preveč gladek ( preveč zglajen), izgubi vse značilnosti variabilnosti izvirnih podatkov - na sl. 1.17 lahko vidite, kako isti podatki, na katerih so prikazani grafi na sl. 1.15, ki se uporablja za izdelavo histograma z manjšim številom intervalov (levi graf).

Hkrati število intervalov ne sme biti preveliko - sicer ne bomo mogli oceniti gostote porazdelitve proučevanih podatkov vzdolž numerične osi: histogram bo premalo zglajen (premalo zglajeno), s praznimi intervali, neenakomerno (glej sliko 1.17, desni graf).

riž. 1.17.

Kako določiti najprimernejše število intervalov?

Leta 1926 je Herbert Sturges predlagal formulo za izračun števila intervalov, na katere je treba razdeliti prvotni niz vrednosti značilnosti, ki se preučuje. Ta formula je resnično postala izjemno priljubljena - ponuja jo večina statističnih učbenikov in številni statistični paketi jo uporabljajo privzeto. Koliko je to upravičeno in v vseh primerih, je zelo resno vprašanje.

Torej, na čem temelji Sturgesova formula?

Razmislimo binomska porazdelitev }