Аннотациялар Мәлімдеме Оқиға

Интервалдық вариация қатарының мысалы. В

Қазіргі заманғы ғылыми әзірлемелерді жүзеге асыру кезінде ерекше маңызды болып табылатын үлкен көлемдегі ақпаратты өңдеу кезінде зерттеушінің алдында бастапқы деректерді дұрыс топтастыру маңызды міндет тұр. Егер деректер табиғатта дискретті болса, онда біз көргеніміздей, ешқандай проблемалар туындамайды - тек әрбір мүмкіндіктің жиілігін есептеу керек. Зерттелетін сипаттама болса үздіксізтабиғат (тәжірибеде жиі кездеседі), онда мүмкіндіктерді топтастыру аралықтарының оңтайлы санын таңдау ешбір тривиальды міндет емес.

Үздіксіз кездейсоқ шамаларды топтау үшін сипаттаманың барлық вариациялық диапазоны белгілі бір интервалдар санына бөлінеді. Кімге.

Топтастырылған интервал (үздіксіз) вариациялық қатар() атрибутының мәні бойынша реттелген интервалдар деп аталады, мұнда r" интервалына түсетін бақылаулар саны немесе салыстырмалы жиіліктер () сәйкес жиіліктермен () бірге көрсетіледі:

Сипаттама мән интервалдары

mi жиілігі

бағаналы диаграммаЖәне жинақтау (огива),Біз егжей-тегжейлі талқылаған, бұл деректер құрылымы туралы негізгі түсінік алуға мүмкіндік беретін деректерді визуализациялаудың тамаша құралы. Мұндай графиктер (1.15-сурет) үзіліссіз деректер үшін дискретті деректер сияқты, тек қана үздіксіз деректер кез келген мәндерді қабылдай отырып, олардың мүмкін мәндерінің облысын толығымен толтыратынын ескере отырып құрастырылады.

Күріш. 1.15.

Сондықтан гистограммадағы және жинақтағы бағандар бір-біріне тиіп тұруы керек және атрибут мәндері барлық мүмкін шегіне сәйкес келмейтін аймақтар болмауы керек.(яғни гистограмма мен жинақта абсцисса осінің бойында 1.16-суреттегідей зерттелетін айнымалының мәндерін қамтымайтын «саңылаулар» болмауы керек). Жолақ биіктігі жиілікке – берілген интервалға түсетін бақылаулар санына немесе салыстырмалы жиілікке – бақылаулар үлесіне сәйкес келеді. Интервалдар қиылыспауы керекжәне әдетте ені бірдей.

Күріш. 1.16.

Гистограмма және көпбұрыш ықтималдық тығыздығы қисығының жуықтауы (дифференциалдық функция) f(x)ықтималдықтар теориясы курсында қарастырылатын теориялық бөлу. Сондықтан олардың құрылысы сандық үздіксіз мәліметтерді бастапқы статистикалық өңдеуде маңызды болып табылады - олардың пайда болуы бойынша гипотетикалық таралу заңын бағалауға болады.

Кумулят – интервалдың жинақталған жиіліктерінің (жиіліктерінің) қисығы вариациялық қатар. Кумулятивтік үлестіру функциясының графигі кумулятпен салыстырылады F(x), ықтималдықтар теориясы курсында да талқыланды.

Негізінде гистограмма және кумулят ұғымдары үздіксіз деректермен және олардың интервалдық вариациялық қатарларымен арнайы байланысты, өйткені олардың графиктері сәйкесінше ықтималдық тығыздығы функциясының және таралу функциясының эмпирикалық бағалаулары болып табылады.

Интервалдық вариациялық қатарды құру интервалдар санын анықтаудан басталады к.Ал бұл тапсырма зерттеліп отырған мәселедегі ең қиыны, маңыздысы және даулысы болуы мүмкін.

Аралықтардың саны тым аз болмауы керек, өйткені бұл гистограмманы тым тегіс етеді ( шамадан тыс тегістелген),бастапқы деректердің өзгермелілігінің барлық ерекшеліктерін жоғалтады - күріш. 1.17 суреттегі графиктер бірдей деректердің қалай көрінетінін көруге болады. 1.15, азырақ интервалдар саны бар гистограмма құру үшін қолданылады (сол жақ график).

Бұл ретте интервалдар саны тым үлкен болмауы керек – әйтпесе біз зерттелетін деректердің сандық ось бойынша таралу тығыздығын бағалай алмаймыз: гистограмма аз тегістеледі. (төмен тегістелген),бос интервалдармен, біркелкі емес (1.17-суретті, оң жақтағы графикті қараңыз).

Күріш. 1.17.

Ең қолайлы интервалдар санын қалай анықтауға болады?

1926 жылы Герберт Стерджс зерттелетін сипаттама мәндерінің бастапқы жиынын бөлу қажет аралықтардың санын есептеу формуласын ұсынды. Бұл формула шын мәнінде өте танымал болды - статистикалық оқулықтардың көпшілігі оны ұсынады және көптеген статистикалық пакеттер оны әдепкі бойынша пайдаланады. Бұл қаншалықты негізделген және барлық жағдайда өте маңызды мәселе.

Сонымен, Стердж формуласы неге негізделген?

биномдық үлестіруді қарастырайық)