چکیده ها بیانیه داستان

تکالیف پروژه با موضوع وابستگی های همبستگی. وابستگی های همبستگی

هدف کار:به دست آوردن ایده ای از وابستگی همبستگی مقادیر؛ تسلط بر روش محاسبه ضریب همبستگی با استفاده از تابع KOPPEL.
نرم افزار مورد استفاده:پردازنده صفحه گسترده مایکروسافت آفیس اکسل.

تمرین 1

لازم است محاسبات مربوط به همبستگی بین عملکرد دانش آموزان و هزینه های تجاری مدرسه را که در § 38 کتاب درسی توضیح داده شده است انجام دهید.
1. صفحه گسترده را با داده های زیر پر کنید:

2. یک نمودار پراکندگی از وابستگی کمیت ها بسازید.

3. تابع آماری KOPEL را اجرا کنید و محدوده مقادیر را در کادر محاوره ای مشخص کنید: B2:B21 و C2:C21.
4. مقدار ضریب همبستگی را بنویسید.

وظیفه 2

انجام محاسبات همبستگی عملکرد دانش آموزان در تهیه کتاب های درسی و تهیه رایانه، که در جدول زیر ارائه شده است.

تکلیف برای تکمیل مستقل در موضوع "وابستگی های همبستگی"

جدولی از اندازه‌گیری‌های زوجی از مقادیر برخی از کمیت‌ها ارائه کنید که بین آنها یک همبستگی فرضی وجود دارد. این وابستگی را برای وجود یک همبستگی خطی تجزیه و تحلیل کنید.

      نمونه هایی از مقادیر مربوطه عبارتند از:
      سطح تحصیلات (مثلاً در مجموع سالهای تحصیل) و سطح درآمد ماهانه.
      سطح تحصیلات و سطح موقعیتی که در اختیار دارید (برای دومی، یک مقیاس معمولی ارائه دهید).
      تعداد رایانه های موجود در مدرسه به ازای هر دانش آموز و میانگین نمره آزمون برای سطح مهارت در فناوری های استاندارد پردازش اطلاعات؛
      تعداد ساعت‌هایی که دانش‌آموزان دبیرستانی صرف تکالیف می‌کنند و میانگین نمره.
      مقدار کود مصرفی به خاک و عملکرد یک محصول خاص.

در این مورد، شما می توانید دو راه بروید. اولین، جدی‌تر و از نظر عملی مفیدتر: شما فقط به یک همبستگی فرضی نمی‌رسید، بلکه داده‌های واقعی در مورد آن را در ادبیات پیدا می‌کنید. راه دوم ساده تر است: شما با آن به عنوان یک بازی رفتار می کنید تا بفهمید همبستگی چیست و مهارت های فنی برای تجزیه و تحلیل آن را توسعه دهید و به داده های مربوطه برسید و سعی کنید آن را به معقول ترین روش انجام دهید.

آزمون یکپارچه در رشته علوم کامپیوتر یک آزمون اختیاری است که متقاضیان رشته های فناوری اطلاعات در آن شرکت می کنند. یک کارشناس آزمون یکپارچه دولتی، متخصص کار آموزشی و روش‌شناسی و توسعه‌دهنده برنامه‌های آمادگی برای آزمون علوم کامپیوتر در مورد نحوه بهترین آمادگی برای این آزمون صحبت کردند. لیودمیلا گونتار.

در حال حاضر وضعیت علوم کامپیوتر در مدارس متوسطه چگونه است؟ دانش‌آموزان چقدر علوم کامپیوتر را می‌دانند؟
در مدرسه معمولی هفته ای یک تا دو ساعت به رشته کامپیوتر اختصاص داده می شود. در عین حال، برنامه درسی شامل مطالب بسیار زیادی است؛ دانش آموزان مدرسه مطالعه می کنند موضوعات مختلف. اصولاً می توان گفت بچه ها علوم کامپیوتر را خوب می دانند. اکثرا دانش آموزانی با نمرات خوب و عالی به دروس من می آیند. اما من می توانم سطح دانش را در مورد موضوعات فردی علوم کامپیوتر که برای آنها ضروری است تجزیه و تحلیل کنم قبولی در آزمون دولتی یکپارچه، و اینجا همه چیز خیلی خوب نیست. به طور خاص برای آزمون یکپارچه دولتی آماده شوید درس های مدرسهبه اندازه کافی سخت است. علوم کامپیوتر یک رشته انتخابی است و برای کسب نمره بالا در اینجا به دانش اضافی و بر این اساس به کلاس های اضافی نیاز دارید تا بتوانید موضوعات خاصی را با عمق بیشتری مطالعه کنید. میتوانست باشد خودخوان، یک درس انتخابی در مدرسه، کلاس هایی با معلم یا دوره ها - انتخاب به عهده دانش آموزان و والدین آنها است.

سال گذشته از اولین قسمت از آزمون دولتی واحد علوم کامپیوتر، کلیه کارهای تستی که نیاز به انتخاب پاسخ صحیح داشتند حذف شدند. حال شرکت کنندگان در آزمون باید پاسخ خود را وارد کنند. چقدر این امتحان را سخت کرد؟
این یک نوآوری بسیار خوب است. امتحان برای دانش‌آموزان ضعیف دشوارتر شد، زیرا انتخاب پاسخ‌ها به آنها اجازه می‌داد تا با استفاده از روش انتخاب، پاسخ صحیح را پیدا کنند. برای بقیه بچه ها امتحان سخت نبود.

با توجه به تجربه شما، کدام بخش از علوم کامپیوتر برای دانش آموزان مدرسه سخت ترین است و بیشترین مشکل را ایجاد می کند؟ کدام موضوعات ساده ترین هستند؟
چندین کار USE را می توان تحت یک موضوع بزرگ طبقه بندی کرد. بنابراین بهتر است بگوییم کارهایی هستند که دانش آموزان مدرسه بیشترین تعداد اشتباه را در آنها مرتکب می شوند. شماره آنها را نام می برم: اینها وظایف شماره 5، شماره 9، شماره 10، شماره 11، شماره 12، شماره 16، شماره 18 و شماره 23 است. پنج سوال اول در مورد موضوعاتی مانند "کدگذاری ناهموار و یکنواخت"، "کدنویسی متن، صدا، تصاویر بیت مپ"، "الگوریتم های بازگشتی" و "آدرس در اینترنت" هستند. شایع ترین علل مشکلات این وظایف، خطاهای محاسباتی یا تسلط مکانیکی بر موضوع است. وقتی سوال تغییر می کند، دانش آموز گم می شود، اگرچه راه حل مسئله تغییر نمی کند.

وظایف شماره 16، شماره 18 و شماره 23 به سختی یا اصلاً در دوره مدرسه در نظر گرفته نمی شود. شماره 16 و شماره 18 وظایف سطح پیشرفته برای کودکان با هدف کسب نمره بالا هستند. کار شماره 16 به مبحث "سیستم های حساب دیفرانسیل و انتگرال" مربوط می شود و خطاهای اینجا عمدتاً محاسباتی هستند. در کار شماره 18 در مورد تبدیل عبارات منطقی، فارغ التحصیلان اغلب در تکنیک اجرا اشتباه می کنند. اما تکلیف شماره 23 از نظر فنی سخت‌ترین کار در کل بخش اول آزمون دولتی واحد است؛ فقط آماده‌ترین دانش‌آموزان آن را تکمیل می‌کنند.

علاوه بر این، علوم کامپیوتر نباید توسط کودکانی که در ریاضیات مشکل دارند، دریافت کنند. اگر در ریاضیات مشکل دارید، در علوم کامپیوتر سخت خواهد بود. این دو موضوع بسیار به هم مرتبط هستند.

اگر در مورد بیشتر صحبت کنیم موضوعات ساده، سپس اینها «سیستم های اعداد دودویی»، «جدول حقیقت محاسبات منطقی»، «پایگاه داده و سیستم های فایل»، «صفحات گسترده»، «متغیرها، عملگر انتساب» و «الگوریتم های محاسباتی» هستند. همه آنها در وظایف شماره 1 تا 6 منعکس شده است که تقریباً توسط همه دانش آموزان از جمله دانش آموزان ضعیف انجام می شود.

کدام وظایف در آزمون یکپارچه دولتی در علوم کامپیوتر بیشترین امتیاز را دارند؟ بهترین راه برای آماده شدن برای آنها چیست؟
هرچه تعداد کار بالاتر باشد، نمره بالاتر است - آزمون یکپارچه دولتی اینگونه عمل می کند. آخرین کار - شماره 27 - بالاتر از بقیه است، یعنی 4 امتیاز از 35 اولیه. برای کارهای شماره 26 و شماره 24 می توانید 3 امتیاز بگیرید، برای کار شماره 25 - 2 امتیاز، شماره 23 - 1 امتیاز. تکالیف چهارگانه قسمت 2 (شماره 27-24) از 100 امتیاز تستی 34 امتیاز یعنی بیش از یک سوم حداکثر نمره آزمون می باشد.

برای اینکه به خوبی برای این کارها آماده شوید، باید کامل کنید تعداد زیادی ازتمرین کنید و هر بار روی اشتباهات کار کنید. همچنین مهم است که در اینجا از یک معلم کمک بگیرید، زیرا تسلط بر همه اینها به تنهایی زمان بیشتری می برد.

آیا "فرمولی برای موفقیت" وجود دارد که به شما کمک کند برای آزمون دولتی واحد علوم کامپیوتر به بهترین شکل ممکن آماده شوید؟
قانون اول کار است: شما باید کار کنید، کار کنید و دوباره کار کنید. راز دوم کار روی اشتباهات است؛ باید بدون شکست انجام شود. و ثالثاً هنگام انجام یک کار، سؤال را از ابتدا تا انتها با دقت بخوانید تا از اشتباهات بی توجه جلوگیری کنید. مایه شرمساری است که دانش‌آموزان به سؤال اشتباهی که در مسئله مطرح شده است پاسخ دهند.
استفاده از چه منابعی را توصیه می کنید خودخوانبرای مثال؟
1. "وب سایت FIPI"؛
2. "سایت K. Polyakov";
3. مجموعه ها وظایف تستآزمون یکپارچه دولتی و تمرینات آموزشی FIPI.

در وظایف قسمت 2 چه مشکلاتی وجود دارد؟ هنگام آماده شدن برای کارهای با پیچیدگی بیشتر به چه نکاتی باید توجه کنید؟
وظیفه شماره 24در اینجا باید بتوانید یک الگوریتم نوشته شده در یک زبان برنامه نویسی را اجرا و درک کنید. اگر متوجه شدید، به این معنی است که وظایف ذکر شده در شماره را تکمیل خواهید کرد، اگر متوجه نشدید، انجام نمی دهید. این کار دو یا سه سوال می پرسد و اولین آنها حاوی راز درک الگوریتم و یافتن خطاهایی است که پیشنهاد می شود پیدا، یادداشت و اصلاح شوند. ابتدا به سوال اول پاسخ دهید، این به شما در درک الگوریتم و یافتن خطاها کمک می کند.

وظیفه شماره 25برای تکمیل این کار، قبل از هر چیز لازم است الگوریتم های مسئله ارائه شده در FIPI "کدبندی آزمون دولتی واحد در علوم کامپیوتر" را تجزیه و تحلیل کنیم. این کار مستلزم ایجاد الگوریتمی برای حل یک مسئله در یک زبان برنامه نویسی است، به ویژه، قادر به کار با اعداد، قادر به انتخاب اعداد با شرایط مورد نیاز از مجموعه اعداد، کار در هر سیستم عددی ، و نشانه های تقسیم پذیری را بشناسید. اگر بچه ها "الگوریتم" را در مدرسه مطالعه کردند ، انجام این کار برای آنها راحت تر است. دانش آموزانی که به کلاس های من می آیند و با این موضوع آشنا نیستند، اول از همه، شروع به مطالعه مداوم الگوریتم ها از "Codifier" می کنند.

وظیفه شماره 26در این کار، یافتن پاسخ سؤال پیشنهادی، تدوین پاسخ کامل و اثبات درستی پاسخ انتخابی مهم است.

وظیفه شماره 27این کار خلاقانه است - و تنها کاری است که فارغ التحصیل باید برنامه ای مستقل بنویسد. معمولاً توسط دانش آموزان مدرسه ای که چندین سال است برنامه می نویسند و ریاضیات را خوب می دانند، با موفقیت انجام می شود. این کار یا 2 امتیاز یا 4 ارزش دارد. در کلاس، من با بچه ها به طور مفصل روی نکات ظریف این کار کار می کنم تا آنها حداکثر امتیاز را در امتحان کسب کنند.

یک ماه تا آزمون دولتی واحد علوم کامپیوتر باقی مانده است. به فارغ التحصیلان توصیه می کنید زمان خود را چگونه اختصاص دهند؟
در زمان باقیمانده، باید سخت تمرین کنید تا مهارت های کسب شده را تثبیت کنید. لازم است تا حد امکان بسیاری از مشکلات را حل کنید و به طور جداگانه روی آن دسته از وظایفی کار کنید که بیشترین مشکلات را در تکمیل ایجاد می کنند. اگر به تنهایی برای آزمون یکپارچه دولتی آماده می شدید، اکنون بسیار مهم است که با یک معلم مشورت کنید، زیرا هر کار پیچ و تاب خاص خود را دارد که باید بدانید.

گالتون بسیار تحت تأثیر نظریه تکامل داروین قرار گرفت، و به ویژه این ایده که افراد متعلق به یک گونه بیولوژیکی با یکدیگر متفاوت هستند. ویژگی‌های فردی که بقا را تقویت می‌کنند، در معرض «انتخاب طبیعی» قرار می‌گیرند و به فرزندان منتقل می‌شوند. گالتون معتقد بود که هوش یک ویژگی است که در بین افراد متفاوت است، برای بقا مهم است و مانند ویژگی های فیزیکی مانند رنگ چشم یا قد به ارث می رسد. او حقایقی را جمع آوری کرد که موروثی بودن هوش را تأیید می کرد و دو کتاب به این موضوع اختصاص داد: نوابغ ارثی (1869) و دانشمندان انگلیسی: طبیعت و پرورش (1874). کار اخیر اصطلاحات «طبیعت» و «پرورش» را که امروزه به طور گسترده ای شناخته شده اند، رایج کرد. هاپتون در کار خود به یک تمایل آماری اشاره کرد که نشان می‌دهد نبوغ و توانایی در زمینه‌های خاص (مثلاً استعداد برای شیمی یا حقوق) را می‌توان در چندین نسل در یک خانواده ردیابی کرد. با این حال، او تأثیر محیط را دست کم گرفت و به این نتیجه رسید که نبوغ در نتیجه انتقال اطلاعات ارثی به وجود می آید. او دیدگاه خود را به ویژه با این واقعیت استدلال کرد که هوش در یک جمعیت وجود دارد توزیع نرمال. سایر صفات ارثی (مانند قد) نیز دارای توزیع طبیعی هستند و بنابراین گالتون این واقعیت آماری را به عنوان شاخصی از تأثیر وراثت در نظر گرفت.

تنها در سال 1888 دانشمند موفق شد فراوانی فراوانی از وقوع چنین ویژگی هایی مانند نبوغ را در خانواده ها نشان دهد: او ایده های خود را در اثری با عنوان "همبستگی و اندازه گیری آن" فرموله کرد. ابتدا، گالتون کشف کرد که داده‌ها را می‌توان به شکلی خاص در ردیف‌ها و ستون‌ها سازمان‌دهی کرد و نمونه اولیه «نقشه پراکندگی» امروزی را ارائه کرد. دوم، گالتون متوجه شد که وقتی "همبستگی" ناقص بود، الگویی شروع به ظهور کرد. والدینی که قدشان بالاتر از حد متوسط ​​بود، فرزندان قد بلندی داشتند، اما اغلب به اندازه قد مادر و پدر نبودند. والدین با قد کمتر از متوسط، فرزندانی داشتند که کوتاه قد بودند، اما نه آنقدرها. این بدان معنی است که قد کودکان تمایل به کوتاهی رشد دارد یا پسرفت، به سمت میانگین حسابی در جمعیت.

پدیده «بازگشت به میانگین» که اعتبار درونی پژوهش را به خطر می اندازد، یکی از برجسته ترین اکتشافات گالتون است.

مشاهده سوم گالتون این بود که نموداری از میانگین حسابی برای هر ستون از جدول پراکندگی یک خط کم و بیش مستقیم ایجاد می کند. در اصل، این یک نوع "خط رگرسیون" است. بنابراین، گالتون ویژگی های اصلی تحلیل همبستگی را کشف کرد.

کارل پیرسون پس از مطالعه آثار گالتون، تحقیقات خود را در این زمینه ادامه داد و فرمولی برای محاسبه ضریب همبستگی ایجاد کرد. او ضریب «r» را که مخفف «رگرسیون» است، به افتخار کشف رگرسیون به میانگین توسط گالتون نامگذاری کرد. پیرسون به پیروی از گالتون معتقد بود که تحلیل همبستگی ایده وراثت پذیری بسیاری از خواص موجود در خانواده های فردی را تأیید می کند. (به نقل از Goodwin D., Research in Psychology. Peter, 2004, pp. 312-313).

در صورتی که متغیرها رابطه ای بین آنها وجود داشته باشد، همبستگی در نظر گرفته می شوند. این با همان اصطلاح "همبستگی" - ارتباط متقابل، رابطه، دلالت دارد. در مورد همبستگی مستقیم یا مثبت، رابطه به گونه ای است که مقادیر بالای یک متغیر با مقادیر بالای متغیر دیگر و مقادیر پایین متغیر اول با مقادیر پایین متغیر دوم مرتبط است. همبستگی منفی به معنای رابطه معکوس است. مقادیر بالای یک متغیر با مقادیر کم متغیر دیگر مرتبط است و بالعکس.

رابطه بین زمان اختصاص داده شده به مطالعه و نمرات نمونه ای از یک همبستگی مثبت است. یک مثال از یک همبستگی منفی، رابطه بین زمان تلف شده و معدل خواهد بود. زمان تلف شده می تواند باشد به صورت عملیاتیبه عنوان تعداد ساعاتی که در هفته صرف فعالیت های خاص می شود، مانند بازی های ویدیویی یا تماشای سریال های تلویزیونی تعریف می شود.

قدرت همبستگی با مقدار خاصی از آمار توصیفی - "ضریب همبستگی" نشان داده می شود. ضریب همبستگی 1.00- برای همبستگی منفی مستقیم، 0.00 برای عدم همبستگی و 1.00 برای همبستگی مثبت کامل است. رایج ترین ضریب همبستگی پیرسون r است. پیرسون r برای داده های به دست آمده با استفاده از مقیاس فاصله یا نسبت. برای سایر مقیاس های اندازه گیری، انواع دیگر همبستگی در نظر گرفته می شود. به عنوان مثال، برای داده های ترتیبی (یعنی مرتب شده)، ρ(rho) اسپیرمن (در غیر این صورت به عنوان r s شناخته می شود) محاسبه می شود.

درست مانند میانگین حسابی و انحراف معیار، ضریب همبستگی یک آمار توصیفی است. تجزیه و تحلیل نهایی تعیین می کند که آیا یک همبستگی خاص به طور قابل توجهی بزرگتر (یا کمتر) از صفر است یا خیر. بنابراین، برای مطالعات همبستگی، فرضیه صفر (H 0) می گوید که مقدار واقعی r = 0 (یعنی هیچ رابطه ای وجود ندارد)، و فرضیه جایگزین (H1) می گوید که r ≠ 0. برای رد فرضیه صفر. این است که تصمیم بگیریم بین دو متغیر رابطه معناداری وجود دارد.

طرح پراکنده

قدرت همبستگی را می توان با مشاهده نمودار پراکندگی کشف کرد. این یک نمایش گرافیکی از رابطه ای است که همبستگی نشان می دهد. در مورد همبستگی کاملاً مثبت یا کاملاً منفی، نقاط یک خط مستقیم را تشکیل می دهند و همبستگی صفر یک نمودار پراکنده نوع (a) ایجاد می کند که نقاط آن به طور تصادفی توزیع می شوند. در مقایسه با همبستگی متوسط ​​(d و e)، نقاط قوی نزدیکتر به یکدیگر قرار دارند (b و c). به طور کلی، با ضعیف شدن همبستگی، نقاط روی نمودار پراکندگی از قطری که نقاط را با همبستگی کامل به هم متصل می کند، دورتر می شوند. لذت برابر با 1.00+ یا -1.00.

الف) r = 0 ب) r = -0.9 ج) r = +0.9

د) r = - 0.56 د) r = +0.61

نمودارهای پراکندگی مورد بحث در بالا (به جز a) با خطوط مستقیم تقریب زدند، یعنی وابستگی های خطی را منعکس کردند. با این حال، همه روابط خطی نیستند، و محاسبه r پیرسون برای یک حالت غیرخطی کمکی به آشکار شدن ماهیت چنین رابطه ای نمی کند. شکل زیر یک مثال فرضی از رابطه بین برانگیختگی و عملکرد تکلیف را نشان می‌دهد که قانون یرکس-دادسون را نشان می‌دهد: وظایف پیچیده در سطوح متوسط ​​انگیختگی به خوبی انجام می‌شوند، اما در سطوح بسیار پایین و بسیار بالا ضعیف هستند. نمودار پراکندگی نشان می دهد که نقاط در امتداد یک منحنی خاص قرار می گیرند، اما اگر بخواهیم همبستگی خطی را اعمال کنیم، r نزدیک به صفر خواهیم بود.

هنگام انجام تحقیقات همبستگی، مهم است که افرادی را در نظر بگیرید که نمرات آنها در محدوده وسیعی قرار دارد. محدود کردن دامنه یک یا هر دو متغیر همبستگی را کاهش می دهد. فرض کنید ما در حال مطالعه رابطه بین معدل و عملکرد تحصیلی در یک دانشگاه هستیم (بر اساس میانگین نمرات کسب شده توسط دانشجویان سال اول در پایان سال). در شکل الف) نشان می دهد که نمودار پراکندگی در مطالعه 25 دانش آموز چگونه می تواند باشد. ضریب همبستگی 0.87+ است. اما اگر این رابطه را مطالعه کنید لیگاتور با استفاده از مثال دانش آموزانی که در مدرسه نمره متوسط ​​4.5 و بالاتر دریافت کردند، t o همبستگی تغییر خواهد کرد، به +0.27 کاهش می یابد.

الف) r = 0.87 ب) r = 0.27

ضریب تعیین - g 2

مهم است که در نظر داشته باشید که بسیار آسان است اشتباهمعنی یک مقدار خاص پیرسون r را درک کنید. اگر 0.70+ باشد، در واقع رابطه نسبتاً قوی است، اما فکر نکنید 0.70+ به نوعی با 70% مرتبط است.و در این صورت رابطه در 70 درصد برقرار می شود. این درست نیست. برای تفسیر مقدار همبستگی باید از ضریب تعیین (r 2) استفاده شود. با مجذور کردن r پیدا می شود و بنابراین مقدار آن هرگز منفی نیست. این ضریب به طور رسمی به این صورت تعریف می شود درجه تغییرپذیری در یک متغیر همبستگی ناشی از تغییرپذیری در متغیر دیگر. بیایید این را با یک مثال خاص توضیح دهیم.

مطالعه ای در حال انجام است که در آن 100 شرکت کننده از نظر سطوح افسردگی عاطفی و معدل. ما رابطه بین دو متغیر را آزمایش می کنیم و یک همبستگی منفی پیدا می کنیم: هر چه سطح افسردگی بالاتر باشد، میانگین نمره پایین تر است و بالعکس، هر چه افسردگی کمتر باشد، میانگین نمره بالاتر است. دو مقدار همبستگی را که می توان از این مطالعه به دست آورد -1.00- و -0.50 در نظر بگیرید. ضریب تعیین به ترتیب برابر با 1.00 و 0.25 خواهد بود. برای درک معنای این مقادیر، ابتدا در نظر بگیرید که میانگین امتیاز 100 نفر مورد مطالعه احتمالاً بین 3.0 تا 5.0 خواهد بود. به عنوان محقق، ما می خواهیم دریابیم دلیل چنین تنوعی– چرا یک نفر 3.2 امتیاز می گیرد و دیگری 4.4 و غیره. به عبارت دیگر، ما می خواهیم بدانیم چه چیزی باعث تفاوت های فردی در GPA می شود? در حقیقت، این می تواند به دلیل عوامل متعددی باشد: عادات مطالعه، سطح هوش عمومی، ثبات عاطفی، تمایل به انتخاب موضوعات آسان برای مطالعه، و غیره همانطور که توسط نمرات آزمون افسردگی نشان داده شده است، مطالعه فرضی ما یکی از این عوامل را بررسی می کند- ثبات عاطفی، جی 2 نشان می دهد که چه مقدار تنوع در میانگین نمرات را می توان نسبت دادبه طور مستقیم با افسردگیدر حالت اول، جایی که r = -1.00 و r 2 = 1.00، می‌توان نتیجه گرفت که 100% تغییرپذیری در میانگین نمرات به دلیل تنوع در نمرات افسردگی است. بنابراین می توان گفت 100 درصد اختلاف میانگین نمرات (3.2 و 4.4 و ...) ناشی از افسردگی است. در یک مطالعه واقعی، البته نمی توان چنین نتیجه ای را به دست آورد. در حالت دوم، جایی که r = -0.5 و r2 = 0.25، تنها یک چهارم (25٪) از واریانس میانگین نمرات به دلیل افسردگی است. 75 درصد باقی مانده به دلیل عوامل دیگری مشابه موارد ذکر شده در بالا است. به طور خلاصه، ضریب تعیین معیار بهتری برای سنجش قدرت یک رابطه نسبت به r پیرسون است.

تحلیل رگرسیون: ایجاد فرضیات

مهم ترین ویژگی مطالعات همبستگی امکان است اگر همبستگی قوی وجود داشته باشد فرضیاتی در مورد رفتارهای آینده ایجاد کنید. همبستگی بین دو متغیر این امکان را فراهم می کند که بر اساس مقادیر یکی از آنها بتوان مقادیر دیگری را پیش بینی کرد. نشان دادن این با استفاده از یک مثال با امتیاز متوسط ​​آسان است. اگر بدانیم که زمان اختصاص داده شده به مطالعه و معدل با هم ارتباط دارند و فردی 45 ساعت در هفته مطالعه می کند، می توانیم معدل نسبتاً بالایی را برای آن دانش آموز پیش بینی کنیم. به همین ترتیب، معدل بالا زمان صرف شده برای مطالعه شما را پیش بینی می کند. ایجاد فرضیات بر اساس مطالعات همبستگی نامیده می شود تجزیه و تحلیل رگرسیون.

در شکل نمودار پراکندگی را برای: الف) زمان اختصاص یافته به مطالعه و معدل و ب) زمان تلف شده و معدل نشان می دهد. هر نمودار همچنین یک خط رگرسیون را نشان می دهد که برای ایجاد فرضیات استفاده می شود. خط رگرسیون "خط بهینه" نیز نامیده می شود: نشان دهنده آن است بهترین راه ممکن برای خلاصه کردن نقاط یک نمودار پراکندگی. این بدان معنی است که مقادیر مطلق فواصل عمودی بین هر نقطه در نمودار و خط رگرسیون حداقل است.

خط رگرسیون با استفاده از فرمول Y = محاسبه می شود آ + ب X، جایی که a نقطه ای است که در آن خط مستقیم محور Y را قطع می کند (یعنی قطعه قطع شده روی محور Y)، a ب- این زاویه شیب خط مستقیم یا شیب نسبی آن است. X یک کمیت شناخته شده است و Y کمیتی است که ما سعی در پیش بینی آن داریم. با دانستن 1) قدرت همبستگی و 2) انحراف معیار برای متغیرهای همبسته، می توانیم کمیت را محاسبه کنیم. ب، دانستن 1) ارزش بو 2) مقادیر میانگین متغیرهای همبسته را می توان یافت آ.

تجزیه و تحلیل رگرسیون از یک معادله رگرسیون برای پیش بینی یک مقدار Y (مانند GPA) بر اساس مقدار X (مانند زمان اختصاص داده شده به مطالعه) استفاده می کند. Y گاهی اوقات نامیده می شود معیارمتغیر و X - محمول-پاره شدهمتغیر. با این حال، برای ایجاد فرضیات دقیق، همبستگی باید باشد خیلی بالاتر از صفر. هرچه این همبستگی بیشتر باشد، نقاط پراکندگی به خط رگرسیون نزدیک‌تر می‌شوند و از صحت مفروضات خود اطمینان بیشتری خواهید داشت. بنابراین، مشکل محدودیت دامنه که قبلا ذکر شد، که همبستگی را کاهش می دهد، اعتبار پیش بینی ها را نیز کاهش می دهد.

نمودار معادله رگرسیون نشان می دهد که چگونه می توان با استفاده از یک خط رگرسیون پیش بینی کرد.

به عنوان مثال، از دانش آموزی که 34 ساعت در هفته را صرف مطالعه می کند، چه معدلی باید انتظار داشت. برای به دست آوردن پاسخ از محور X به خط رگرسیون و سپس از نقطه تقاطع به محور Y عمود می کشیم.مقدار نقطه روی محور Y مقدار تخمینی خواهد بود (به یاد داشته باشید که صحت فرض بستگی به قدرت همبستگی دارد). بنابراین، 40 ساعت زمان مطالعه معدل 3.4 را پیش بینی می کند و 41 ساعت تلف شده معدل کمی بالاتر از 2.3 را پیش بینی می کند. با استفاده از فرمول هارگرسیون می تواند مقادیر دقیق تری را محاسبه کرده و پیش بینی های دقیق تری انجام دهد.

باید بدانید که تحلیل رگرسیون در اکثر مطالعاتی که از رسانه ها در مورد آنها می آموزیم استفاده می شود.

به عنوان مثال، ممکن است با گزارشی از یک مطالعه در مورد "عوامل خطر حمله قلبی" روبرو شویم که بر اساس همبستگی قابل توجهی بین سیگار کشیدن و بیماری قلبی، نتیجه می گیرد که سیگاری های شدید نسبت به افراد غیر سیگاری احتمال بیشتری برای ابتلا به بیماری های قلبی عروقی دارند. این بدان معناست که سیگار پیش بینی کننده بیماری قلبی است. بر اساس مطالعه دیگری که به بررسی «نمایه همسر آزارگر» پرداخته است، می توان نتیجه گرفت که در صورت بیکار بودن مرتکب، احتمال چنین رفتاری افزایش می یابد. این از همبستگی بین بیکاری و تمایل به انجام رفتارهای توهین آمیز ناشی می شود. بر اساس وجود همبستگی با استفاده از تجزیه و تحلیل رگرسیونبا دانستن اولی، می‌توانیم در مورد دومی فرض کنیم.

وابستگی های همبستگی

مدل‌های ریاضی رگرسیون در مواردی ساخته می‌شوند که مشخص شود بین دو عامل رابطه وجود دارد و لازم است توصیف ریاضی آن به دست آید. اکنون به مشکلات از نوع دیگری نگاه خواهیم کرد. اجازه دهید مشخصه مهمبرخی از سیستم های پیچیده عامل A است. می تواند به طور همزمان تحت تأثیر بسیاری از عوامل دیگر قرار گیرد: B، C، D، و غیره.

ما دو نوع مشکل را در نظر خواهیم گرفت - باید تعیین کنیم:

1. آیا فاکتور B اثر منظم قابل توجهی بر عامل A دارد؟

به عنوان نمونه ای از یک سیستم پیچیده، یک مدرسه را در نظر خواهیم گرفت. برای مسئله اول، فرض کنید عامل A میانگین عملکرد تحصیلی دانش‌آموزان مدرسه باشد و عامل B هزینه‌های مالی مدرسه برای نیازهای اقتصادی باشد: بازسازی ساختمان، به روز رسانی مبلمان، طراحی زیبای اتاق و ... در اینجا تأثیر فاکتور B بر عامل A مشهود نیست. احتمالاً دلایل دیگر تأثیر بسیار قوی تری بر عملکرد تحصیلی دارند: سطح صلاحیت معلمان، تعداد دانش آموزان، سطح وسایل فنیآموزش و دیگران

آماردانان می دانند که برای شناسایی وابستگی به یک عامل خاص، لازم است تا حد امکان تأثیر عوامل دیگر را حذف کرد. به بیان ساده، هنگام جمع‌آوری اطلاعات از مدارس مختلف، باید مدارسی را انتخاب کنید که تقریباً دارای یک جمعیت دانش‌آموزی، مدارک معلمی و غیره هستند، اما هزینه‌های عملیاتی مدارس متفاوت است (برخی مدارس ممکن است حامیان مالی غنی داشته باشند، برخی دیگر ممکن است نداشته باشند).


بنابراین، اجازه دهید هزینه های کسب و کار مدرسه با تعداد روبل به ازای هر تعداد دانش آموز در مدرسه (روبل/فرد) که در یک دوره زمانی معین (مثلاً در 5 سال گذشته) صرف شده است، بیان شود. اجازه دهید عملکرد تحصیلی با میانگین نمره دانش آموزان مدرسه بر اساس نتایج آخرین نمره آنها ارزیابی شود سال تحصیلی. بار دیگر توجه شما را به این نکته جلب می کنیم که در محاسبات آماری معمولاً از مقادیر نسبی و متوسط ​​استفاده می شود.

نتایج جمع آوری داده ها برای 20 مدرسه که در یک صفحه گسترده وارد شده است در شکل 1 ارائه شده است. 1. در شکل. شکل 2 نمودار پراکندگی ساخته شده از این داده ها را نشان می دهد.

برنج. 1 آمار

برنج. 2 نمودار پراکندگی

مقادیر هر دو مقدار: هزینه های مالی و عملکرد دانشجو پراکندگی قابل توجهی دارند و در نگاه اول رابطه بین آنها قابل مشاهده نیست. با این حال، ممکن است وجود داشته باشد.

وابستگی های بین کمیت ها که هر کدام در معرض پراکندگی کاملاً غیرقابل کنترل هستند، وابستگی همبستگی نامیده می شوند.

فصل آمار ریاضیکه این گونه وابستگی ها را بررسی می کند، تحلیل همبستگی نامیده می شود. تجزیه و تحلیل همبستگی، قانون میانگین رفتار هر کمیت را بسته به مقادیر کمیت دیگر و همچنین اندازه گیری چنین وابستگی را مطالعه می کند.

ارزیابی همبستگی ارزش ها با فرضیه ای در مورد ماهیت احتمالی رابطه بین ارزش های آنها آغاز می شود. اغلب، یک رابطه خطی فرض می شود. در این حالت، معیار وابستگی همبستگی، مقداری به نام ضریب همبستگی است. مانند قبل، ما فرمول هایی را که با آن محاسبه می شود، نمی نویسیم. نوشتن آنها دشوار نیست، اما درک اینکه چرا اینگونه هستند بسیار دشوارتر است. بر در این مرحلهتنها چیزی که باید بدانید موارد زیر است:

· ضریب همبستگی (معمولاً با حرف یونانی ρ نشان داده می شود) عددی از 1- تا 1+ است.

· اگر این عدد از نظر مقدار مطلق به 1 نزدیک باشد، یک همبستگی قوی وجود دارد، اگر نزدیک به 0 باشد، آنگاه ضعیف است.

· نزدیکی ρ به +1 به این معنی است که افزایش یک مجموعه از مقادیر مربوط به افزایش در مجموعه دیگری است، نزدیکی به -1 به معنای مخالف است.

· مقدار ρ با استفاده از اکسل (توابع آماری داخلی) به راحتی پیدا می شود.

در اکسل تابع محاسبه ضریب همبستگی CORREL نامیده می شود و جزء گروه توابع آماری است. نحوه استفاده از آن را به شما نشان خواهیم داد. در همان برگه اکسل جایی که جدول نشان داده شده در شکل. 1، باید مکان نما را روی هر سلول آزاد قرار دهید و تابع CORREL را اجرا کنید. دو محدوده از مقادیر را درخواست می کند. ما هزینه ها و عملکرد را نشان خواهیم داد. پس از وارد کردن آنها، پاسخ نمایش داده می شود: ρ = 0،. این مقدار نشان دهنده سطح متوسط ​​همبستگی است.

درک رابطه بین هزینه های عملیاتی مدرسه و عملکرد تحصیلی دشوار نیست. دانش آموزان از رفتن به مدرسه ای تمیز، زیبا و دنج خوشحال هستند، در آنجا احساس می کنند که در خانه خود هستند و بنابراین بهتر درس می خوانند.

در مثال زیر، مطالعه ای برای تعیین وابستگی عملکرد دانش آموزان دبیرستانی به دو عامل: ثروت انجام شده است. کتابخانه ی مدرسهکتاب های درسی و تهیه کامپیوتر مدارس. هر دو ویژگی از نظر کمی به عنوان درصدی از هنجار بیان می شوند. شرط استاندارد برای کتاب های درسی آنها است مجموعه کاملیعنی مبلغی که به هر دانش آموزی از کتابخانه تمام کتابهایی که برای درسش نیاز دارد داده می شود. عرضه استاندارد رایانه ها به اندازه ای در نظر گرفته می شود که به ازای هر چهار دانش آموز دبیرستانی یک رایانه در مدرسه وجود دارد. فرض بر این است که دانش آموزان نه تنها در علوم کامپیوتر، بلکه در دروس دیگر و همچنین در ساعات فوق برنامه از رایانه استفاده می کنند.


در جدول نشان داده شده در شکل. جدول 3 نتایج اندازه گیری هر دو عامل را در 11 مدرسه مختلف نشان می دهد. بیایید به یاد بیاوریم که تأثیر هر عامل مستقل از سایرین مورد مطالعه قرار می گیرد (یعنی تأثیر سایر عوامل مهم باید تقریباً یکسان باشد).

ضرایب همبستگی خطی برای هر دو وابستگی به دست آمد. همانطور که از جدول مشاهده می شود، همبستگی بین ارائه کتاب های درسی و عملکرد تحصیلی قوی تر از همبستگی بین پشتیبانی کامپیوتر و عملکرد تحصیلی است (اگرچه هر دو ضریب همبستگی خیلی زیاد نیستند). از این‌جا می‌توان نتیجه گرفت که کتاب همچنان منبع دانش مهم‌تری نسبت به رایانه است.

به طور خلاصه در مورد اصل مطلب

وابستگی های بین کمیت ها که هر کدام در معرض پراکندگی کاملاً غیرقابل کنترل هستند، همبستگی نامیده می شوند.

با استفاده از تجزیه و تحلیل همبستگی، می توانید مشکلات زیر را حل کنید: تعیین کنید که آیا یک عامل تأثیر قابل توجهی بر عامل دیگر دارد یا خیر. از بین چندین عامل مهم ترین را انتخاب کنید.

معیار کمی همبستگی بین دو کمیت، ضریب همبستگی است.

مقدار ضریب همبستگی بین -1 و +1 قرار دارد. هر چه مقدار مطلق آن به 1 نزدیکتر باشد، همبستگی (ارتباط) قوی تر است.

در MS Excel برای تعیین ضریب همبستگی از تابع CORREL از گروه توابع آماری استفاده می شود.

سوالات و وظایف

1. وابستگی همبستگی چیست؟

2. تحلیل همبستگی چیست؟

3. چه نوع مسائلی را می توان با استفاده از تحلیل همبستگی حل کرد؟

4. معیار کمی همبستگی چه مقداری است؟ چه ارزش هایی می تواند داشته باشد؟

5. با استفاده از چه پردازشگر صفحه گسترده ای می توانید ضریب همبستگی را محاسبه کنید؟

6. برای داده های جدول ارائه شده در شکل. 3، ساخت دو خطی پسرفتمدل ها.

7. برای همین داده ها ضریب همبستگی را محاسبه کنید. با موارد نشان داده شده در شکل مقایسه کنید. 3 نتیجه.

کارگاه کامپیوتر "محاسبه وابستگی های همبستگی در MS Excel"

اهداف کار: به دست آوردن ایده ای از وابستگی همبستگی مقادیر. تسلط بر روش محاسبه ضریب همبستگی با استفاده از تابع CORREL.

نرم افزار مورد استفاده: پردازشگر صفحه گسترده MS Excel.

وظیفه 1. جدول زیر حاوی داده هایی در مورد اندازه گیری های زوجی از دو کمیت است که در یک مدرسه خاص انجام شده است: دمای هوا در کلاس x و نسبت دانش آموزان مبتلا به سرماخوردگی y:

این وابستگی ماهیت آماری دارد، زیرا نمی توان به طور قابل اعتماد گفت، به عنوان مثال، در دمای 15 درجه سانتیگراد در مدرسه 5٪ از دانش آموزان بیمار هستند و در دمای 20 درجه سانتیگراد - 2٪. علاوه بر دما، عوامل دیگری نیز بر سرماخوردگی تأثیر می‌گذارند که برای مدارس مختلف متفاوت است و کنترل همه آنها غیرممکن است.

موارد زیر را انجام دهید:

Þ از نمودار پراکندگی برای نمایش بصری وابستگی جدولی استفاده کنید.

Þ به این سوال پاسخ دهید که آیا بر اساس این نمودار پراکندگی، می توان فرض کرد که بین کمیت ها همبستگی خطی وجود دارد؟

اگر پاسخ آشکارا منفی است، جدول را تصحیح کنید تا فرضیه همبستگی خطی قابل قبول تر شود.

Þ با استفاده از تابع CORREL ضریب همبستگی را پیدا کنید و فرضیه مشخص شده را تایید یا رد کنید.

وظیفه 2. جدولی از اندازه گیری های زوجی از مقادیر برخی از کمیت ها تهیه کنید که بین آنها یک همبستگی فرضی وجود دارد. این رابطه را برای وجود یک همبستگی خطی تجزیه و تحلیل کنید.

نمونه هایی از مقادیر مربوطه عبارتند از:

ü سطح تحصیلات (مثلاً در سالهای تحصیل به طور کلی اندازه گیری می شود) و سطح درآمد ماهانه؛

ü سطح تحصیلات و سطح موقعیتی که در اختیار دارید (برای دومی، یک مقیاس معمولی ارائه دهید).

ü تعداد رایانه های موجود در مدرسه به ازای هر دانش آموز و میانگین نمره هنگام آزمون برای سطح مهارت در فن آوری های استاندارد پردازش اطلاعات ;

ü تعداد ساعات صرف شده توسط یک دانش آموز دبیرستانی برای انجام تکالیف و میانگین نمره.

ü مقدار کود مصرفی به خاک و عملکرد یک محصول کشاورزی خاص.

در این مورد، شما می توانید دو راه بروید. اولین، جدی تر و از نظر عملی مفیدتر - شما نه تنها به یک همبستگی فرضی می پردازید، بلکه داده های واقعی در مورد آن را در ادبیات پیدا می کنید. راه دوم، ساده تر - شما این کار را به عنوان یک بازی لازم در نظر می گیرید تا بفهمید یک همبستگی چیست و مهارت های فنی تجزیه و تحلیل آن را توسعه دهید و داده های مربوطه را بدست آورید و سعی کنید این کار را به معقول ترین روش انجام دهید.