초록 진술 이야기

Excel의 상관관계 및 회귀 분석: 실행 지침. 유전 개발의 결과로 저수지 및 저수지 유체의 특성 변화에 대한 통계적 의존성에 대한 연구 포물선 및 다항식 회귀

다음 데이터를 사용할 수 있습니다. 다른 나라식품 소매 가격 지수(x)와 산업 생산 지수(y).

소매 식품 가격 지수(x)산업생산지수(y)
1 100 70
2 105 79
3 108 85
4 113 84
5 118 85
6 118 85
7 110 96
8 115 99
9 119 100
10 118 98
11 120 99
12 124 102
13 129 105
14 132 112

필수의:

1. x에 대한 y의 의존성을 특성화하려면 다음 함수의 매개변수를 계산합니다.

A) 선형;

B) 진정;

B) 등변 쌍곡선.

3. 회귀 및 상관 매개변수의 통계적 유의성을 평가합니다.

4. 소매 식품 가격 지수 x=138의 예측 값을 사용하여 산업 생산 지수 y의 값을 예측합니다.

해결책:

1. 선형 회귀 매개변수를 계산하려면

시스템 해결 정규 방정식 a와 b에 관해 :

표 1과 같이 계산된 데이터의 테이블을 작성해 보겠습니다.

표 1 선형 회귀 추정을 위한 추정 데이터

아니요.엑스~에xyx 2y 2
1 100 70 7000 10000 4900 74,26340 0,060906
2 105 79 8295 11025 6241 79,92527 0,011712
3 108 85 9180 11664 7225 83,32238 0,019737
4 113 84 9492 12769 7056 88,98425 0,059336
5 118 85 10030 13924 7225 94,64611 0,113484
6 118 85 10030 13924 7225 94,64611 0,113484
7 110 96 10560 12100 9216 85,58713 0,108467
8 115 99 11385 13225 9801 91,24900 0,078293
9 119 100 11900 14161 10000 95,77849 0,042215
10 118 98 11564 13924 9604 94,64611 0,034223
11 120 99 11880 14400 9801 96,91086 0,021102
12 124 102 12648 15376 10404 101,4404 0,005487
13 129 105 13545 16641 11025 107,1022 0,020021
14 132 112 14784 17424 12544 110,4993 0,013399
총: 1629 1299 152293 190557 122267 1299,001 0,701866
평균: 116,3571 92,78571 10878,07 13611,21 8733,357 엑스 엑스
8,4988 11,1431 엑스 엑스 엑스 엑스 엑스
72,23 124,17 엑스 엑스 엑스 엑스 엑스

평균값은 다음 공식에 의해 결정됩니다.

표준 편차는 다음 공식을 사용하여 계산됩니다.

표 1에 결과를 입력합니다.

결과 값을 제곱하여 분산을 얻습니다.

방정식의 매개변수는 다음 공식을 사용하여 결정할 수도 있습니다.

따라서 회귀 방정식은 다음과 같습니다.

따라서 식품 소매물가지수가 1 증가하면 산업생산지수는 평균 1.13 증가한다.

선형 쌍 상관 계수를 계산해 보겠습니다.

연결은 직접적이고 매우 가깝습니다.

결정계수를 결정해보자:

결과의 변동은 요인 x의 변동으로 설명되는 74.59%입니다.

x의 실제 값을 회귀 방정식에 대입하여 이론적(계산된) 값을 결정합니다.

따라서 방정식의 매개변수가 올바르게 결정됩니다.

평균 근사 오류(실제 값과 계산된 값의 평균 편차)를 계산해 보겠습니다.

평균적으로 계산된 값은 실제 값과 5.01% 정도 차이가 납니다.

F-검정을 사용하여 회귀 방정식의 품질을 평가하겠습니다.

F-검정은 회귀 방정식의 통계적 중요성과 관계 근접성의 지표에 대한 가설 H 0를 검정하는 것으로 구성됩니다. 이를 위해 실제 F 사실과 Fisher F 기준의 임계(표 형식) F 테이블 값을 비교합니다.

F 사실은 다음 공식에 의해 결정됩니다.

여기서 n은 인구 단위의 수입니다.

m은 변수 x에 대한 매개변수의 수입니다.

회귀 방정식에서 얻은 추정치를 예측에 사용할 수 있습니다.

소매 식품 가격 지수의 예측 값이 x = 138이면 산업 생산 지수의 예측 값은 다음과 같습니다.

2. 거듭제곱 회귀의 형식은 다음과 같습니다.

매개변수를 결정하기 위해 검정력 함수의 로그가 수행됩니다.

로그 함수의 매개변수를 결정하기 위해 최소 제곱법을 사용하여 정규 방정식 시스템을 구성합니다.

표 2와 같이 계산된 데이터의 테이블을 작성해 보겠습니다.

표 2 검정력 회귀 추정을 위해 계산된 데이터

아니요.엑스~에LG 엑스LG yLG x*lg y(로그x) 2(로그 y) 2
1 100 70 2,000000 1,845098 3,690196 4,000000 3,404387
2 105 79 2,021189 1,897627 3,835464 4,085206 3,600989
3 108 85 2,033424 1,929419 3,923326 4,134812 3,722657
4 113 84 2,053078 1,924279 3,950696 4,215131 3,702851
5 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
6 118 85 2,071882 1,929419 3,997528 4,292695 3,722657
7 110 96 2,041393 1,982271 4,046594 4,167284 3,929399
8 115 99 2,060698 1,995635 4,112401 4,246476 3,982560
9 119 100 2,075547 2,000000 4,151094 4,307895 4,000000
10 118 98 2,071882 1,991226 4,125585 4,292695 3,964981
11 120 99 2,079181 1,995635 4,149287 4,322995 3,982560
12 124 102 2,093422 2,008600 4,204847 4,382414 4,034475
13 129 105 2,110590 2,021189 4,265901 4,454589 4,085206
14 132 112 2,120574 2,049218 4,345518 4,496834 4,199295
1629 1299 28,90474 27,49904 56,79597 59,69172 54,05467
평균값 116,3571 92,78571 2,064624 1,964217 4,056855 4,263694 3,861048
8,4988 11,1431 0,031945 0,053853 엑스 엑스 엑스
72,23 124,17 0,001021 0,0029 엑스 엑스 엑스

표 2에서 검정력 회귀를 추정하기 위해 계산된 데이터 계속

아니요.엑스~에
1 100 70 74,16448 17,34292 0,059493 519,1886
2 105 79 79,62057 0,385112 0,007855 190,0458
3 108 85 82,95180 4,195133 0,024096 60,61728
4 113 84 88,59768 21,13866 0,054734 77,1887
5 118 85 94,35840 87,57961 0,110099 60,61728
6 118 85 94,35840 87,57961 0,110099 60,61728
7 110 96 85,19619 116,7223 0,11254 10,33166
8 115 99 90,88834 65,79901 0,081936 38,6174
9 119 100 95,52408 20,03384 0,044759 52,04598
10 118 98 94,35840 13,26127 0,037159 27,18882
11 120 99 96,69423 5,316563 0,023291 38,6174
12 124 102 101,4191 0,337467 0,005695 84,90314
13 129 105 107,4232 5,872099 0,023078 149,1889
14 132 112 111,0772 0,85163 0,00824 369,1889
1629 1299 1296,632 446,4152 0,703074 1738,357
평균값 116,3571 92,78571 엑스 엑스 엑스 엑스
8,4988 11,1431 엑스 엑스 엑스 엑스
72,23 124,17 엑스 엑스 엑스 엑스

정규 방정식 시스템을 풀어 로그 함수의 매개변수를 결정합니다.

우리는 선형 방정식을 얻습니다.

강화를 수행하면 다음을 얻습니다.

이 방정식에 x의 실제 값을 대입하면 결과의 이론적 값을 얻을 수 있습니다. 이를 바탕으로 연결 견고성-상관 지수 및 평균 근사 오류 지표를 계산합니다.

연결이 꽤 가깝습니다.

평균적으로 계산된 값은 실제 값과 5.02% 정도 차이가 납니다.

따라서 H 0 - 평가된 특성의 무작위성에 대한 가설은 기각되고 통계적 유의성과 신뢰성이 인정됩니다.

회귀 방정식에서 얻은 추정치를 예측에 사용할 수 있습니다. 소매 식품 가격 지수의 예측 값이 x = 138이면 산업 생산 지수의 예측 값은 다음과 같습니다.

이 방정식의 매개변수를 결정하기 위해 정규 방정식 시스템이 사용됩니다.

변수를 바꿔보자

그리고 우리는 얻습니다 다음 시스템정규 방정식:

정규 방정식 시스템을 풀어 쌍곡선의 매개변수를 결정합니다.

표 3과 같이 계산된 데이터의 테이블을 생성해 보겠습니다.

표 3 쌍곡선 의존성을 평가하기 위해 계산된 데이터

아니요.엑스~에yz
1 100 70 0,010000000 0,700000 0,0001000 4900
2 105 79 0,009523810 0,752381 0,0000907 6241
3 108 85 0,009259259 0,787037 0,0000857 7225
4 113 84 0,008849558 0,743363 0,0000783 7056
5 118 85 0,008474576 0,720339 0,0000718 7225
6 118 85 0,008474576 0,720339 0,0000718 7225
7 110 96 0,009090909 0,872727 0,0000826 9216
8 115 99 0,008695652 0,860870 0,0000756 9801
9 119 100 0,008403361 0,840336 0,0000706 10000
10 118 98 0,008474576 0,830508 0,0000718 9604
11 120 99 0,008333333 0,825000 0,0000694 9801
12 124 102 0,008064516 0,822581 0,0000650 10404
13 129 105 0,007751938 0,813953 0,0000601 11025
14 132 112 0,007575758 0,848485 0,0000574 12544
총: 1629 1299 0,120971823 11,13792 0,0010510 122267
평균: 116,3571 92,78571 0,008640844 0,795566 0,0000751 8733,357
8,4988 11,1431 0,000640820 엑스 엑스 엑스
72,23 124,17 0,000000411 엑스 엑스 엑스

표 3의 계속 쌍곡선 의존성을 평가하기 위한 계산된 데이터

또 다른 유형의 단일 요소 회귀는 다음 형식의 거듭제곱 다항식에 의한 근사입니다.

2차 거듭제곱 다항식으로 제한하여 가능한 가장 간단한 의존성을 얻고자 하는 것은 자연스러운 일입니다. 포물선 의존성:
(5.5.2)

계수에 대한 편미분을 계산해 봅시다. 0 , 1 그리고 2 :



(5.5.3)

미분을 0으로 동일화하면 일반적인 방정식 시스템을 얻습니다.

(5.5.4)

특정 값의 경우에 대한 정규 방정식 시스템(5.5.2) 풀기 엑스 * , 와이 * ;
우리는 얻는다 최적의 값 0 , 1 그리고 2 . 의존성에 의한 근사(5.5.2) 및 그 이상(5.5.1)의 경우 계수를 계산하기 위한 간단한 공식을 얻지 못했으며 일반적으로 표준 절차를 사용하여 행렬 형식으로 계산합니다.

(5.5.5)

그림 5.5.1은 포물선 의존성에 의한 근사의 전형적인 예를 보여줍니다.

9 (5;9)

(1;1)

1

1 2 3 4 5 x

그림 5.5.1. 실험점의 좌표와 근사값

그들의 포물선 의존성

예제 5.1.표 5.1.1에 주어진 실험 결과를 선형 회귀 방정식으로 근사화합니다.
.

표 5.1.1

그림 5.1.1에 제시된 그래프에 표 5.1.1에 표시된 좌표에 따라 실험점을 구성해 보자.

~에

9

4

1 2 3 4 5x

예비 평가를 위해 직선을 그리는 그림 5.1.1에 따르면 실험 지점의 위치에 명확하게 표현된 비선형성이 있지만 그다지 중요하지 않으므로 의미가 있다는 결론을 내릴 수 있습니다. 선형 의존성을 사용하여 근사화합니다. 올바른 수학적 결론을 얻으려면 다음 방법을 사용하여 직선을 구성해야 합니다. 최소제곱.

회귀 분석을 수행하기 전에 다음을 계산하는 것이 좋습니다.

변수 간의 선형 상관 계수 엑스그리고 ~에:

상관 관계의 중요성은 다음 공식을 사용하여 계산된 선형 상관 계수의 임계값에 의해 결정됩니다.

학생 시험의 중요한 가치 크레타 섬권장 유의 수준에 대한 통계표에 따라 구함 α=0.05그리고 N-2 자유도. 계산된 값이라면 아르 자형 xy임계값 이상 아르 자형 크레타 섬, 변수 간의 상관 관계 엑스 그리고 와이 필수적인 것으로 간주됩니다. 계산을 해보자:










사실로 인해
우리는 변수들 사이의 상관 관계가 있다고 결론을 내립니다. 엑스그리고 ~에중요하며 선형적일 수 있습니다.

회귀 방정식의 계수를 계산해 보겠습니다.

따라서 우리는 선형 회귀 방정식을 얻었습니다.

회귀 방정식을 사용하여 그림 5.1.2에 직선을 그립니다.

y (5;9.8)

9

4

(0;-0.2) 1 2 3 4 5 x

그림 5.1.2. 실험점의 좌표와 근사값

선형 의존성

회귀식을 이용하여 표 5.1.1의 실험점과 함수의 실험값과 계산값의 차이를 바탕으로 함수의 값을 계산하며 이를 표 5.1.2에 제시한다.

표 5.1.2


평균 제곱 오차와 평균값에 대한 비율을 계산해 보겠습니다.

평균값에 대한 표준오차의 비율은 권장값인 0.05를 초과하여 만족스럽지 못한 결과를 얻었다.

스튜던트 t-검정을 사용하여 회귀 방정식 계수의 유의 수준을 평가해 보겠습니다.


에 대한 통계표에서 3 자유도, 유의 수준에 따라 선을 적어 보겠습니다. 학생 기준의 가치 표 5.1.3에 따른다.

표 5.1.3

회귀 방정식 계수의 유의 수준:


계수의 유의수준에 따라 만족스러운 결과를 얻었고, 계수에 대해서는 불만족스럽다.

분산 분석을 기반으로 계산된 지표를 사용하여 결과 회귀 방정식의 품질을 평가해 보겠습니다.

시험:

검사 결과는 긍정적이며 이는 수행된 계산의 정확성을 나타냅니다.

Fisher 기준을 계산해 보겠습니다.

두 가지 자유도:

통계표를 사용하여 유의 수준의 두 가지 권장 등급에 대한 Fisher 기준의 임계 값을 찾습니다.


Fisher 검정의 계산값은 유의수준 0.01의 임계값을 초과하므로 Fisher 검정에 따른 유의수준은 0.01 미만으로 만족스러운 것으로 가정한다.

다중 결정 계수를 계산해 보겠습니다.

2개의 자유도에 대해

권장 유의 수준 0.05와 2개의 자유도에 대한 통계표를 사용하여 다중 결정 계수의 임계값을 찾습니다.

다중결정계수 계산값이 유의수준의 임계값을 초과하므로
, 다중 결정 계수에 따른 유의 수준
제출된 지표에 대해 얻은 결과는 만족스러운 것으로 간주됩니다.

따라서 평균값에 대한 표준 오차의 비율과 학생 테스트에 따른 유의 수준 측면에서 얻은 계산된 매개변수는 만족스럽지 않으므로 근사를 위해 다른 근사 의존성을 선택하는 것이 좋습니다.

예제 5.2.수학적 의존성을 통한 난수의 실험적 분포 근사

표 5.1.1에 주어진 난수의 실험적 분포는 선형 의존성에 의해 근사화되었을 때 만족스러운 결과를 얻지 못했습니다. 자유 항이 있는 회귀 방정식의 계수가 중요하지 않기 때문에 근사의 품질을 향상시키기 위해 자유 항 없이 선형 종속성을 사용하여 이를 수행하려고 합니다.

회귀 방정식의 계수 값을 계산해 보겠습니다.

따라서 우리는 회귀 방정식을 얻었습니다.

결과적인 회귀 방정식을 사용하여 함수의 값과 함수의 실험값과 계산된 값의 차이를 계산하고 이를 표 5.2.1의 형태로 제시합니다.

표 5.2.1

엑스

회귀 방정식에 따르면
그림 5.2.1에서 우리는 직선을 그릴 것입니다.

와이(5;9.73 )

(0;0) 1 2 3 4 5 x

그림 5.2.1. 실험점의 좌표와 근사값

선형 의존성

근사치의 품질을 평가하기 위해 예제 5.1에 제공된 계산과 유사한 품질 지표 계산을 수행합니다.

(오래된 상태로 남아 있음);

4 자유도;

을 위한

근사 결과를 바탕으로 회귀식 계수의 유의수준 측면에서 만족스러운 결과를 얻었음을 알 수 있다. 평균에 대한 표준 오차의 비율은 개선되었지만 여전히 권장 값인 0.05를 초과하므로 보다 복잡한 수학적 관계를 사용하여 근사를 반복하는 것이 좋습니다.

예제 5.3.예제 5.1과 5.2의 근사 품질을 향상시키기 위해 종속성에 의한 비선형 근사를 수행합니다.
. 이를 위해 먼저 중간 계산을 수행하고 그 결과를 표 5.3.1에 배치합니다.

가치

표 5.3.1

엑스 2

(lnX) 2

lnX lnY

추가로 계산해 보겠습니다.

의존성을 근사화해보자
. 공식 (5.3.7), (5.3.8)을 사용하여 계수를 계산합니다. 0 그리고 1 :

공식 (5.3.11)을 사용하여 계수를 계산합니다. 에이 0 그리고 에이 1 :


표준오차를 계산하기 위해 표 5.3.2에 제시된 중간계산을 수행하였다.

표 5.3.2

와이

와이

금액: 7.5968

근사의 표준 오차는 앞의 두 예보다 훨씬 큰 것으로 나타났으므로 근사 결과를 사용할 수 없는 것으로 간주합니다.

예제 5.4.또 다른 비선형 종속성을 이용해 근사해 보겠습니다.
. 표 5.3.1에 따라 공식 (5.3.9), (5.3.10)을 사용하여 계수를 계산합니다. 0 그리고 1 :

중간 의존성을 얻었습니다.

공식 (5.3.13)을 사용하여 계수를 계산합니다. 기음 0 그리고 기음 1 :


최종 종속성을 얻었습니다.

표준 오차를 계산하기 위해 중간 계산을 수행하고 이를 표 5.4.1에 배치합니다.

표 5.4.1

와이

와이

금액: 21.83152

표준오차를 계산해보자:

근사의 표준오차는 이전 예보다 훨씬 큰 것으로 나타났으므로 근사 결과를 사용할 수 없는 것으로 간주합니다.

예제 5.5.수학적 의존성을 통한 난수의 실험적 분포 근사 와이 = · lnx

이전 예와 마찬가지로 초기 데이터는 표 5.4.1과 그림 5.4.1에 나와 있습니다.

표 5.4.1

그림 5.4.1 및 표 5.4.1의 분석을 바탕으로 인수의 작은 값(표 시작 부분)을 사용하면 함수가 더 큰 값(표 끝 부분)보다 더 많이 변경된다는 점을 알 수 있습니다. 표) 따라서 인수의 규모를 변경하고 로그 함수를 회귀 방정식에 도입하고 다음 수학적 종속성을 사용하여 근사하는 것이 좋습니다.

. 공식 (5.4.3)을 사용하여 계수를 계산합니다. :

근사치의 품질을 평가하기 위해 표 5.4.2에 제시된 중간 계산을 수행하여 오류의 크기와 표준 오류 대 평균값의 비율을 계산합니다.

표 5.4.2


평균값에 대한 표준오차의 비율이 권장값인 0.05를 초과하므로 결과가 만족스럽지 못한 것으로 간주됩니다. 특히, 가장 큰 편차는 값에 의해 제공됩니다. x=1,이 값 때문에 lnx=0. 따라서 우리는 의존성을 근사화 할 것입니다 와이 = 0 +b 1 lnx

표 5.4.3의 형태로 보조 계산을 제시합니다.

표 5.4.3

공식 (5.4.6)과 (5.4.7)을 사용하여 계수를 계산합니다. 0과 1 :

9 (5;9.12)

4

1 (1;0.93)

1 2 3 4 5 x

근사치의 품질을 평가하기 위해 보조 계산을 수행하고 발견된 계수의 유의 수준과 표준 오차 대 평균값의 비율을 결정합니다.

유의수준 권장 값인 0.05(
).


주요 지표(평균값에 대한 표준 오차의 비율)에 따르면 권장 수준인 0.05의 거의 2배를 초과하는 결과가 얻어졌기 때문에 결과가 허용 가능한 것으로 간주됩니다. 학생 시험의 계산된 값을 참고하세요. 0 =2,922 크리티컬이랑은 다름
비교적 적은 금액으로.

예제 5.6.쌍곡선 의존성을 통해 예제 5.1의 실험 데이터를 근사화해 보겠습니다.
. 계수를 계산하려면 0과 1 표 5.6.1에 주어진 예비 계산을 수행해 보겠습니다.

표 5.6.1

엑스

엑스 =1/X

엑스 2

엑스 와이

공식 (5.4.8)과 (5.4.9)를 사용하여 표 5.6.1의 결과를 바탕으로 계수를 계산합니다. 0과 1 :

따라서 쌍곡선 회귀 방정식이 얻어집니다.

.

근사 품질을 평가하기 위한 보조 계산 결과는 표 5.6.2에 나와 있습니다.

표 5.6.2

엑스

표 5.6.2의 결과를 바탕으로 표준오차와 표준오차 대 평균값의 비율을 계산합니다.


평균값에 대한 표준오차의 비율이 권장값인 0.05를 초과한다는 사실로 인해 근사 결과가 적합하지 않다는 결론을 내립니다.

예제 5.7.

유지 관리 작업 시간에 따라 지브 크레인 작동으로 인한 특정 소득 값을 계산하려면 포물선 의존성을 얻어야 합니다.

이 의존성의 계수를 계산해 보겠습니다. 0 , 1 , 11 다음 공식에 따라 행렬 형태로 나타납니다.

Statistica 6.0 애플리케이션 패키지의 다중 회귀 절차를 사용하여 타워 크레인의 예방 유지 관리를 수행하기 위한 유효 지표와 최적 값을 연결하는 비선형 회귀 방정식을 얻었습니다. 다음으로 <표 5.7.1>에 따른 유효성과지표에 대한 회귀분석 결과를 제시한다.

표 5.7.1

표 5.7.2는 유효성과지표에 대한 비선형회귀분석 결과를 나타내고, 표 5.7.3은 잔차분석 결과를 나타낸다.

표 5.7.2

표 5.7.3

쌀. 3.7.36. 잔류 분석.

따라서 우리는 변수에 대한 다중 회귀 방정식을 얻었습니다.
:

표준 오류의 비율은 다음을 의미합니다.

14780/1017890=0,0145 < 0,05.

평균값에 대한 표준오차의 비율은 권장값인 0.05를 초과하지 않으므로 근사 결과는 허용 가능한 것으로 간주될 수 있습니다. 표 5.7.2에 따른 단점으로 계산된 모든 계수가 권장 유의 수준인 0.05를 초과한다는 점에 유의해야 합니다.

형식의 회귀 방정식을 구성하는 것을 고려해 보겠습니다.

포물선형 회귀 계수를 찾기 위한 정규 방정식 시스템 컴파일은 정규 선형 회귀 방정식 컴파일과 유사하게 수행됩니다.

변환 후에 우리는 다음을 얻습니다:

.

정규 방정식 시스템을 풀어 회귀 방정식의 계수를 얻습니다.

,

어디 , 에이.

2차 방정식은 선형 회귀 분산과 비교한 분산 감소가 유의미한 경우(비무작위) 1차 방정식보다 실험 데이터를 훨씬 더 잘 설명합니다. 과 사이의 차이의 중요성은 Fisher 기준에 의해 평가됩니다.

여기서 숫자는 자유도와 선택한 유의 수준에 따라 참조 통계표(부록 1)에서 가져옵니다.

계산 작업 수행 절차:

1. 다음 사항을 숙지하세요. 이론적 자료, 지침이나 추가 문헌에 명시되어 있습니다.

2. 확률 계산 선형 방정식회귀. 이렇게 하려면 금액을 계산해야 합니다. 즉시 금액을 편리하게 계산해보세요 , 이는 포물선 방정식의 계수를 계산하는 데 유용합니다.

3. 방정식을 사용하여 출력 매개변수의 계산된 값을 계산합니다.

4. 총 분산과 잔차 분산, 그리고 피셔의 기준을 계산합니다.

어디 – 정규 방정식 시스템의 계수를 요소로 하는 행렬;

– 요소가 알려지지 않은 계수인 벡터;

– 방정식 시스템의 우변의 행렬.

7. 방정식을 사용하여 출력 매개변수의 계산된 값을 계산합니다. .

8. 잔차 분산과 피셔의 기준을 계산합니다.



9. 결론을 도출합니다.

10. 회귀 방정식과 초기 데이터의 그래프를 구성합니다.

11. 정산 작업을 완료합니다.

계산 예.

온도에 따른 수증기 밀도의 의존성에 대한 실험 데이터를 사용하여 다음 형식의 회귀 방정식을 얻습니다. 통계 분석을 수행하고 최상의 경험적 관계에 대한 결론을 도출합니다.

0,0512 0,0687 0,081 0,1546 0,2516 0,3943 0,5977 0,8795

실험 데이터 처리는 작업 권장 사항에 따라 수행되었습니다. 선형 방정식의 매개변수를 결정하기 위한 계산은 표 1에 나와 있습니다.

표 1 - 형식의 선형 의존성 매개변수 찾기
포화선에서의 수증기 밀도
나는,°C , 옴 나는 2 계산.
0,0512 2,05 -0,0403 -0,0915 0,0084 0,0669
0,0687 3,16 0,0248 -0,0439 0,0019 0,0582
0,0811 4,22 0,0899 0,0089 0,0001 0,0523
0,1546 9,9 0,2202 0,06565 0,0043 0,0241
0,2516 19,12 0,3505 0,09894 0,0098 0,0034
0,3943 34,70 0,4808 0,08654 0,0075 0,0071
0,5977 59,77 0,6111 0,01344 0,0002 0,0829
0,8795 98,50 0,7414 -0,13807 0,0191 0,3245
합집합 2,4786 231,41 0,0512 0,6194
평균 72,25 0,3098 5822,5 28,93
0 = -0,4747 1 ost 2 = 0,0085
1 = 0,0109 다이 2 = 0,0885
에프= 10,368
에프 T =3.87 에프>에프 T 모델이 적당하다

.

포물선 회귀의 매개변수를 결정하기 위해 계수 행렬의 요소와 정규 방정식 시스템의 우변 행렬이 먼저 결정되었습니다. 그런 다음 MathCad 환경에서 계수가 계산되었습니다.

계산 데이터는 표 2에 나와 있습니다.

표 2의 명칭:

.

결론

피셔(Fisher) 기준의 계산된 값이 표 값 4.39를 크게 초과하기 때문에 포물선 방정식은 증기 밀도의 온도 의존성에 대한 실험 데이터를 훨씬 더 잘 설명합니다. 그러므로 다항식에 이차 항을 포함시키는 것이 의미가 있습니다.

얻은 결과는 그래픽 형식으로 표시됩니다(그림 3).

그림 3 - 계산 결과의 그래픽 해석.

점선은 선형 회귀 방정식입니다. 실선 – 포물선 회귀, 그래프의 점 – 실험값.

표 2. - 의존성 유형의 매개변수 찾기 와이()=에이 0 +에이 1 ∙x+a 2 ∙엑스 2 포화선 상의 수증기 밀도 ρ= 에이 0 +에이 1 ∙t+a 2 ∙ 2 -ρav) 2 0,0669 0,0582 0,0523 0,0241 0,0034 0,0071 0,0829 0,03245 0,6194
(Δρ) 2 0,0001 0,0000 0,0000 0,0002 0,0000 0,0002 0,0002 0,0002 0,0010 0,0085 0,0002 0,0885 42,5
∆ρ =ρ( 나는) 계산 – ρ 0,01194 –0,00446 –0,00377 –0,01524 –0,00235 0,01270 0,011489 –0,01348 1 2 휴식 = 2 2 휴식 = 1 2 와이= F=
ρ( 나는) 계산. 0,0631 0,0642 0,0773 0,1394- 0,2493 0,4070 0,6126 0,8660 2,4788
나는 81,84 145,33 219,21 633,24 1453,2 3053,4 5977,00 11032,45 22595,77
나는 4
나는 3
나는ρ 2,05 3,16 4,22 9,89 19,12 34,70 59,77 98,50 231,41
나는 2
ρ, 옴 0,0512 0,0687 0,0811 0,1546 0,2516 0,3943 0,5977 0,8795 2,4786 0,3098
나는,°C 0,36129 –0,0141 1.6613E-04
1 2 3 4 5 6 7 8 합집합 평균 0 = 1 = 2 =

부록 1

Fisher 분포 테이블 = 0,05

f 2 -
f 1
161,40 199,50 215,70 224,60 230,20 234,00 238,90 243,90 249,00 254,30
18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,50
10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64 8,53
7,71 6,94 6,59 6,39 6,76 6,16 6,04 5,91 5,77 5,63
6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,53 4,36
5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67
5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41 3,23
5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12 2,93
5,12 4,26 3,86 3,63 3,48 3,37 3,24 3,07 2,90 2,71
4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54
4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,79 2,61 2,40
4,75 3,88 3,49 3,26 3,11 3,00 2,85 2,69 2,50 2,30
4,67 3,80 3,41 3,18 3,02 2,92 2,77 2,60 2,42 2,21
4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,53 2,35 2,13
4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,48 2,29 2,07
4,49 3,63 3,24 3,01 2,82 2,74 2,59 2,42 2,24 2,01
4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,38 2,19 1,96
4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,34 2,15 1,92
4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,31 2,11 1,88
4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,28 2,08 1,84
4,32 3,47 3,07 2,84 2,68 2,57 2,42 2,25 2,05 1,81
4,30 3,44 3,05 2,82 2,66 2,55 2,40 2,23 2,03 1,78
4,28 3,42 3,03 2,80 2,64 2,53 2,38 2,20 2,00 1,76
4,26 3,40 3,01 2,78 2,62 2,51 2,36 2,18 1,98 1,73
4,24 3,38 2,99 2,76 2,60 2,49 2,34 2,16 1,96 1,71
4,22 3,37 2,98 2,74 2,59 2,47 2,32 2,15 1,95 1,69
4,21 3,35 2,96 2,73 2,57 2,46 2,30 2,13 1,93 1,67
4,20 3,34 2,95 2,71 2,56 2,44 2,29 2,12 1,91 1,65
4,18 3,33 2,93 2,70 2,54 2,43 2,28 2,10 1,90 1,64
4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,09 1,89 1,62
4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,00 1,79 1,52
4,00 3,15 2,76 2,52 2,37 2,25 2,10 1,92 1,70 1,39
3,92 3,07 2,68 2,45 2,29 2,17 2,02 1,88 1,61 1,25

회귀 분석과 상관 분석은 통계 조사 방법입니다. 이는 하나 이상의 독립 변수에 대한 매개변수의 종속성을 표시하는 가장 일반적인 방법입니다.

아래에서는 구체적인 실제 사례를 사용하여 경제학자들 사이에서 매우 인기 있는 이 두 가지 분석을 고려해 보겠습니다. 또한 이를 결합하여 결과를 얻는 예도 제공합니다.

Excel의 회귀 분석

종속변수에 대한 일부 값(독립, 독립)의 영향을 표시합니다. 예를 들어 경제 활동 인구의 수는 기업 수, 임금 및 기타 매개 변수에 어떻게 의존합니까? 또는 외국인 투자, 에너지 가격 등이 GDP 수준에 어떤 영향을 미치는가?

분석 결과를 통해 우선순위를 강조할 수 있습니다. 그리고 주요 요인을 기반으로 우선순위 영역의 개발을 예측, 계획하고 관리 결정을 내립니다.

회귀가 발생합니다.

  • 선형(y = a + bx);
  • 포물선형(y = a + bx + cx 2);
  • 지수(y = a * exp(bx));
  • 거듭제곱(y = a*x^b);
  • 쌍곡선(y = b/x + a);
  • 로그(y = b * 1n(x) + a);
  • 지수(y = a * b^x).

Excel에서 회귀 모델을 구축하고 결과를 해석하는 예를 살펴보겠습니다. 선형 회귀 유형을 살펴보겠습니다.

일. 6개 기업의 평균 월급과 퇴사자 수를 분석하였다. 평균 급여에 대한 퇴직 직원 수의 의존성을 결정하는 것이 필요합니다.

선형 회귀 모델은 다음과 같습니다.

Y = a 0 + a 1 x 1 +…+ak x k.

여기서 a는 회귀 계수이고, x는 영향을 미치는 변수이고, k는 요인의 수입니다.

이 예에서 Y는 직원을 그만둔 지표입니다. 영향을 미치는 요인은 임금(x)이다.

Excel에는 선형 회귀 모델의 매개변수를 계산하는 데 도움이 되는 기본 제공 함수가 있습니다. 그러나 "분석 패키지" 추가 기능을 사용하면 이 작업이 더 빠르게 수행됩니다.

우리는 강력한 분석 도구를 활성화합니다:

활성화되면 데이터 탭에서 추가 기능을 사용할 수 있습니다.

이제 회귀 분석 자체를 수행해 보겠습니다.



우선, R-제곱과 계수에 주목합니다.

R-제곱은 결정 계수입니다. 이 예에서는 – 0.755, 즉 75.5%입니다. 이는 모델의 계산된 매개변수가 연구된 매개변수 간의 관계의 75.5%를 설명한다는 것을 의미합니다. 결정 계수가 높을수록 모델이 더 좋습니다. 양호 - 0.8 이상. 나쁨 – 0.5 미만(이러한 분석은 합리적이라고 간주될 수 없음) 이 예에서는 "나쁘지 않습니다"입니다.

계수 64.1428은 고려 중인 모델의 모든 변수가 0인 경우 Y가 무엇인지 보여줍니다. 즉, 분석된 매개변수의 값은 모델에 설명되지 않은 다른 요인의 영향도 받습니다.

계수 -0.16285는 Y에 대한 변수 X의 가중치를 나타냅니다. 즉, 이 모델 내 평균 월급은 -0.16285의 가중치로 그만둔 사람 수에 영향을 미칩니다(이는 작은 정도의 영향입니다). "-" 기호는 부정적인 영향을 나타냅니다. 즉, 급여가 높을수록 그만 두는 사람이 줄어듭니다. 공평합니다.



Excel의 상관 분석

상관 분석은 하나 또는 두 개의 표본에 있는 지표 간에 관계가 있는지 확인하는 데 도움이 됩니다. 예를 들어 기계 작동 시간과 수리 비용, 장비 가격과 작동 시간, 어린이의 키와 몸무게 등이 영향을 받습니다.

연관성이 있는 경우 한 매개변수의 증가가 다른 매개변수의 증가(양의 상관관계) 또는 감소(음의 상관관계)로 이어지는 것입니다. 상관 분석은 분석가가 한 지표의 값을 사용하여 다른 지표의 가능한 값을 예측할 수 있는지 여부를 결정하는 데 도움이 됩니다.

상관 계수는 r로 표시됩니다. +1에서 -1까지 다양합니다. 서로 다른 영역에 대한 상관관계의 분류는 다를 것입니다. 계수가 0이면 샘플 간에 선형 관계가 없습니다.

엑셀을 이용하여 상관계수를 구하는 방법을 살펴보겠습니다.

쌍을 이루는 계수를 찾기 위해 CORREL 함수가 사용됩니다.

목표: 선반 작동 시간과 유지 관리 비용 사이에 관계가 있는지 확인합니다.

아무 셀에나 커서를 놓고 fx 버튼을 누릅니다.

  1. "통계" 범주에서 CORREL 함수를 선택합니다.
  2. 인수 "배열 1" - 값의 첫 번째 범위 - 기계 작동 시간: A2:A14.
  3. 인수 "배열 2" - 두 번째 값 범위 - 수리 비용: B2:B14. 확인을 클릭하세요.

연결 유형을 결정하려면 계수의 절대값을 확인해야 합니다(각 활동 분야에는 자체 규모가 있음).

을 위한 상관관계 분석여러 매개변수(2개 이상)를 사용하는 경우 "데이터 분석"("분석 패키지" 추가 기능)을 사용하는 것이 더 편리합니다. 목록에서 상관관계를 선택하고 배열을 지정해야 합니다. 모두.

결과 계수는 상관 행렬에 표시됩니다. 이와 같이:

상관관계 및 회귀 분석

실제로는 이 두 가지 기술을 함께 사용하는 경우가 많습니다.

예:


이제 회귀 분석 데이터가 표시되었습니다.

회귀 함수가 다음과 같은 두 변수 사이의 관계에 대한 쌍선형 회귀 모델을 고려해 보겠습니다. Φ(x)선의. 다음으로 나타내자 와이 엑스특성의 조건부 평균 와이다섯 인구고정된 값으로 엑스변하기 쉬운 엑스. 그러면 회귀 방정식은 다음과 같습니다.

와이 엑스 = 도끼 + , 어디 에이회귀계수(선형 회귀선의 기울기 표시) . 회귀 계수는 변수가 평균적으로 몇 단위 변경되는지 보여줍니다. 와이변수를 변경할 때 엑스하나의 단위에 대해. 최소 제곱법을 사용하면 선형 회귀 매개변수를 계산하는 데 사용할 수 있는 공식이 얻어집니다.

표 1. 선형 회귀 매개변수 계산 공식

무료 회원

회귀계수 에이

결정계수

회귀 방정식의 중요성에 대한 가설 테스트

N 0 :

N 1 :

, ,, 부록 7(선형 회귀의 경우 p = 1)

회귀계수의 부호에 따라 변수 간의 관계 방향이 결정됩니다. 회귀계수의 부호가 양수이면 종속변수와 독립변수 사이의 관계는 양수입니다. 회귀계수의 부호가 음수이면 종속변수와 독립변수의 관계는 음수(역)입니다.

회귀 방정식의 전반적인 품질을 분석하기 위해 결정 계수가 사용됩니다. 아르 자형 2 , 다중 상관 계수의 제곱이라고도 합니다. 결정계수(확실성의 측도)는 항상 구간 내에 있습니다. 값이 아르 자형 2 단일성에 가깝다는 것은 구성된 모델이 해당 변수의 거의 모든 변동성을 설명한다는 것을 의미합니다. 반대로 뜻은 아르 자형 2 0에 가까우면 구성된 모델의 품질이 좋지 않음을 의미합니다.

결정계수 아르 자형 2 발견된 회귀 함수가 원래 값 간의 관계를 몇 퍼센트로 설명하는지 보여줍니다. 와이그리고 엑스. 그림에서. 그림 3은 회귀모델로 설명되는 변동과 전체 변동을 보여줍니다. 따라서 이 값은 매개변수의 변동이 몇 퍼센트인지를 나타냅니다. 와이회귀모델에 포함되지 않은 요인으로 인해 발생합니다.

결정계수(75%)의 높은 값으로 초기 데이터 범위 내에서 특정 값에 대한 예측이 가능합니다. 초기 데이터의 범위를 벗어나는 값을 예측할 경우 결과 모델의 타당성을 보장할 수 없습니다. 이는 모델이 고려하지 않은 새로운 요인의 영향이 나타날 수 있다는 사실로 설명됩니다.

회귀 방정식의 중요성은 Fisher 기준을 사용하여 평가됩니다(표 1 참조). 귀무 가설이 참인 경우 기준은 자유도 수를 갖는 피셔 분포를 갖습니다. , (쌍선형회귀의 경우 p = 1). 귀무 가설이 기각되면 회귀 방정식은 통계적으로 유의한 것으로 간주됩니다. 귀무 가설이 기각되지 않으면 회귀 방정식은 통계적으로 중요하지 않거나 신뢰할 수 없는 것으로 간주됩니다.

예시 1.기계공장에서는 제품 원가 구조와 구매 부품 비중을 분석합니다. 구성 요소 비용은 배송 시간에 따라 달라집니다. 배송시간에 영향을 미치는 가장 중요한 요인으로 이동거리를 선택하였다. 공급 데이터의 회귀 분석을 수행합니다.

거리, 마일

시간, 분

회귀 분석을 수행하려면 다음을 수행하십시오.

    초기 데이터의 그래프를 구성하고 의존성의 성격을 대략적으로 결정합니다.

    회귀 함수 유형을 선택하고 최소 제곱법과 관계 방향을 사용하여 모델의 수치 계수를 결정합니다.

    결정계수를 사용하여 회귀 의존성의 강도를 평가합니다.

    회귀 방정식의 중요성을 평가합니다.

    채택된 모델을 사용하여 2마일 거리에 대해 예측(또는 예측 불가능에 대한 결론)을 내립니다.

2. 선형회귀식의 계수와 결정계수를 계산하는데 필요한 양을 계산한다.아르 자형 2 :

; ;;.

필요한 회귀 종속성은 다음과 같은 형식을 갖습니다. . 변수 간의 관계 방향을 결정합니다. 회귀 계수의 부호는 양수이므로 관계도 양수이므로 그래픽 가정을 확인합니다.

3. 결정계수를 계산해 보겠습니다. 또는 92%. 따라서 선형 모델은 배송 시간 변동의 92%를 설명하며 이는 요인(거리)이 올바르게 선택되었음을 의미합니다. 8%의 시간 변동은 설명되지 않았는데, 이는 배송 시간에 영향을 미치는 다른 요인으로 인한 것이지만 선형 회귀 모델에는 포함되지 않습니다.

4. 회귀 방정식의 중요성을 확인해 보겠습니다.

왜냐하면– 회귀 방정식(선형 모델)이 통계적으로 유의미합니다.

5. 예측 문제를 해결해 보겠습니다. 결정계수부터아르 자형 2 충분히 높은 값을 갖고 예측을 수행할 2마일 거리가 입력 데이터 범위 내에 있으면 예측을 수행할 수 있습니다.

기능을 이용하여 회귀분석을 편리하게 수행할 수 있습니다. 뛰어나다. "회귀" 작동 모드는 선형 회귀 방정식의 매개변수를 계산하고 연구 중인 프로세스에 대한 적합성을 확인하는 데 사용됩니다. 대화 상자에서 다음 매개변수를 입력합니다.

예시 2. "회귀" 모드를 사용하여 예제 1의 작업을 완료하세요.뛰어나다.

결과의 결론

회귀 통계

복수형 R

R-제곱

정규화된 R-제곱

표준오차

관찰

승산

표준오차

t-통계량

P-값

Y교차점

가변 X 1

표에 제시된 회귀분석 결과를 살펴보겠습니다.

크기R-제곱 는 확실성 척도라고도 하며 결과 회귀선의 품질을 나타냅니다. 이 품질은 원본 데이터와 회귀 모델(계산된 데이터) 간의 일치 정도로 표현됩니다. 이 예에서 확실성 측정값은 0.91829입니다. 이는 회귀선이 원본 데이터에 매우 잘 맞는 것을 나타내며 결정 계수와 일치합니다.아르 자형 2 , 공식으로 계산됩니다.

복수형 R - 다중 상관계수 R - 독립변수(X)와 종속변수(Y)의 의존도를 나타내며 결정계수의 제곱근과 같습니다. 단순선형회귀분석에서는다중 R 계수선형 상관 계수와 같습니다(아르 자형 = 0,958).

선형 모델 계수:와이 -교차로 더미 용어의 값을 인쇄합니다., 에이변수 X1 – 회귀계수 a. 그러면 선형 회귀 방정식은 다음과 같습니다.

와이 = 2.6597엑스+ 5.9135(예 1의 계산 결과와 잘 일치함)

다음으로 회귀계수의 중요성을 확인해 보겠습니다.에이그리고. 열 값을 쌍으로 비교승산 그리고표준오차 표에서 계수의 절대값이 표준 오차보다 크다는 것을 알 수 있습니다. 또한, 이러한 계수는 지정된 유의 수준 α = 0.05보다 작은 P-값 지표의 값으로 판단할 수 있듯이 유의미합니다.

관찰

예측된 Y

나머지

표준잔고

표는 출력 결과를 보여줍니다나머지. 보고서의 이 부분을 사용하여 구성된 회귀선에서 각 점의 편차를 확인할 수 있습니다. 최대 절대값나머지이 경우 - 1.89256, 가장 작은 - 0.05399. 이 데이터를 더 잘 해석하려면 원본 데이터와 구성된 회귀선을 플로팅하십시오. 구성에서 볼 수 있듯이 회귀선은 초기 데이터 값에 잘 "맞춤"되어 있으며 편차는 무작위입니다.