본문 바로가기

공부

상관계수의 종류

반응형

상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해서 한다.

주 변수의 상관관계를 알아보기 위해서 상관계수(Correlation coefficient)를 이용한다.

 

 

상관 계수의 유형 (출처 : https://hosted.jalt.org/test/bro_12.htm)

 

• Pearson r:

- 연속 변수들 간의 상관계수

- 선형적 관계를 가정.

- 만약에 0이라면 상관관계가 없는 것이 아닌, 선형적 관계가 없다는 의미.

 

 

• Spearman's r.

- 서열척도들간의 상관계수

- 연속변수라 하더라도 극단적인 값들이 존재하면 Pearson Correlation 대신 Spearman 상관계수를 사용할 수 있음.

- 계산 방법은 자료의 서열을 정한 다음, 이 서열간의 Pearson 상관계수를 계산하면 됨.

 

 

• 파이 상관계수, Phi(φ) coefficient.

- 두 범주 변수들간의 상관계수로, 각 범주 변수를 0과 1로 바꾼 다음, 이 둘 간의 Pearson 상관계수로 계산.

- 각 변수가 두 개의 값만 가질 수 있기 때문에 2x2가 됨.

- 두 변수 모두 명목(nominal)이고 이분법(dichotornous)일 경우.

명목(nominal)의 예) 검은색/흰색

이분법적(dichotornous)의 예) 두 개의 반대 범주 : 사망/살아있음 또는 수준(연속 변수) : 60% 이상/미만 합격/불합격

 

 

[!] 파이 상관계수 vs 크래머 브이 계수

두 변인이 모두 이분변수일 경우 모두 사용할 수 있고, 적어도 하나의 변인이 세가지 수준을 가진다면(e.g., 인종 : 흑인, 백인, 아시안) 그래머 브이계수를 사용하여야 한다.

 

• 크래머 브이 계수, Cramer's V.

카이 제곱 독립성 검정의 효과 크기 측정하고, 두 명명척도 변인 간의 상관을 구할 때 사용. 

효과 크기는 다음 방식으로 계산됩니다.

  1. 어떤 필드가 가장 작은 수의 카테고리를 갖는지 판별합니다.
  2. 이 필드에 있는 카테고리 수에서 1을 뺍니다.
  3. 그 결과에 레코드의 총 수를 곱합니다.
  4. 카이 제곱 값을 이전 결과로 나눕니다. 카이 제곱 값은 카이 제곱 독립성 검정으로부터 얻습니다.
  5. 제곱근을 취합니다.

 

• 사변량 상관 계수, Tetrachoric correlation

- 범주들간의 상관계수이나, 범주들이 인위적으로 이분화된 경우에 사용.

사변량 상관 계수 tetrachoric correlation coefficient(rtet)는 phi와 같이 두 변수가 이분할 때 사용되지만, 실제로 연속적이고 정규분포를 따른다고 가정할 수 있어야 함.

ordinal data(순서 및 척도가 설정된 일종의 범주형 데이터)에 적용됨.

순위는 별개이므로, 이러한 방식에서 Spearman 과 다름.

공식에는 cos이라는 삼각 함수가 포함되며, 공식은 다음과 같음.

rtet = cos (180/(1 + sqrt(BC/AD)).

 

 

 

 점이연 상관계수, Point-biserial correlation

- 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수

- 이분변수를 0과 1로 코딩한 다음 Peason 상관계수를 계산하면 상관계수가 됨.

- 검사에서 총점과 문항 (correct/incorrect 혹은 yes/no) 간의 상관계수를 구할 때 자주 사용.

 

내가 찾는 상관관계는 아니여서 간단하게만 작성하였고, 더 알고 싶다면 -> (https://hosted.jalt.org/test/bro_12.htm)

 

(a) What is the point-biserial correlation coefficient?

자연적으로 발생하는 이분법 명목 척도와 구간(또는 비율) 척도 사이의 관계 정도를 추정하는데 사용되는 통계예) 제 2외국어로서 영어 성취도와 성별간의 관계 정도를 조사하고자 할 수 있음. 시험(간격 척도), 성별(자연적으로 발생하는 이분법적 명목 척도)

 

결과 계수의 해석은 Pearson product-moment correlation coefficient에 대한 해석과 매우 유사.

rpbi는 음과 양으로 범위가 될 수 있으며, 값이 높을수록 두 변수 간의 관계가 더 강해짐.

 

(b) How is the point-biserial correlation coefficient related to other correlation coefficients?

가장 먼저, point-biserial와 biserial의 상관계수의 차이를 보아야 한다.

 

biserial correlation coefficient (or rbi)는 두 구간(또는 비율) 척도 간의 관계 정도에 관심이 있을 때 적합하지만 어떤 논리적인 이유로 둘 중 하나가 인위적으로 생성된 이분법 명목 척도로 더 합리적으로 해석

 

예) 어떤 과정의 합격 또는 불합격과 언어 적성 시험 점수 사이의 관계 정도를 결정할 수 있음.

이를 위해 코스가 끝날 때의 성적(A, B, C, D 및 F, 종종 4.00, 3.00, 2.00, 1.00 및 0.00 간격 척도로 변환)을 구성된 명목 척도로 인위적으로 (두 그룹으로)분리가 가능

두 그룹: 통과(A에서 D 또는 1.00에서 4.00) 및 실패(F 또는 0.00).

=> 인공적으로 생성된 이분법과 언어 적성 테스트의 간격 점수 사이의 관계 정도는 rbi 계수를 사용하여 결정 가능.

따라서 이차 상관계수는 명목변수가 인위적으로 생성된 경우(성적에서 합격-불합격 변수와 같이) 적절히 적용되는 반면, 점-이차상관계수는 명목변수가 자연적으로 발생되는 경우임!(자연 발생하는 남녀 성별 구분, (a)의 예시와 같이.)

 

(c) How is the point-biserial correlation coefficient calculated?

rpbi =point-biserial correlation coefficient, point-biserial 상관 계수
Mp =whole-test mean for students answering item correctly (i.e., those coded as 1s), 1로 응답 평균
Mq =whole-test mean for students answering item incorrectly (i.e., those coded as 0s), 0으로 응답 평균
St =standard deviation for whole test, 전체 표준 편차
p =proportion of students answering correctly (i.e., those coded as 1s), 1로 코딩된 비율
q =proportion of students answering incorrectly (i.e., those coded as 0s), 0으로 코딩된 비율

(d) how is the point-biserial correlation coefficient used in language testing?

자연적으로 발생하는 명목 척도와 구간 척도 사이의 관계 정도를 이해하는데 관심이 있는 모든 연구에서 사용 가능하다.

 

• 이연 상관계수 (Biserial correlation)

- 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수이지만 이분변수가 원래 연속변수인데 이분화한 경우에 상용.

- 이분화되지 않았을 때 두 연속변수들간의 상관계수를 추정하는 방식으로 상관이 구해짐.

 

 

 

 

 

 

출처 및 참고 : https://dohwan.tistory.com/394, https://hosted.jalt.org/test/bro_12.htm, https://medium.com/@cdefaux/phi-coefficient-a-k-a-matthews-correlation-coefficient-binary-classification-11e2c29db91e

 

 

 

 

반응형

'공부' 카테고리의 다른 글

[NLP] 한글 임베딩  (0) 2022.12.28
머신러닝 강의 1편  (1) 2022.12.21
Voting, Bagging, Boosting  (0) 2022.10.28
[NLP] Text Vectorization (작성중)  (0) 2022.09.08
[NLP] 모델 정확도 향상(keras.preprocessing vs nltk.tokenize)  (0) 2022.07.26