상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해서 한다.
주 변수의 상관관계를 알아보기 위해서 상관계수(Correlation coefficient)를 이용한다.
• Pearson r:
- 연속 변수들 간의 상관계수
- 선형적 관계를 가정.
- 만약에 0이라면 상관관계가 없는 것이 아닌, 선형적 관계가 없다는 의미.
• Spearman's r.
- 서열척도들간의 상관계수
- 연속변수라 하더라도 극단적인 값들이 존재하면 Pearson Correlation 대신 Spearman 상관계수를 사용할 수 있음.
- 계산 방법은 자료의 서열을 정한 다음, 이 서열간의 Pearson 상관계수를 계산하면 됨.
• 파이 상관계수, Phi(φ) coefficient.
- 두 범주 변수들간의 상관계수로, 각 범주 변수를 0과 1로 바꾼 다음, 이 둘 간의 Pearson 상관계수로 계산.
- 각 변수가 두 개의 값만 가질 수 있기 때문에 2x2가 됨.
- 두 변수 모두 명목(nominal)이고 이분법(dichotornous)일 경우.
명목(nominal)의 예) 검은색/흰색
이분법적(dichotornous)의 예) 두 개의 반대 범주 : 사망/살아있음 또는 수준(연속 변수) : 60% 이상/미만 합격/불합격
[!] 파이 상관계수 vs 크래머 브이 계수
두 변인이 모두 이분변수일 경우 모두 사용할 수 있고, 적어도 하나의 변인이 세가지 수준을 가진다면(e.g., 인종 : 흑인, 백인, 아시안) 그래머 브이계수를 사용하여야 한다.
• 크래머 브이 계수, Cramer's V.
카이 제곱 독립성 검정의 효과 크기 측정하고, 두 명명척도 변인 간의 상관을 구할 때 사용.
효과 크기는 다음 방식으로 계산됩니다.
- 어떤 필드가 가장 작은 수의 카테고리를 갖는지 판별합니다.
- 이 필드에 있는 카테고리 수에서 1을 뺍니다.
- 그 결과에 레코드의 총 수를 곱합니다.
- 카이 제곱 값을 이전 결과로 나눕니다. 카이 제곱 값은 카이 제곱 독립성 검정으로부터 얻습니다.
- 제곱근을 취합니다.
• 사변량 상관 계수, Tetrachoric correlation
- 범주들간의 상관계수이나, 범주들이 인위적으로 이분화된 경우에 사용.
사변량 상관 계수 tetrachoric correlation coefficient(rtet)는 phi와 같이 두 변수가 이분할 때 사용되지만, 실제로 연속적이고 정규분포를 따른다고 가정할 수 있어야 함.
ordinal data(순서 및 척도가 설정된 일종의 범주형 데이터)에 적용됨.
순위는 별개이므로, 이러한 방식에서 Spearman 과 다름.
공식에는 cos이라는 삼각 함수가 포함되며, 공식은 다음과 같음.
rtet = cos (180/(1 + sqrt(BC/AD)).
• 점이연 상관계수, Point-biserial correlation
- 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수
- 이분변수를 0과 1로 코딩한 다음 Peason 상관계수를 계산하면 상관계수가 됨.
- 검사에서 총점과 문항 (correct/incorrect 혹은 yes/no) 간의 상관계수를 구할 때 자주 사용.
내가 찾는 상관관계는 아니여서 간단하게만 작성하였고, 더 알고 싶다면 -> (https://hosted.jalt.org/test/bro_12.htm)
(a) What is the point-biserial correlation coefficient?
자연적으로 발생하는 이분법 명목 척도와 구간(또는 비율) 척도 사이의 관계 정도를 추정하는데 사용되는 통계예) 제 2외국어로서 영어 성취도와 성별간의 관계 정도를 조사하고자 할 수 있음. 시험(간격 척도), 성별(자연적으로 발생하는 이분법적 명목 척도)
결과 계수의 해석은 Pearson product-moment correlation coefficient에 대한 해석과 매우 유사.
rpbi는 음과 양으로 범위가 될 수 있으며, 값이 높을수록 두 변수 간의 관계가 더 강해짐.
(b) How is the point-biserial correlation coefficient related to other correlation coefficients?
가장 먼저, point-biserial와 biserial의 상관계수의 차이를 보아야 한다.
biserial correlation coefficient (or rbi)는 두 구간(또는 비율) 척도 간의 관계 정도에 관심이 있을 때 적합하지만 어떤 논리적인 이유로 둘 중 하나가 인위적으로 생성된 이분법 명목 척도로 더 합리적으로 해석
예) 어떤 과정의 합격 또는 불합격과 언어 적성 시험 점수 사이의 관계 정도를 결정할 수 있음.
이를 위해 코스가 끝날 때의 성적(A, B, C, D 및 F, 종종 4.00, 3.00, 2.00, 1.00 및 0.00 간격 척도로 변환)을 구성된 명목 척도로 인위적으로 (두 그룹으로)분리가 가능
두 그룹: 통과(A에서 D 또는 1.00에서 4.00) 및 실패(F 또는 0.00).
=> 인공적으로 생성된 이분법과 언어 적성 테스트의 간격 점수 사이의 관계 정도는 rbi 계수를 사용하여 결정 가능.
따라서 이차 상관계수는 명목변수가 인위적으로 생성된 경우(성적에서 합격-불합격 변수와 같이) 적절히 적용되는 반면, 점-이차상관계수는 명목변수가 자연적으로 발생되는 경우임!(자연 발생하는 남녀 성별 구분, (a)의 예시와 같이.)
(c) How is the point-biserial correlation coefficient calculated?
rpbi =point-biserial correlation coefficient, point-biserial 상관 계수
Mp =whole-test mean for students answering item correctly (i.e., those coded as 1s), 1로 응답 평균
Mq =whole-test mean for students answering item incorrectly (i.e., those coded as 0s), 0으로 응답 평균
St =standard deviation for whole test, 전체 표준 편차
p =proportion of students answering correctly (i.e., those coded as 1s), 1로 코딩된 비율
q =proportion of students answering incorrectly (i.e., those coded as 0s), 0으로 코딩된 비율
(d) how is the point-biserial correlation coefficient used in language testing?
자연적으로 발생하는 명목 척도와 구간 척도 사이의 관계 정도를 이해하는데 관심이 있는 모든 연구에서 사용 가능하다.
• 이연 상관계수 (Biserial correlation)
- 하나가 연속변수이고 다른 하나고 이분변수일 때 사용하는 상관계수이지만 이분변수가 원래 연속변수인데 이분화한 경우에 상용.
- 이분화되지 않았을 때 두 연속변수들간의 상관계수를 추정하는 방식으로 상관이 구해짐.
출처 및 참고 : https://dohwan.tistory.com/394, https://hosted.jalt.org/test/bro_12.htm, https://medium.com/@cdefaux/phi-coefficient-a-k-a-matthews-correlation-coefficient-binary-classification-11e2c29db91e
'공부' 카테고리의 다른 글
[NLP] 한글 임베딩 (0) | 2022.12.28 |
---|---|
머신러닝 강의 1편 (1) | 2022.12.21 |
Voting, Bagging, Boosting (0) | 2022.10.28 |
[NLP] Text Vectorization (작성중) (0) | 2022.09.08 |
[NLP] 모델 정확도 향상(keras.preprocessing vs nltk.tokenize) (0) | 2022.07.26 |