통계/상관분석
상관분석 요약 정리
주인장 아저씨
2022. 12. 15. 20:13
# 상관관계
ㅇ 등비 - 피어슨 상관계수 - 정규성 가정 but 이상치 민감 (정규성 만족 안하면 순위형으로 대체하여 상관계수 계산)
ㅇ 명목, 서열척도 - 스피어만 or 캔달 상관계수 - 정규성 가정x & 이상치 민감x
ㅇ 등비 - 명목척도 관계나 명목-명목척도 관계는 인과관계가 존재할 수 없기 때문에 상관분석을 하는 의미가 없음.
ㅇ 상관분석은 산점도(Scatterplot)을 한 뒤에 진행해야됨.
ㅇ 왜냐하면 아주 미비하게 우상향 하더라도 상관분석 결과는 높은 양의 상관관계로 나올 수가 있음. 이러한 문제를 방지하기 위해 산점도를 통해 데이터를 살펴 본 후 이상치 데이터는 제거 후 진행해야됨
ㅇ 상관계수가 0이라는 의미는 엄밀히 말하면 1차 선형관계가 없다는 뜻과 같음.
ㅇ 상관계수는 두 변수의 공변량을 각각의 표준편차로 나눈 것과 같은데, 공변량은 서로의 단위가 다르기 때문에 이를 표준 편차로 나누어 표준화 시켜줌. 그렇게 되면 -1에서 1 사이로 표현 가능.
# 편상관관계
ㅇ 비교하고 싶은 변수에 영향을 미치는 제 3의 변수를 통제 후 상관관계 파악
ㅇ 제 3의 변수를 통제를 하기 전에는 강한 상관이 있었는데 통제하고 돌렸을 때 상관관계가 약하게 나오면 두 변수는 가짜 상관이 있었던 것