유사도(4)
-
자카드 유사도
ㅇ 집합 A와 B사이의 유사도는 얼마나 많은 아이템이 겹치는지로 판단 ㅇ 전체집합과 교집합 사이의 비율로 유사도 계산 ㅇ 공통 아이템이 없으면 0, 모두 겹치면 1 ㅇ 주로 여러 단어로 구성된 문서 또는 문장이 유사한지 판단할 때 사용
2021.05.10 -
피어슨 유사도
ㅇ Vector X, Y 사이의 상관관계를 계산 (=피어슨 상관계수) ㅇ 연속형 변수에 사용 ㅇ 각 Vector의 표본평균으로 각 vector를 정규화 하고, 코사인 유사도를 구한다 ㅇ 1은 양의 상관관계, -1은 음의 상관관계, 0은 상관관계가 없음
2021.05.10 -
유클리드 거리
ㅇ 두점 사이의 거리를 계산할 때 사용하는 평가지표 ㅇ 여러 차원을 갖는 점과 점 사이의 거리를 계산 ㅇ 거리 기반 유사도 측정 방법. 피타고라스를 활용함
2021.05.10 -
코사인 유사도
ㅇ 벡터를 비교할때 가장 많이 유용하게 사용되는 평가지표 ㅇ 코사인 유사도는 벡터A와 벡터 B 사이의 각도로 계산 ㅇ 코사인 유사도는 -1과 1 사이값을 가지며, -1은 완전히 반대, 0은 서로 독립, 1은 완전히 같은경우를 뜻함 ㅇ 각도 기반 유사도 측정 방법, 두 벡터간 유사한 정도를 코사인 값으로 표현 ㅇ 비교하는 데이터 간의 스케일차이가 클 경우 코사인 유사도, 크지 않다면 유클리드 거리 사용 ㅇ 계산 방식 ㅇ 코드 예시
2021.04.28