데이터의 구분 : 질적 데이터 vs 양적 데이터
맨 처음 데이터를 얻었을 때
몇 개 범주로 구성된 텍스트 데이터인가
vs
이산형, 연속형 숫자 데이터인가 로
데이터를 구분하는 기준이다.
1. 범주형 데이터 (질적 데이터)
- 정의 : 데이터가 몇 개의 카테고리값(클래스) 로 이루어져 있으면 ‘범주형 데이터’ 라고 한다. 카테고리확률변수에서 숫자 형태로 실현된다.
범주형 데이터는 원래 텍스트 형태로 생성되는 경우가 많다. 예를 들어 성별 : 남, 여 / 성적 : A,B,C,D 이런 식이다.
하지만 데이터를 처리하고, 평균. 표준편차 등 계산을 위해 숫자 형태로 코딩해줘야 한다.
확률변수는 본질적으로 표본을 입력받아 실수로 변환. 출력하는 ‘함수’이기도 하다.
그래서 범주형 데이터가 카테고리확률변수에서 최종으로 실현되었을 때는 각 카테고리를 나타낼 수 있는 숫자 형태로 코딩된 상태다. (0,1) 또는 (1,2,3,4) 등
2. 숫자형 데이터 (양적 데이터)
- 정의 : 데이터가 이산적 또는 연속적 숫자로 이루어져 있으면 ‘숫자형 데이터’라고 한다. 이산확률변수, 연속확률변수에서 실현된다.
이산적 데이터는 각 데이터가 불연속적이라는 특징을 갖는다.
연속적 데이터는 각 데이터가 연속적, 갯수가 무한하다는 특징을 갖는다.
데이터를 ‘숫자’로 코딩하는 도구 : 측정 척도 (Measurement scale)
범주형 데이터라면 각 카테고리 값을 숫자로 변환하고 특정한 의미를 부여하는 도구를 말한다.
숫자형 데이터라면 수집된 각 숫자에 특정한 의미를 부여하는 도구를 말한다.
$\Rightarrow$ 데이터에 측정 척도를 적용하면 각 데이터가 숫자로 코딩되고. 데이터 특성이 정의된다.
어떤 측정 척도(도구)를 사용하는가에 따라 코딩된 데이터 특성도 달라진다.
측정 척도 (Measurment scale) 종류
범주형 데이터에 적용할 수 있는 측정 척도
- 명목척도
코딩된 숫자들이 값들 간 구분하는 역할 만 한다.
- 서열척도 (순서척도)
코딩된 숫자들이 값들 간 구분하는 역할 한다.
각 값들 간 우열이 있다.
각 값들 간 정확하게 얼마나 차이 나는지는 모른다. (알 수 없다)
숫자형 데이터에 적용할 수 있는 측정 척도
- 등간 척도
각 값들은 같은 간격으로 쪼개진 구간 상에 있는 값들이다.
각 값들을 분류할 수 있다.
각 값들간에 우열이 있다.
하지만 절대 영점(무)은 없다. 0 은 상대적 위치이지, ‘값이 없다’ 를 나타내지 않는다.
값들 간 덧셈, 뺄셈 가능하다. (곱셈은 안 된다)
- 비율 척도
각 값들을 같은 간격 구간으로 쪼갠다.
각 값들을 분류할 수 있다.
각 값들간에 우열이 있다.
절대 영점(무) 가 있다. 0 은 ‘값이 없다’ 를 나타낸다.
값들 간 모든 사칙연산 가능하다. (비율계산이 가능하다)