[통계학] 자료로서의 변수 구분 및 개념 정리

통계학에서 변수(variable)란 각 측정 단위에 대해서 측정 하려고 하는 특성을 이야기 합니다. 아래는 여러 종류의 변수에 대한 개념을 정리한 것입니다.

질적변수 vs 양적변수

질적변수(Qualitative variable)란 변수의 값이 자료를 특정 카테고리에 포함 시키도록 하는 변수를 의마합니다. 아이들 장난감의 색상, 특정 집단 구성원의 성별, 종교 등이 그 예입니다.

양적변수(Quantitative variable)란 변수의 값을 숫자로 나타 낼 수 있는 변수를 의미합니다. 예를 들어 사람의 키나 몸무게, 한 가정의 소득, 고속도로 통행량 등을 양적 변수라 할 수 있습니다.

이와 같은 양적변수는 이산변수와 연속변수로 구분 할 수 있습니다.

이산변수 vs 연속변수

이산변수(discrete variable)란 이산 할 수 있는 변수를 의미 합니다. 이게 뭔 소린가 싶지만 다시 말하자면 하나하나 셀 수 있는 변수를 의미합니다. 예를 들어 아파트의 층 수, 한 회사의 직원의 수, 불량품의 개수 등이 이산변수 입니다. 한 회사의 직원 수가 100.5 명은 될 수 없잖아요.

연속변수(continuous variable)란 이산변수와 다르게 변수의 각 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우를 의미합니다. 예를 들어 사람의 키, 몸무게, 나이, 한 가구의 소득 등이 그것 입니다.

이산변수와 연속변수의 차이는 정수와 실수의 차이 정도로 생각하면 되겠네요.

간격변수 vs 비율변수

연속변수는 간격변수비율변수로 구분할 수 있습니다. 등간성이 있고, 단위가 부여 되지만 차이점은 0 값의 절대적인 의미가 다르다는 것입니다.

간격변수의 대표적인 예인 온도와 비율 변수 중 하나인 사람의 신장을 예로 들자면, 온도가 0도라는 것은 인위적으로 특정 지점을 0도로 지정한 것으로 기준이나 정의에 따라 0의 의미가 달라질 수 있지만, 사람의 신장이 0이라는 것은 지면으로 부터 전혀 떨어지지 않았다는 것을 의미하며 이는 어떤 상황에서도 달라 질 수 없다는 것을 의미합니다.

명목변수 vs 순위변수

명목변수와 순위변수는 모두 질적변수에 해당합니다. 두 변수 모두 자료를 특정 범주 안에 포함 되도록 하는 것입니다.

명목변수(nominal variable)란 변수의 값이 측정 대상을 특정한 범주(category) 안에 들어가게 하지만 해당 범주간에는 순위는 존재하지 않는 것입니다. 예를 들면 사람의 혈액형과 같이 변수의 값(A, B, O or AB)이 대상을 특정 범주에 들어가게는 하지만, 각각의 혈액형은 순위를 매길 수 없는 경우 입니다.

순위변수(ordinal variable)는 변수의 값이 측정 대상을 특정 범주에 들어 가도록 하면서, 변수의 값이 순위를 가지는 경우를 말 합니다. 예를 들자면 대학교 수업 성적(A > B > C > D > F) 와 같은 것들이 있습니다.

독립변수 vs 종속변수

독립변수(Independent variable)종속변수(Dependent variable)는 자료의 특성이라기 보다는 각 변수의 관계로 이해하면 쉽습니다. 독립변수는 다른 변수에 영향을 미치는 변수이며, 종속변수는 다른 변수에 영향을 미치지 못하고 다른 변수의 영향을 받는 변수를 의미합니다.

이 둘의 관계는 수식으로 보면 더 간단합니다.

y = a + bx

우리가 흔히 볼 수 있는 위 1차 방정식에서 x 의 변화함에 따라 b 만큼의 영향을 받아 y 가 변하게 되므로 x 는 독립변수, y 는 종속변수라 할 수 있습니다.


변수의 특성을 파악 하고 있다는 것은 통계적 추론에서 굉장히 중요합니다. 꼭 숙지 하도록 합시다.

(틀린 부분은 지적해 주시면 바로 수정하도록 하겠습니다)