기업의 데이터 분석

3.3. 엑셀 예측모델 데이터 준비와 개발 방법

정데만 2023. 5. 25. 20:31
728x90
 

일반적으로 사용되는 예측이라는 단어에는 ‘미래’에 대한 조건이 포함되어있다. 

 

사전적 정의인 ‘미리 헤아려 짐작함’에서도 알 수 있듯이 단어 자체에서 이미 짐작하고자 하는 사건이 미래에 발생할 것임을 명확히 하는 만큼 예측과 미래는 떼려야 뗄 수 없는 관계이다. 

 

대다수의 예측 모델 또한 실제로 미래를 예측하기 위한 목적으로 활용되고 있으며 시계열 예측 모델의 경우에는 시간순으로 배열된 데이터를 이용해 연결된 미래의 값을 예측하는 것을 목적으로 발달한 모델이기도 하다. 

 

그러나 데이터 기반 예측 모델의 전체 사용 범위를 살펴보면 미래에 대한 ‘예측’보다는 현재 존재하는 값을 ‘추정’하기 위한 용도로도 많이 활용된다.

 

예를 들면, 수술을 통해서 확인할 수 있는 질병의 발명 여부를 증상만으로 먼저 추정한 후 수술 여부를 결정하는 등 동 시간대에 값은 존재하지만 확인하기는 어려운 수치를 추정해 보는 것이다.


엑셀 예측모델 개발 방법

엑셀 회귀분석(practical-data.tistory.com).xlsx
0.22MB

엑셀 회귀분석 활용 예시 (비번 : pdata)

 

데이터의 관측 시점

회귀 분석을 이용해 예측 모델을 만들기 위해서는 데이터를 기록하거나 관측되는 시점에 대해 짚고 넘어가야 한다. 

 

앞선 예시에 사용된 몸무게와 허리둘레의 경우에는 둘 다 같은 시간에 발생하고 기록한 데이터로 ‘같은 시간대에 서로 영향을 주고받는 관계’를 기반으로 예측이 아닌 추정을 하였다. 


하지만, 미래에 발생할 사건을 예측하려고 한다면 예측하고자 하는 사건뿐 아니라 예측하기 위한 다른 값들도 모두 존재하지 않기 때문에 앞서 설명한 형태와 같이 동 시점에 기록된 데이터로는 예측 모델을 만들 수 없다.

 

그래서, 미래를 예측하는 모델을 개발할 때는 특별한 방식으로 구성된 데이터가 필요하다.

 

우리는 일상에서 평범하게 “오늘 구름이 많고 습도가 높아서 내일 비가 올지도 모르겠다.”와 같은 예측을 하고 있으며, 이것은 사실, 오늘이라는 시점에 구름과 습도라는 데이터를 측정한 후 이를 바탕으로 내일 날씨를 예측한다는 행동을 의미한다.

 

시간과 데이터의 유무

 

데이터가 있는 현재 시점을 설명변수로 하고, 데이터가 없는 미래시점을 반응변수로 설정하였다면, 회귀선을 만들기 위해서는 설명변수와 반응변수가 모두 있는 시점으로 가야 한다.


회귀 분석뿐 아니라 예측 모델을 개발할 때는 아래와 같이 예측 목표를 수립하는 것을 시작으로 모델을 개발하는 단계 3가지와 생성된 모델을 검증하는 방법 2개 단계로 나누어진다.

 

1단계. 예측값 정의

예측 시점을 정하기 위해 바로 전 데이터의 관측 시점에서 예시로 들었던 날씨에 관한 대화로 돌아가 보자. 해당 대화에서는 오늘의 데이터를 기준으로 하루가 지난 내일을 예측하였다.

 

이를 데이터로 구성한다면 그저께 기준의 설명변수와 오늘치의 반응변수를 활용하여 회귀선을 만든 후, 다시 오늘 하루치의 데이터를 이용하여 내일 날씨를 예측하면 된다.

 

총 이틀 치의 데이터만 있으면 모델 개발이 가능하며, 데이터가 충분하다면 이대로 예측값을 ‘하루 뒤의 날씨’로 정하고 첫 단계는 끝나는 것이다.

 

그런데, 만약 날씨 예측을 목적으로는 하고 있지만, 하루보다는 먼 미래의 날씨가 필요해질 경우, 예를 들어 일주일간 날씨를 예측하고자 한다면 하루치의 설명변수로는 예측이 어려울 수 있다.

 

그렇다면 좀 더 많은 기간, 예를 들어 최소 한 달간의 기상과 습도 등의 데이터가 있어야만 이후 일주일간의 데이터를 예측할 수 있다면 더 많은 기간의 데이터가 필요하다.

 

2단계. 데이터의 구성

예측값(반응변수)이 정해지면 이에 맞는 설명변수를 구성해야 한다. 

 

앞서 예측값의 시점에 따라 설명변수의 기간이 바뀌어야 할지도 모른다고만 예기했지만, 본격적으로 데이터를 구성할 때 유의해야 할 것은 “예측 모델의 성능을 높이기 위해서는 다양한 기간의 데이터를 준비해야 한다.”라는 사실이다. 

 

모델을 개발할 때 쓰이는 데이터는 앞서 데이터의 관측 시점에서 정의했던 파란색 상자로 설명변수와 반응변수가 모두 있는 시점의 데이터로 개체당 1줄 또는 사건 당 1줄이 되도록 각 변숫값을 요약해야 한다.

 

3단계. 회귀선을 그리는 방법 

분산형 차트의 추세선을 이용한 방법은 간단하기는 하지만 설명변수가 2개 이상이면 회귀 분석을 할 수 없다. 

 

추가 기능을 이용한 회귀 분석은 설명변수가 많은 경우에도 분석이 가능할 뿐 아니라 모델의 성능을 가늠해볼 수 있는 지표 등을 추가로 제공해준다. 

 

분석 도구에서 회귀 분석을 선택하고 확인을 누르면 아래와 같은 팝업이 나타난다. 

 

여기서 Y축 입력 범위에는 반응변수를 지정하고, X축 입력 범위에는 설명변수를 모두 선택한다. 그리고 분석 결과에 각 변수의 이름이 표시되도록 이름표를 체크한 뒤 확인을 누르면 된다.

 

설명변수와 반응변수 선택 후 회귀 분석

 

회귀 분석을 진행하면 시트가 새로 추가되며 아래와 같은 내용을 볼 수 있다. 갑자기 복잡한 내용이 나오지만, 너무 당황하지 않기를 바란다. 편의상 여러 가지 수치를 제공하지만, 모델을 개발하는 단계에서는 P-값만 확인하면 된다.

 

P-값이 0.05보다 크면 예측 결과에 영향을 거의 안 주는 경우이므로 혹시나 발생할지 모르는 설명변수 간 영향도와 예측 시 활용되는 데이터를 줄이기 위해 제거하는 것이 좋다.

 

4단계. 모델 적합도 및 성능 측정

분석 도구에서는 간단하게 회귀 분석 결과에서 모델을 확인할 수 있는 추가적인 지표를 제공한다. 

 

첫 번째, 유의한 F값은 모델의 적합도를 나타내는 지표로 0.05보다 작으면 분석 결과가 예측에 적합하다고 본다.

 

두 번째, 조정된 결정계수는 예측 모델의 설명력, 즉 성능을 나타내는 지표이다. 예측된 값이 실제값에 비해 얼마나 차이가 나는지를 나타내며 0~1의 값을 가진다. 일반적으로 0.2는 넘어야만 활용 가능하다고 할 수 있으며 1에 가까울수록 성능이 좋은 모델이다.


728x90