세줄 코딩(실무용 알고리즘)

분석 데이터 추출 방법과 인간의 인지 편향

정데만 2023. 7. 23. 22:05
728x90
 

데이터가 편향에서 벗어나게 해준다?

전문가들은 데이터 분석이 필요한 이유를 들 때 인간의 편향된 사고방식에 대해 자주 언급한다.

 

필자도 가끔 비슷한 말을 하기는 하지만, 편향적인 사고에서 벗어나라는 의미에서 말할 뿐 데이터를 분석하면 편향이 줄어든다고 말하지는 않는 편이다.

 

데이터는 모든 사물과 사건에 대해서 공정하게 기록되지 않는다. 북반구에서 관측된 천체는 남반구에서 기록된 천체와 다를 수 밖에 없으며, 비정상적인 사건만 기록되거나 왜곡되서 남기도 한다.

 

또한 같은 데이터를 가지고 있다고 해도 해석이 달라지기도 한다. 데이터라는 건 어차피 관측 가능한 현상을 남기는 것에 불과하기 때문에 관측할 수 없는 부분은 결국 추론으로 완성된다. 유사이래 해가 동쪽에 떠서 서쪽으로 지는 것을 모조리 기록했다고 해도 누군가는 천동설을 누군가는 지동설을 주장할 수 밖에 없는 것이다.

 

다만, 인간이든 데이터든 편향된 사고와 해석을 줄일 수 있는 방법은 몇 가지 있다. 데이터 분석에 관심이 없더라도 이 글을 편하게 읽어본다면 뉴스나 보고서에서 잘못된 부분을 찾아내는 재미를 누릴지도 모른다.

 


The Cognitive Bias Codex - 180+ biases, designed by John Manoogian III

 

인지 편향의 종류

편향이라는 건 말그대로 한쪽으로 치우친 현상이다. 편견, 고정관념, 그리고 최근 자주 언급되는 확증 편향 등 일상에서 자주 언급되는 단어들도 모두 편향이 일으키는 현상이나 원인 중 하나이다.

 

TV토론에서는 가끔 편항된 사고방식을 지적하는 경우를 종종 볼 수 있는데, 편향의 부정적인 인식을 이용하여 상대방을 공격하려는 목적도 있겠지만, 실제로 무의식적으로 행하는 편향은 사고방식 뿐만 아니라 자료를 수집하거나 어떤 현상을 관찰할 때 문제를 자주 일으키기 때문에 상대방에서 이를 간파당하면 맥없이 무너지는 일이 발생하는 것이다.

 

인간이 일으키는 인지 편향은 다음과 같다. 사회학 또는 심리학 등에서 자주 언급되는 편향을 이해를 돕기 위해 데이터 수집 관점에서 임의로 분류하였다.

 

1) 자기애 등의 심리로 긍적적인 판단을 내리는 현상

항목 영문 표기 설명
이기적인 편향 Self-Serving Bias 성공은 자신의 노력, 실패는 상황으로 돌리는 마음
도덕적 행운 Moral Luck 성공한 사람이 자신을 도덕적이라고 생각하는 경향
신념편향 Belief Bias 개인적인 견해(가치관)로 주장의 타당성을 평가하려는 경향
더닝-크루거 효과 Dunning Kruger Effect 아는 것이 적을 수록 자신감이 생기는 현상
이케아 효과 Ikea Effect 자신이 직접 만든 것에 대해 완제품보다 높은 가치를
부여하는 인지부조화 현상

 

2) 집착 등의 부정적인 심리에 의해 생기는 편향

항목 영문 표기 설명
몰입 상승효과 Escalation of Commitment 시간과 돈, 노력 등을 투자하고나면
실패가 예견됨에도 불구하고 투자를 늘리거나
위험을 감수하려는 심리
도박사의 오류 Gambler's Fallacy 서로 영향을 끼치지 않는 독립된 사건에 대해
전/후 상관관계가 있다고 착각하는 심리
(주사위의 확률은 전후 영향을 주지 않음)
청개구리 효과 Reactance Effect 반대하는 일을 더 하고 싶어하는 심리,
영문표기인 Reactance는 전기의 저항을 뜻하며,
이로 인한 반발력을 의미 
미완성 효과 Zeigarnik Effect 미완성 또는 실수한 일을 더 잘 기억하는 효과
사소함의 법칙 Law of Triviality 중요한 일은 무시하면서 사소한일을 더 중요하게 생각하는 심리
지식의 저주 Curse of Knowledge 자신이 알고 있는 걸 다른 사람도 알고 있다고 착각하여
발생하는 인식 오류(허영심과 다름)

 

3) 군중심리 등 상호작용에 의해 발생하는 편향

항목 영문 표기 설명
내집단 편애 In-Group Favoritism 자신이 속한 집단의 사람을 편애하는 현상
밴드웨건 효과 Bandwagon Effect 많은 사람들이 선택하면 따라가는 경향(유행 등)
앵커링 효과 Anchoring Effect 도입 시 나온 의견이나 정보가 전체에 큰영향을 끼치는 현상
집단 사고 Groupthink 갈등을 최소화하기 위해 집단에 순응하는 현상
후광 효과 Halo Effect 특정 사람(사물)의 긍부정적인 부분에 집중하여
전체를 판단(직업에 따른 도덕적인 판단 또는 신뢰현상 등)
권위 편향 Authority Bias 권위자의 의견은 내용과 상관없어도 믿는 현상
고정관념 Stereotype 관념이나 어떤 집단의 사람들에 대한 단순하고 지나치게 일반화된 생각
가용성 캐스케이드 Availability Cascade 많은 사람들이 믿거나 반복적으로 이야기하면
그것을 사실이라고 생각하게 되는 현상

 

4) 무의식 또는 인지오류

항목 영문 표기 설명
확증 편향 Confirmation Bias 근거 없는 과신, 자신의 신념이나 원하는 것으로 인해
보고 싶은 것만 보는 현상
가용성 휴리스틱 Availability Heuristic 기억에 잘 떠오르는 대상(기억의 가용성)에 대해
높은 평가를 내리는 현상
피 암시성 Suggestibility 외부에서 들어온 암시를 받아들여서
마치 자신의 기억인 것처럼 생각하는 현상
거짓 기억 False Memory 상상을 실제 기억으로 착각하는 현상

 

5) 인지부조화

항목 영문 표기 설명
프레이밍 효과 Framing Effect 동일한 사건이나 상황도 표현방법에 따라 다른 결론에 도달하는 현상
(물이 반이나 남았다 vs. 반밖에 남지 않았다.)
플라시보 효과 Placebo Effect 실제 성공여부와 관계없이 믿는 것에 의해
긍정적인 효과가 나타나는 현상
바넘 효과 Barnum Effect 모든 사람에게 통하는 모호한 말을
자신에게만 해당하는 걸로 착각하는 현상(점성술 등)

 

섬뜩할 정도로 많은 사회/심리적인 요인들이 인간의 사고방식에 영향을 끼친다.

 

편향이라는 어감 때문에 부정적으로 비춰질 수도 있지만, 이러한 인지 편향은 인간이 오랜 시간 생존하면서 경험적으로 완성시킨 부분도 있기 때문에 데이터가 없는 완전히 새로운 상황이나 조작, 왜곡된 환경에서는 오히려 통찰력만으로 상황을 돌파해 나갈 수 있는 힘이 되주기도 한다.

 

다만, 그러한 성공이 또 다른 편향을 낳을 수 있기 때문에 지속적이고 합리적인 판단이 하기 위해서는 스스로 또는 조직 내 견제 구조를 통해 비정상적인 사고를 방지해야 하는 건 변함없다.


 

데이터 수집할 때 편향을 줄이는 방법

데이터를 기가, 테라, 페타 등의 용량으로 바라보지말고, 사회 또는 기업이 쌓은 "지식"과 "정보"라는 관점으로 바라보면 과연 여기에 모든 정보와 지식을 모여있을 까라는 생각을 하게된다. 또한, 앞서 말했듯이 데이터는 관측가능한 현상에 대해 기록한 것이기 때문에, 다양한 장소에서 관측하지 않으면 마치 일부의 의견만 듣고 말하는 것처럼 편향이 발생하게 된다.

 

AI 학습데이터를 수집할 때도 많은 데이터를 강조하는데 여기서 "많은"이란 다양성을 의미하며, 다양한 상황의 데이터를 학습시켜야만 과적합(일부 사건에 지나치게 최적화되어 성능이 떨어지는 현상)에서 벗어날 수 있다.

 

1) 다양한 방법으로 수집

여론조사 결과에 대한 비판 중 가장 자주 나오는 항목이 일부 연령층에만 유리한 방식으로 전화를 하거나 조사 시간대를 조정하여 편향된 데이터를 추출하는 방법이다. 데이터에서 편향을 줄이려면 이를 역이용하여, 최대한 다양한 방법으로 데이터를 수집하고 조사과정에서 발생할 수 있는 오류를 줄여야한다.

 

예를 들어, 특정 조사원을 통해서만 설문조사를 하게 되면 앵커링 또는 후광효과가 발생할 수 있으며, 공개장소에서 조사하면 밴드웨건 효과로 인해 엉뚱한 대답을 할 수 있으니 최대한 지양해야한다.

 

2) 수집채널의 오류 방지

데이터 수집 채널도 최대한 다양해야한다. 실제로 엑스레이를 통한 폐렴진단 AI를 개발 시 테스트할 땐 효과가 정말 좋았는데 적용과정에서는 형편없는 성능을 보여 한참을 확인해보니 학습데이터로 사용한 패렴사진과 정상사진이 각각 다른 병원에서 수집되었고, 각 병원의 엑스레이 장비에는 인간이 인지하기 어려운 색감으로 구분되어 있었다는 것이다.

 

이처럼 육안으로 확인되지 않거나 미쳐 발견하지 못하는 상황을 고려하여 수집채널도 최대한 다양화해야한다. 

 

3) 최신 데이터

마지막으로, 이렇게 모아둔 데이터라 할지라도 시간에 따라 바뀔수 있기 때문에 항상 최신데이터를 수집해야한다. 특히 시장에 민감한 업종일 수록 항상 최신데이터를 포함해야한다.

 


 

분석할 때 편향을 줄이는 방법

데이터를 분석할 때 편향을 줄이는 가장 좋은 방법은 데이터를 잘 선별하는 것이다. 앞선 수집단계에서는 데이터를 최대한 다양하게 수집했지만, 분석단계에서는 오히려 편향을 줄이기 위해 데이터를 덜어내는 방식으로 편향을 줄여나간다.

 

 

1) 층화추출

조사 대상을 층(Layer)으로 나누고 각 층의 비율에 맞춰 추출하는 방법이다. 예를 들어 남성 60%, 여성 40%로 구성된 시장이 존재한다면, 조사 데이터가 다른 비율로 수집되었어도 시장 비율에 맞춰서 고객 수를 조정하는 것이다. 주로 연령, 성별, 지역과 같이 공통적인 속성을 적용하거나 조사목적에 따라 구매횟수나 선호도 등으로 추가로 사용하는 경우가 많다.   

 

2) 언더 샘플링

예측하고자 하는 사건이 발생한 데이터와 발생하지 않은 데이터의 비율을 실제와 다르게 조정하여 성능을 높이는 방법이다. 예를 들어 범죄사건과 정상사건에 대한 데이터가 있을 경우 범죄에 대한 데이터가 현저히 적기 때문에 실제 비율에 따라 데이터를 분석하면 범죄데이터에 대해서는 둔감해지는 경향이 생긴다.

 

그래서, 이러한 경우에는 정상사건의 추출비율을 줄여 범죄사건에 대한 사례가 더 잘보이도록 조절한 후 모델을 개발하면 예측성능을 높아지고 범죄에 대해 민감하게 반응하는 모델을 만들 수 있다.

 

3) 이상치(Outlier) 제거

평균적인 사건과 확연하게 다른 데이터를 이상치라고 한다. 이상치는 보통 관측이 잘못된 경우에 발생할 수 있지만, 실제로는 현실에 존재하는 사례임에도 불구하고 다른 그룹과 확연하게 달라서 확률 계산이나 예측을 어렵게 하는 경우가 많다.

 

이상치 자체도 실제 사례에기 때문에 포함해야 한다는 경우도 간혹 있지만, 단순 리포팅이 아닌 분석이나 예측이 목적이라면 이상치를 제거해야 정상 데이터에 대한 통계나 확률이 제대로 계산될 수 있다.

 

이상치 제거는 눈으로 보고 건별로 삭제해도 되지만, 관측 시마다 공정하기 처리하긴 어려울 수 있으므로 최대/최소 구간을 동일한 비율로(예 1~5%)를 제거하거나 사분위 수 범위 규칙(1.5*IQR)(자세한 설명 바로가기)을 이용할 수 있다.

 


728x90