선택편향, 내생성, 베이즈의 정리

유리 브람의 "통계적으로 생각하기"를 읽고

이책은 통계적인 개념들을 아주 쉽고 간결하게 설명해준다. 작고 아담한 크기에, 100페이지정도되는 책을 아쉬워할 독자들을 위해 권장 도서도 적어주었고, 책을 마치며 5페이지에 요점을 다시한번 정리해준다.

think-statistically.jpeg

진정으로 통계적으로 생각하라고 이야기 하려는 것이라면, 학문적인 개념들을 구구절절 늘어놓는 것은 아마도 좋지 않은 방법일 것이다. 이 책은 선택편향, 내생성 그리고 베이즈의 정리까지 통계의 핵심 개념 3가지를 일상적인 예시를들어 쉽고 간결하게 설명한다. 쉽게 이해해서 그런지 나의 일상속에서 겪었던 혹은 겪고있는 상황들이 마구 떠올랐다.

세상을 인식할 때 부분을 경험하고 그것을 개념화하는데 이 과정에서 우리는 추론 하게된다. 만약 인지한 사례들이 편향되었다면 그로부터 얻은 추론은 잘못될 확률이 크다. 통계학에서는 이러한 문제를 선택편향 (selection bias)이라고 부른다. 스스로 선택편향이 자기인식에 미치는 영향들을 생각해보게 되었다. 종종 나에대해 들어오는 의견들의 표본은 매우 선택 편향적일것이다.

생소한 단어인 내생성의 사전적 의미는 "해당 시스템 내에서 결정되거나 생성되는 것을 내생성적이라 한다"이다. 유명한 격언인 "모든 상관관계는 인과관계를 나타내지 않는다"라는 유명한 말처럼, 인과관계인 것처럼 위장한 상관 관계가 내생성 문제의 한 종류이다. 사건 A와 B의 원인은 C에 있으나 A와 B가 상관관계가 있다고 해서 A, B를 인과관계로 파악하는 오류이다. 원인과 결과를 뒤집어서 생각하는 것도 내생성 문제중 하나이다.

"당신의 애인이 이성과 밤 10시에 술을 먹었을 때, 그것이 바람일 확률은?"같이 Y가 일어났다는 제약하에 X가 일어날 확률을 구하는 것을 조건부 확률이라고 한다. 베이즈 정리는 특정 사건에 대한 임의와 가정(A)에 실제 자료나 증거(B)를 반영하여, 증거가 일어났을 때 특정 사건(가정이 발생할)에 대한 확률을 구하는데 관심이 있다. 베이즈의 정리는 이러한 확률을 구하는데 대안 가설들의 확률을 살펴보는 것이다. 셜록 홈즈는 "불가능을 제거하고 나면, 남은 것이 아무리 일어날 것 같지 않은 것이라도 그것이 진실이다"라는 말을 했다. 즉 대안 가설들을 살펴보았을 때, 가설이 매우 낮은 확률을 갖더라도 특정 증거에대한 가설이 일어날 확률은 매우 높아질 수 있다는 이야기이다.

Buy Me A Coffee