대선 결과 분석 글 리뷰

대선 후 이런 글이 돌고 있다.

카토그램으로 다시 보는 ‘진짜’ 19대 대선 지도

지도 한 장으로 대한민국 정치 지형을 꿰뚫어 본다. 향후 정국에 대한 전망은 덤이다. 선거란 전 국민을 대상으로 실행된 여론조사에 다름 아니며 선거 결과에는 새로운 정부의 지지 구조, 각 정당의 현주소, 향후 정계 개편의 방향에 대한 많은 정보가…

카토그램은 대단히 인상적인데, 산포도를 그리고 결정계수를 구한 뒤 해석한 내용은 모두 잘못되었다. 득표율은 언제나 총합이 1(100%)로 정해져 있으므로, 관심을 갖는 후보 둘의 득표율에 대해 다른 후보들의 득표율이 확률적 오차항이 아니기 때문이다. 이걸 갖고 fitted line을 그리거나 결정계수를 구하면 안 된다.

문제를 간단히 하기 위해 후보가 세 명 있다고 하자. X, Y, Z(문재인, 홍준표, 안철수)는 각 후보의 득표율이다. 기권이나 무효표는 없다. 이러면 선거구 i에 대해 언제나 Xi+Yi+Zi=1이다. 혹은 Xi+Yi = 1-Zi로, Z후보 득표율을 제외한 나머지를 X, Y후보가 나눠먹는다.

X-Y 관계는 선형(일차함수)이며, 기울기는 사전에 -1로 정해져 있다. X가 커지면 Y가 작아지고, 반대도 마찬가지다(언제나 상관관계가 음). 즉, 산포도는 기울기가 -1이고 절편이 다른 무수히 많은 직선 위의 점을 나타낸 것이다. 조금 더 자세히 쓰면, X,Y 두 후보의 득표율을 X-Y 평면에 나타낼 때 각 점 (Xi, Yi)은 Z후보 득표율 Zi가 주어질 때 Xi+Yi = (1-Zi)라는 직선 위의 점이 된다.

따라서 산포도는 X, Y 후보의 관계보다 Z후보의 특성을 보여주는 자료가 된다. 문-홍, 안-홍 산포도 오른쪽 하단을 보면 홍 득표율이 0에 가깝지만 문(안) 득표율이 다른 점이 여러 개 있다. 이게 절편의 차이다. 평면에 없는 안(문) + 기타 후보 득표율에 따라 이 점의 위치가 달라진다.

문-안 산포도에서 양의 상관관계가 나타난다는 해석이 오류의 시작이다. 이것은 홍 득표율이 감소하여 직선들이 우상단으로 평행이동한 것을 양의 상관관계로 잘못 해석한 것이다. 산포도 오른쪽 상단에는 음의 상관관계가 나타나는 듯 보인다. 호남에서 홍 득표율이 매우 낮게 고정된 상태(=절편 거의 유사)에서 두 후보가 지지율을 나누어 먹는 현상이 관측되는 것이다. 물론 이것이 득표율 정의상 사전에 정해진 음의 상관관계에 따른 현상이다.

그림만 봐도 상관계수 계산하면 안 된다.

문-홍, 안-홍 산포도와 문-안 산포도가 근본적으로 다른 형태를 띠는 이유를 보는 편이 오히려 유익하다. 짐작하듯 지역주의 때문이다. 문-안 산포도는 홍이 완전비토되는 지역(호남)이 있고, 홍이 완전선택되는 지역(영남)이 있기 때문에 절편 변화 폭이 크다. 따라서 “양의 상관관계”를 갖는 듯한 관측치들이 존재한다. 앞서 말한 것처럼 그림 상의 문, 안이 아니라 그림 밖 홍의 특성이 그림의 형태를 결정했다.

반면 문-홍, 안-홍 산포도는 홍 득표율이 그림 내에 들어와서, 절편이 0에 가까워지는 관측치가 존재하지 않는다. 이는 문, 안이 각기 “단독으로” 받아낸 득표율이 홍이 대구경북에서 받아낸 압도적 득표율에 미치지 못하기 때문이다. 절편 변화 폭이 작아지며, 사전에 설정된 음의 관계가 보다 선명하게 드러나게 된다.

물론 안-유, 안-심 산포도에도 의미가 없다. 그림 상의 두 후보가 점유하는 득표율이 적으므로, 이들을 제외한 다른 후보들의 득표율 변화 폭이 크다. 자연히 절편 변동 폭도 커진다. 여기서 무슨 상관관계를 도출한단 말인가? 이 글은 양/음의 상관관계가 존재한다는 가정 하에 논의를 전개하고 있으므로, 카토그램 이하 모든 해석이 틀렸다. 어떤 분석을 할 때는 언제나 그 전제를 명확히 인지해야 한다.