Category Archives: 데이터과학 사례연구

온라인 서비스 개선을 데이터 활용법 (How We Use Data 발표)

최근에는 주로 데이터 과학 입문자들을 위한 글을 주로 올렸었지만, 저의 본업은 검색엔진(Bing)의 데이터 과학자로서 검색 결과의 품질을 측정하고 개선할 수 있는 평가 지표 및 기법을 개발하는 일입니다. 이를 위해서 사용자 행동, 사용자 피드백, 패널 등 다양한 데이터 소스와 실험 디자인 및 분석 기법이 사용됩니다.

이와 관련해 최근에 How We Use Data라는 행사에서 ‘온라인 서비스 개선을 데이터 활용법’이라는 주제로 발표를 할 기회가 있었습니다. 웹 검색엔진, 추천서비스, 소셜 네트워크 등 다양한 온라인 서비스 회사들에서 어떻게 서비스 품질을 평가하고 개선하기 위해 노력하는지를 궁금해 하셨던 분이라면 참고하실만합니다. 좋은 자리 만들어주신 고영혁님께 감사 말씀 드립니다.

아래 발표자료와 동영상을 공개합니다.

위 발표와 관련하여 다음 자료를 추천합니다. 데이터 활용에 관한 좀더 폭넓은 방법과 사례를 원하시는 분이라면 헬로 데이터 과학을 참고하시기 바랍니다.

데이터 과학자가 바라본 알파고: 오해, 진실, 그리고 교훈

이번 주 내내 화제가 되었던 ‘세기의 대결’이 알파고의 승리로 끝났다. 어렸을 때 남들처럼 바둑을 배웠고, 지금은 검색엔진의 데이터 과학자로 일하는 필자 역시 매 대국을 흥미롭게 지켜보았다. 필자는 꾸준히 글을 통해 빅데이터의 허상을 지적해왔고 최근에는 일반인들의 데이터 입문을 돕는 책까지 출판한 터라 특히 관심이 가는 주제였다.

하지만 필자에게 더 흥미로웠던 점은 이 사건에 대한 전문가와 비전문가 간의 반응의 차이였다. 언론, 특히 한국 언론에서 보도되는 알파고는 인류의 구세주 혹은 재앙으로 우리의 삶을 송두리째 바꿔 놓을 것처럼 묘사되고 있다. 반면 데이터 과학 및 인공지능 종사자가 상당수인 필자의 SNS 타임라인은 무덤덤하거나 다소 냉소적인 반응이 주를 이룬다.

‘왜 이런 간극이 생겼을까?’라는 의문에서 출발한 필자는 이 글을 통해 다음 주제를 다루려고 한다.  IT 전문가들은 일반인들이 모르는 무언가를 알고 있을까? 알파고의 실체는 무엇이며 이번 대국의 진짜 의미는 무엇일까? 이제 딥러닝 전문가가 아니면 모두 도태되는 세상이 조만간 올까? 지금 나는 당장 무엇을 해야 하는가?

알파고는 전혀 새로운 종류의 AI다?

우선 알파고에 대한 이야기를 하지 않을 수 없다. 알파고의 작동원리는 구글의 논문 및 관련 글에 (이정원님 / 엄태웅님) 자세히 나와 있으므로 생략하고, 여기서는 알파고와 기존 AI와의 차이에 집중하려고 한다. 알파고의 진짜 혁신은 무엇일까?

필자는 해답을 찾기 위해 구글의 네이쳐 논문을 읽어보았다. 논문 초록에서는 알파고의 새로운 점을 다음과 같이 밝히고 있다. 요약하면 딥러닝 기법(DCNN)을 확률적 트리 서치 알고리즘(MCTS)과 결합했다는 것이다. 또한 알파고의 서로 다른 버전 간의 대국을 통하여 얻은 데이터를 강화 학습에 사용하는 것으로 알려져 있다.

그렇다면 이는 얼마나 새로운 아이디어일까? 위 논문에서 인용한 관련 논문을 찾아보면 바둑에 DCNN이나 MCTS를 적용하는 논문이나 시스템은 이미 여럿 있었다. 또한 최근에 페이스북에서 내놓은 논문에는 DCNN과 MCTS를 결합한 darkfmcts3라는 알고리즘을 소개하고 있다.

물론 darkfmcts3은 알파고를 이기지 못했으므로, 알파고가 현존 최고의 바둑 AI인 것은 맞다. 하지만, 알파고가 무에서 유를 창조했다는 식의 설명은 과장이다. 딥러닝은 이미 바둑 AI에 활용되고 있었고, 알파고는 딥러닝과 트리서치 등의 기존 학습 기법에 자기 자신과의 대국(self-play) 및 강화 학습 등 몇 가지 아이디어를 더해 만들어진 잘 튜닝된 시스템이다. 전혀 새로운 혁신이라기 보다는 점진적인 개선의 산물이라는 것이다.

AI가 세상을 정복하는 세상이 조만간 온다?

알파고가 세상에 전혀 없었던 신기술을 통해 만들어진 괴물(?)이라는 오해는 ‘알파고가 세상의 모든 문제를 풀수 있다’는 착각으로 이어진다. 딥마인드 홈페이지의 아래 설명은 그런 의미에서 오해의 소지가 다분하다. 사실 논문에 레퍼런스까지 읽는 사람이 얼마나 되겠는가?

The game of Go is widely viewed as an unsolved “grand challenge” for artificial intelligence. Despite decades of work, …. In this paper we describe our Go program, AlphaGo. This program was based on general-purpose AI methods, … This is the first time ever that a computer program has defeated a professional Go player, a feat previously believed to be at least a decade away.

위 글을 읽으면 알파고가 조만간 세상의 모든 문제를 해결할 수 있을 것 같다. 하지만, 위에서 설명한 대로 알파고는 기존 연구에 ‘바둑’이라는 문제의 특성에 착안한 몇 가지 아이디어를 더해서 만들어진 ‘바둑 AI’다. 인공지능의 궁극적 목표로 여겨지는 일반인공지능(Artificial general intelligence)과는 거리가 멀다.

이를 좀더 구체적으로 알아보자. 알파고는 체스보다 훨씬 경우의 수가 많은 바둑을 인간 최고수보다 더 잘 둔다. 하지만 바둑은 사람이 하는 다른 영역보다 훨씬 제한된 경우의 수를 가진, 그것도 매우 잘 정의된 규칙을 바탕으로 하는 게임이다. 이런 바둑의 특성은 트리 서치 등의 AI기법의 적용을 용이하게 한다.

더 중요한 것은 바둑 데이터의 핵심이라고 할 역대 기보가 잘 정리된 형태로 공개되어 있다는 것이다. 이런 바둑의 특성은 대용량 데이터를 필요로 하는 딥러닝 기법의 적용을 용이하게 한다. 하지만, 온라인 서비스 (예: 검색엔진) 등 제한된 분야를 제외하고는 이런 대용량의 정제된 데이터를 구하는 것은 어려운 일이다.

요약하면 알파고는 바둑이라는 문제의 특성에 특화된 문제해결 시스템이다. 일반인공지능을 구현하기 위해서는 1) 스스로 문제를 정의하는 기술 2) 경우의 수가 바둑보다 훨씬 큰 (거의 무한대인) 문제에 대한 근사치를 찾는 기술 3) 문제 해결에 필요한 데이터를 찾거나 만들어내는 기술이 필요한데, 이 모두 근래에 해결이 요원한 문제들이다. 그러니 AI가 인간을 대체할 것이라는 걱정은 당분간 접어 두자.

딥러닝으로 무엇이든 해결할 수 있다?

알파고에 대한 관심은 자연히 그 기반 기술인 빅데이터와 딥러닝으로 이어진다. 이미 ‘빅데이터면 무엇이든 할 수 있다’는 식의 기사는 많았고, 이에 더해 최근에는 딥러닝에 대한 기사가 넘쳐 나고 있다. 이들은 대부분 딥러닝의 가능성에 대한 장밋빛 전망 일색이다.

빅데이터에 대한 오해와 진실은 필자의 예전 글을 참조하도록 하고, 여기서는 딥러닝에 대해 이야기해 보자. 검색엔진에서 데이터과학자로 일하는 필자 역시 최근 딥러닝에 대한 다양한 기사와 논문을 접하고 있다. 기존의 기계학습 기법보다 사람의 손을 덜 거치고도 높은 성능을 나타낸다는 점에서 딥러닝은 분명 혁신적인 기술이다. (딥러닝에 대한 좀 더 자세한 설명은 엄태웅님의 글을 참고하자.)

하지만 이런 딥러닝의 잠재력을 실현하기 위해서는 치러야 하는 대가가 많다. 우선 대용량의 학습 데이터가 필요하며, 엄청난 계산량에 속도도 느리고 이를 뒷받침할 컴퓨팅 파워도 기본이다. 학습된 결과물을 인간이 해석하는 것도 쉽지 않은 블랙박스와도 같은 방법이다. 물론 이런 문제들은 연구와 기술 진보로 인해 점차 해결되고 있으니 미래는 지켜 볼일이다.

하지만, 딥러닝을 실제로 배워 당장 활용할 수 있는 조직이나 개인은 얼마나 될까? 기계학습 기법에는 다양한 유형이 있으며, 이중에는 딥러닝과 같은 높은 복잡도와 학습 성능을 자랑하는 알고리즘부터 선형모델과 같이 단순하지만 빠르고 이해가 쉬운 방법도 있다. 다양한 데이터 과학 프로젝트를 진행하는 필자의 경험으로는 현업에서 유용한 알고리즘은 제한된 데이터와 컴퓨팅 자원으로 사람이 이해할 수 있는 결과를 내는 후자인 경우가 많았다.

결국 빅데이터나 딥러닝이나 문제해결의 수단이다. 이미 많은 데이터와 충분한 컴퓨팅 파워가 있으며 학습 성능이 해석 가능성보다 중요한 경우 딥러닝은 고려해 볼만한 옵션이다. 하지만, 런타임에서의 성능 및 예측 결과를 설명할 수 있어야 하는 경우 딥러닝은 최선의 선택은 아니다. 또한 기계학습은 일단 만들어 놓으면 끝이 아니라 이를 꾸준히 유지 보수하는 비용도 생각해야 한다. 요약하면 무작정 딥러닝을 배우기보다는 주어진 예측 문제의 성격부터 고민해야 한다는 것이다.

‘세기의 대결’이 우리에게 가르쳐주는 진짜 교훈?

앞에서 필자는 알파고의 ‘혁신’이 실제로는 기존의 연구 성과의 연장선 상에 있으며, 알파고와 같은 시스템이 일반인공지능으로 발전하기까지는 오랜 시간이 걸릴 것이라고 전망했다. 또한 빅데이터와 딥러닝은 만능 열쇠라기보다는 아직은 한정된 영역의 문제에만 적용 가능한 기법이라는 사실도 알아보았다. 알파고의 기술적인 의의와 함께 그 한계도 명확히 알았을 것이다.

어쨌든 데이터의 폭증과 기계학습 등 이를 처리하는 다양한 기술이 세상을 바꾸고 있는 것은 분명하다. 그렇다면 이 시대를 살아가는 우리가 이러한 변화에 대처하기 위해 지녀야 할 바람직한 태도는 무엇일까? 우선 데이터 관련 기술 진보가 산업에 주는 영향을 설명하기 위해 필자가 상상력을 발휘하여 만든 다음 매트릭스를 살펴보자.

산업별 (열) 데이터 활용도별 (행) 인력 구성을 나타내는 위 매트릭스에 따르면 현재는 IT 산업에 종사하는 사람 중에는 데이터를 활용하는 사람이 많지만 기타 산업에는 데이터를 활용하는 사람이 많지가 않다. 하지만 필자는 아직은 데이터 활용이 저조한 기존 산업에서 데이터를 잘 활용하는 주황색 군에 속하는 사람들이 앞으로 각광 받을 것이라고 전망하고 싶다.

필자는 모두가 개발자나 데이터 과학자가 되어야 21세기에 살아남을 수 있다고 생각하지는 않는다. 오히려 시류에 편승하기 보다는 자신의 영역에서 데이터와 첨단 기술을 적절히 활용하는 것이 가치를 창조하는 지름길이라고 믿는다. 데이터 기반의 접근 방법은 점점 확산되고 있고, 분야에 관계없이 이를 이해하고 앞서나가는 사람에게 기회가 주어지는 것이다.

그렇다면 구체적으로 데이터를 활용한다는 것은 어떤 의미인가? 데이터 활용의 단계를 필자는 다음 세가지로 나누어 설명하고 싶다.

  1. 데이터를 전혀 활용하지 않음
  2. 다른 사람이 만들어 놓은 데이터를 분석하여 활용
  3. 데이터로 활용할 수 있는 문제를 적극적으로 탐색하고 해결

위 단계에 따르면  데이터를 아예 활용하지 않는 것보다는 다른 사람이 만들어 놓은 데이터라도 분석하여 활용하는 것이 바람직하지만, 데이터로 활용할 수 있는 문제를 적극적으로 탐색하고 해결하는 수준이 되어야 데이터 가지고 많은 가치를 만들어낼 수 있다. 이 세번째 그룹은 앞에서 필자가 소개한 매트릭스의 주황색 부분에 속하는 사람들이기도 하다.

그렇다면 어떻게 데이터를 제대로 활용하는 방법을 배울 수 있을까? 필자는 우선 ‘데이터 = 기술’이라는 편견을 깨고 문제 해결의 수단으로 데이터를 바라보는 ‘데이터 마인드’를 강조하고 싶다. 또한 자신의 삶과 업무에 데이터를 적극 활용하는 데이터 생활화 역시 데이터 문맹을 탈출하기 위한 요령이다. 데이터 입문에 대한 좀 더 자세한 내용은 필자의 블로그 및 저서 헬로 데이터 과학을 참조하기 바란다.

맺음말: ‘세기의 대결’ 그 이후는?

미국의 저명한 과학저널 ‘사이언스’에서 발간하는 매거진 최신호에서는 약 20년 전에 체스 인공지능이 인간 최고수를 꺾은 후 체스라는 분야에 일어난 변화를 소개하고 있다. 어떤 선수들은 좌절하고 분야를 떠나기도 하였지만, 다른 선수들은 인공지능 체스라는 새로운 ‘도구’를 개인 훈련 및 기량 향상에 적절히 활용하고 있다고 한다. 인공지능을 공식 경기에 비밀리에 활용하다가 적발된 사례가 있는가 하면, 아예 인공지능과 사람이 파트너로 서로 대결을 하는 룰도 생겨났다고 한다.

‘세기의 대결’이 인공지능의 승리로 끝난 바둑계 역시 변화가 불가피할 것으로 보인다. 이미 기계가 ‘침범한’ 바둑이라는 분야를 떠나려는 기사도 있겠지만, 다른 기사들은 알파고를 비롯한 신세대 인공지능 바둑이 보여주는 새로운 가능성을 연구하고 이를 발전의 계기로 삼을 것이다. 이미 5개월전 알파고와 대결했던 유럽 챔피언 판후이는 알파고와의 대결을 거울삼아 세계 랭킹이 633위에서 300위로 상승했다고 한다.

알파고의 성취는 분명 인상적이지만, 이는 인공지능 역사의 큰 맥락에서는 일보 전진에 불과하다. 하지만 이러한 기술 진보가 보여주는 변화의 잠재력과 방향은 명확하다. 점점 더 많은 현상이 데이터화되고, 이를 효과적으로 활용할 수 있는 개인과 조직에게 더 많은 기회와 보상이 돌아갈 것이다. 다행히 아직 우리에게 유효한 시간은 많이 남아있고, 이제 선택은 여러분에게 달렸다. 변화의 방향으로 한걸음 한걸음 나아갈 것인가, 아니면 변화의 흐름을 외면할 것인가?

공공 데이터의 탐험적 분석: 한국의 자살률 급증, 그 원인은?

공개 데이터 중 가장 잘 알려진 것이 정부 등 각종 기구에서 공개하는 공공 데이터일 것이다. 공공의 복리를 추구하는 많은 기관에서는 데이터를 공개해 왔지만, 최근 데이터 공개에 대한 인식이 확산됨에 따라 점차 많은 기관이 데이터 공개에 동참하고 있다. 우리가 관심을 가질만한 대부분의 영역에 공공기관이 존재하기 때문에, 사실 공공 데이터를 잘 활용하면 다양한 데이터를 손쉽게 구할 수 있다.

공공 데이터의 특성상 사회 문제를 다루기에 적합하다. 이번에 다룰 주제는 우리 나라의 자살률이다. 미국에 2007년부터 거주하고 있는 필자는 우리나라가 자살률이 전세계에서 1위라는 보도를 접할 때마다 가슴이 철렁하곤 했다. 자살은 개인이 내릴 수 있는 선택 가운데 가장 극단적인 만큼, 우리 사회의 어두운 단면을 반영한 결과일 것이라는 생각에서 였다. 이런 개인적인 관심을 데이터로 풀어보는 것이 이 글의 목적이다.

지난 글에서 탐험적 데이터 분석을 다루었는데, 주제의 특성상 이번 데이터 분석은 복잡한 현상을 다양한 관점에서 들어다보는 탐험적 분석의 성격을 띤다. ‘우리 나라의 높은 자살률’이라는 현상에는 수많은 단편이 있을 것이다. 이런 단편중 문제의 핵심이 되는 부분을 골라서 심층 분석하고, 이를 통해 문제의 본질에 가까이 가는 것이 목표다. 이 과정에서 다양한 공개 데이터가 필요하기에, 이런 데이터를 찾고 활용하는 방법을 배우는 데도 의의가 있다.

우리 나라의 자살율은 정말 세계 1위일까?

우선, 문제가 되는 OECD의 자살률 통계를 실제로 찾아보자. OECD 데이터 홈페이지 (https://data.oecd.org)에 가서 suicide를 검색하면 첫번째 결과로 자살률(suicide rate)을 찾을 수 있다. 실제로 2012년 통계에 따르면 한국의 자살률이 리투아니아와 함께 1위로 나온다. 사실이 아니기를 바랬는데, 엄연한 사실이었다.

자살률의 연도별 변화 추이를 확인하기 위해서는 타임(Time) 슬라이더를 조정해서 1990년부터 2012년까지의 자살률을 다음과 같이 선택해보자. 이를 통해 국가별/년도별 자살률의 변화 추이를 볼 수 있지만, 결과가 모두 회색으로 표시되어 제대로 구분되지 않는다. 이제 몇개의 국가를 선택하여 자살률을 비교해 보자. 필자는 한국과 헝가리, 그리고 일본을 선택했다.

일본의 자살률은 90년대 후반 증가하였지만 정체기에 접어들었고, 헝가리의 경우 꾸준히 낮아지고 있는데 반해, 우리 나라의 자살률은 꾸준히 증가하고 있는 것을 볼 수 있다. 1998년 경제위기와 맞물려 큰 폭의 증가가 있었고, 2000년대 이후에도 계속 증가하는 추세다. 정말 뭔가 문제가 있는 것이다. OECD는 성별 자살률 통계도 제공하고 있으니, 이번에는 남녀로 나누어 데이터를 살펴보자. 아래는 남녀로 나누어 알아본 국가별 자살률의 변화 추세다. (왼쪽: 남자 / 오른쪽: 여자)

각 국가의 남녀별 자살률 트렌드가 상당히 다른 것을 알 수 있다. 헝가리의 경우 여성의 자살률 감소가 두드러지고, 일본의 경우 여성의 자살률은 1998년 잠깐 증가한 이래로 비슷한 수준을 유지하고 있다. 놀랍게도 우리나라의 성별 자살률은 2000년 이후로 여성이 훨씬 큰 폭의 증가율을 보이고 있다. 그 결과 2012년 우리나라 남성의 자살률은 다른 국가들과 비슷한 수준인 반면 여성의 자살률은 다른 국가와 큰 차이를 보이고 있다. 도대체 무슨 일이 일어난 것일까?

자살의 다양한 단면들

이제 자살률이 이렇게까지 증가한 원인을 파해쳐 보자. 우리나라의 자살률에 대한 자료를 찾다 보면 위키피디아의 관련 페이지(https://en.wikipedia.org/wiki/Suicide_in_South_Korea)를 찾을 수 있다. 다양한 연구자료에 근거하여 작성된 이 페이지에 따르면 실제로 우리 나라의 자살률이 급증한 배경에는 노년층 및 여성의 자살 증가가 큰 요인이었음을 알 수 있다.

모방에 의한 자살

그런데 이 페이지에서 언급한 자살률 증가의 원인 가운데 ‘유명인의 자살에 따른 모방’이 등장한다. 이에 관련된 논문이^[Fu, King-Wa, C. H. Chan, and Michel Botbol. “A Study of the Impact of Thirteen Celebrity Suicides on Subsequent Suicide Rates in South Korea from 2005 to 2009.” PLoS ONE, 2013, E53870.] 있어 한번 읽어보기로 했다. 2005년부터 2009년까지 발생한 유명인의 자살 13건이 사회 전체의 자살률 변화에 끼치는 영향을 다룬 이 논문에 따르면 실제로 그중 세건의 자살은 계절 및 실업률 등 다른 요인을 고려한 후에도 자살률에 유의미한 증가를 가져왔다고 한다.

논문에 등장하는 아래 차트에서는 유명인의 자살이라는 사건들이(수직 점선으로 표시) 주간 자살률 트렌드에 어떤 영향을 나타내는지 보여준다. 실제로 2005년 초, 2007년 초, 그리고 2008년 말에 있었던 유명인의 자살 이후 자살률이 확 치솟는 것을 볼 수가 있다. 그리고 유명인의 자살이 잇달았던 2009년은 OECD 통계에서 우리나라 여성의 자살률이 정점을 찍었던 해다.

그렇다면 실제로 어떤 계층의 자살률이 증가한 것일까? 유명인의 자살에 대한 모방이라면 아무래도 젊은 층에서 두드러지게 나타났을 가능성이 높아보인다. 이를 확인하기 위해서는 성별, 연령별 자살률 데이터가 필요하다. 그리고 통계청에서 운영하는 국가 통계 포탈 사이트 KOSIS(http://kosis.kr/)에서는 이 데이터를 찾을 수 있다. 아래는 KOSIS 홈페이지에서 ‘자살’을 검색한 결과다.

여기서 ‘전국 주요사인별 사망률’을 선택하면 관련 통계자료를 볼 수 있다. 우리가 관심을 갖는 여성의 연령별 자살률을 보기 위해서는 ‘일괄설정’ 메뉴로 들어가 다음과 같이 선택을 하면 된다.

선택을 완료한 후에 ‘적용’을 누르면 기간별 연령대별 여성의 자살률을 표 형태로 볼 수 있다. 좀더 한눈에 들어오는 결과를 보기 위해서는 표 오른쪽 위의 차트 버튼을 눌러 시각화를 본다. 결과적으로 다음과 같은 차트를 볼 수 있다. 연도별 그래프의 가장 왼쪽의 막대는 10대 초반 여자의 자살률을 나타내며, 오른쪽으로 갈수록 더 높은 연령대의 자살률을 보여준다. (년도별 막대의 가장 오른쪽은 80대 이상의 자살률)

위 차트에서는 실제로 2005년부터 젊은 여성의 자살률이 급증한 것을 볼 수 있다. 이런 현상이 연예인들의 자살에 기인한 결과라고만 볼수는 없지만 세대별 자살률의 분포를 완전히 바꾸어 놓을 정도로 큰 변화가 생긴 것이다. 젊은 여성의 자살률은 2012년부터 조금 진정되는 모습을 보이지만 아직도 2003년과는 다른 추세를 보인다.

(주: 같은 기간에 남성의 자살률을 보면 나이 증가에 따라 자살률이 증가하는 추세를 볼 수 있다)

장년층의 자살

이번에는 조금 시계를 되돌려 1998년 IMF위기에 나타났던 자살률 증가의 원인을 살펴보자. 위와 같은 방식으로 1995년부터 2000년 까지 성별 연령별 자살률의 분포를 알아본 결과는 다음과 같다. (위: 남성 / 아래: 여성)

위 그래프에서도 1998년 남자 장년층의 자살률이 갑자기 급증하는 것을 볼 수 있다. 여성 장년층의 경우도 얼마간 영향을 받았지만 그 정도는 상대적으로 미미하다. 다시금 그 시대를 가장으로 살아야 했던 우리 아버지 세대의 무거웠을 짐이 느껴지는 순간이다.

노년층의 자살

마지막으로 지금까지 살펴본 자살률 트렌드를 좀더 거시적인 관점에서 살펴보자. 아래 그래프는 1990년부터 2013년까지의 성별 세대별 자살률의 분포다. (위: 남성 / 아래: 여성 / 각 그래프의 가장 아래는 10대 초반, 가장 위는 80대 이상)

위 그래프에서는 위에서 살펴보았던 1998년 남자 장년층의 자살률 급증, 그리고 2005년부터 시작된 젊은 여성의 자살률 증가가 뚜렷히 드러난다. 하지만 가장 뚜렷한 트렌드는 노년층의 자살률 증가다. 1990년만 해도 다른 세대에 비해 그다지 높은 자살률을 보이지 않았던 노년층의 자살률은 해가 갈수록 급증하는 추세를 보이다가 2002년 이후는 다른 연령 집단의 자살률을 압도하는 수준을 보인다. 도대체 무슨 일이 벌어진 것일까?

각종 보도자료에 따르면 이런 현상의 배경에는 우리 사회의 여러 변화가 자리하고 있다. 사회의 핵가족화 등의 많은 어르신들은 자식들과 격리되어 쓸쓸한 여생을 보낸다. 여기에 더하여 황혼 이혼도 증가했다. 그리고 특히 변변한 벌이도 없는 상황에서 경제 불황으로 자식들의 손을 빌리기도 어렵게 되면 자살을 선택하는 어르신들이 많다고 한다. 그야말로 슬픈 현실이 아닐 수 없다.

맺음말

이번 글에서는 공공 데이터를 이용한 탐험적 데이터 분석의 사례로 우리나라의 높은 자살률을 살펴보았다. OECD 통계자료에서 출발하여, 관련 논문 및 통계청 자료를 통해 좀더 성별, 연령별 자살률 증가의 원인을 구체적으로 살펴보았다. 데이터의 유형 및 양에 따라 다양한 시각화 방법을 선택하고, 이를 통해 데이터가 드러내는 추세를 좀더 정확히 살펴볼 수 있다는 점을 알았다.

우리 사회를 어둡게 했던 여러 사건들이 실제로 자살률이라는 구체적인 수치로 확인되는 과정이 오싹하기도 하다. 10년쨰 OECD 국가중 자살률이 1위라는 것은 분명 슬프고 착잡한 현실이지만 데이터를 통해 자살이라는 사회 현상의 원인을 좀더 명확히 이해하는 것이 문제 해결의 첫걸음이라는 생각을 해본다.

공개 데이터셋

이 글에 사용된 데이터셋을 포함하여 다양한 공개 데이터셋을 구할 수 있는 방법을 소개한다.

일반 데이터셋

분야별 데이터셋

국내 데이터셋