10.29 참사 원인 분석을 중심으로
행정 안전부에서 주관한 ‘2022 데이터 분석·활용 공모전’ 에 제출했던 데이터 분석 보고서
사실 생각보다 많은 양의 데이터 정제와 시간이 필요했기에 조금 어렵고 힘든 과정이기도 했다..!
준비하면서 부족했던 부분과 어떻게 보완하면 좋을 지에 대해서 글을 남겨보려고 한다.
공모전 목적:
국가 사회적으로 현안이 되는 문제들에 대해 데이터를 기반으로 해결방안까지 제시하는 것, 내가 고른 항목은 ‘재난, 안전’ 항목이었다.
공모전 목적에 맞게 당시 일어났던 10.29 (이태원) 참사의 원인으로 언급되는 것들을 추려 대구 내에 유사한 지형이 있는지 확인한 후 압사를 포함한 재난 예방에 대한 대책을 세우는 과정을 거쳤다.




언급되는 다양한 원인들 중에서
- 이벤트 성 행사 (예상할 수 없는 행사)
- 불법 증축물 등으로 인한 구조 방해 심화
- 폭 4M의 좁은 구역 (지형)
- 현장 통제 및 통행 관리 부족
크게 4가지로 나눴다.

특히 10.29 참사 이후 지금까지 ‘주최없는 이벤트’ 에 대한 시민 재해 대책 마련을 강화하고 있고, 주최없는 이벤트의 경우는 압사 뿐 아니라 화재/ 교통 사고 (음주운전 등 포함) 등 예측할 수 없는 돌발성 사고가 일어날 가능성이 높아져 사람들이 자주 모이거나 지형이 좁은 곳을 중심으로 예방할 필요성이 있음.

대구 시내 cctv 상황을 살펴보면 사각지대를 포함해서 작은 골목에는 없는 경우가 다수, 특히 불법 증축물 뿐만 아니라 여러 문제로 거론되고 있는 전동 킥보드, 불법 주정차 등이 사고의 원인이 될 수 있음을 감안 했을 때 재난 발생시 대피와 통제에 어려움을 겪을 가능성이 많아진다.

그래서 대구 내 유동인구가 많은 읍/면/ 동을 유동인구 데이터/ 맛집, 유흥주점 정보을 통해서 Power bi와 QGIS 를 사용해 시각화하는 과정을 거쳤다. 또한 불법 주정차, 불법 건축물과 교통사고 정보도 추가, 잦은 사고가 일어나는 곳을 살펴보며 이 4가지가 공통된 부분을 골라 예방 대책을 세웠다.
-> 이 과정에서 데이터 정제의 어려움을 느꼈음. 딱 원하는 데이터를 찾기가 정말 어려웠고 유동인구가 많은 서울에 비해 대구는 유동인구가 특정 시간에 (크리스마스 등 이벤트 성 행사가 많을 연말 시기 중심) 많이 몰리는 곳이 적었음. 특히 power bi와 qgis 를 사용하려면 엑셀 정제를 해야하는데, 맛집의 경우에는 데이터가 정말 많았고 유흥주점이 몰린 곳과 같은 지형을 중심으로 정제하는데만 3일이 걸렸다 ㅎ,,,
-> 특히 가장 찾기 힘들었던 것은 불법 증축물/ 건축물, 불법 주정차였다. 최근 정보가 없어서 딱 맞는 데이터가 없었다. 그래서 대구에 있는 데이터란 데이터를 일주일 꼬빡 밤새워 다운로드 받았다. 공모전 내에서 주는 SKT 카드 정보나 다른 유료 정보들로도 역부족이었고 대구 내 통계 센터에 갔더니 ㅎ… 예약 다 해두고 갔지만 시스템 내 문제가 생겨 한 달 동안이나 사용할 수 없다고 했다… 그래서 있는 자료로 한 번 해보자! 하는 마음가짐으로 정제했던!
-> 어떤 자료를 썼냐면 D- 데이터 허브/ 대구 교통 종합 정보 (교통 정보는 엑셀로 다운 받기가 너무 어려웠다..!) / 지방행정인허가 데이터 개방/ 대구 통계/ 통계 지리 정보 서비스 (교통 정보와 마찬가지로 엑셀 파일 다운이 없었음)/ 대구 3D 지도 포털/ 대한민국 최신 행정구역/ 국가 공간 정보 포털/ 창업 1번지 빅데이터로 보는 중구 등등을 활용했다
– > 운 좋게도 불법 증축물에 대한 정보를 3일 내에 찾아냈다! 가장 최근의 정보와 이미 처리된 것 까지 포함 된 자료라서 정제를 해야하긴 했지만 정말 다행이라는 생각이 들었다. 이미 처리된 것을 포함해 가장 많이 언급된 곳을 엑셀로 정제했다.
-> 맛집을 찾기 위해서는 카카오 API를 사용하고자 했는데, 아직 웹 크롤링에 대한 이해도가 떨어져서 어려웠다 ㅠㅠ… 꼭 웹 크롤링을 가지고 연습하는 공부를 해야겠다는 다짐을 했던!

웹크롤링은 아직 덜 익숙해서 빅카인즈 활용해서 참사 원인에 대해 언급된 뉴스를 뽑아냈다. 그 뉴스들 중에서 텍스톰으로 시각화도 했는데 이건 공모전에 쓰이진 않았다.

텍스트 분석은 들어갔다. 빅카인즈, 텍스톰을 이용해 앞서 정제한 다양한 자료를 바탕으로 가장 높은 사고율과 유사한 지형을 보였던 동성로 클럽 골목을 중심으로 텍스트 분석을 진행했다. 구체적인 대안에 관한 기사가 대부분이었다. 또 압사로 인한 참사에 대한 논문도 다양하게 읽어봤다. 그 중에서 김진근, 박찬석의 지역사회 재난 회복력 구성요소와 재난관리 정책 결정 요인 분석이라는 논문을 참고했다


분석 과정이다.
– 1차 데이터로는 대구 시 유동인구 서비스 내에서 제공하는 유동인구 데이터(월 별, 시간대별, 연령대별) 을 활용했고, 엑셀과 QGIS 를 사용해 전처리/ 지형 분석을 진행했다. 1차에서 나온 행정동은 동성로 로데오거리/ 클럽거리가 위치하고 있는 성내 1동, 삼덕동이었다. 이를 바탕으로 2차 데이터를 수집했다. 앞서 나왔던 구체적인 대구시 내 정보이자 원인과 연관된 정보들로만 정제하는 과정을 거쳤다. 2차 데이터 분석 후 시각화하며 위험 지형의 특징을 분석하고 사고 유력 거리를 선정했다



모두 POWER BI로 시각화 한 것, 자료 정제는 엑셀을 통해서 진행했다.











한계점은 다른 장애 요소 (킥보드나 자전거 등등…) 을 반영하지 못했다는 것, 데이터 별 수집 연도를 최대한 맞추려고 노력했으나 (또 최신의 정보로 하려고 했으나) 정보 부족으로 2019~ 2022 까지 정보가 상이했다는 것 거리별로 있어 오차가 있었다는 점 등이 있었다.

<공모전 준비하며 한계점, 부족했던 점, 아쉬웠던 점>
-> 학기 중에 있었던 공모전이라 준비할 시간이, 특히 정제할 시간이 많이 부족했다. 전체적으로 정리하면서 느꼈던 점은 공모전의 목적을 제대로 파악하지 못했다는 것이다. 이 공모전의 목적은 ‘분석’ 도 중요하지만 이에 맞는 ‘대책’에 더욱 중점을 둬야한다. 정제하느라 시간이 많이 걸려서 급하게 마무리를 했던 것 같아 아쉽다.
-> 시간이 남는다면 보완해서 대책에 관해 추가 수정을 해보고자 한다. 나름 좋은 경험이었고 많이 성장할 수 있었던 기회였다. 특히 부족했던 점(API, 관련 툴) 이 뭐였는지 깨달을 수 있었다. 앞으로 계속해서 공부해 나아가기를!!