●https://dailyheumsi.tistory.com/168?category=864097
이 글을 보고 나도 기록해야 할 거 같아 여러 가지 기록해보고자 한다.
먼저 같은 고민에 관한 내 입장을 정리해보면
왜 데이터 분야인가?
1. 전도유망한 장래
일단, 데이터 직군의 미래가 밝다고 생각한다. 데이터 키워드는 여전히 핫하고, 갈수록 핫해질 것이다. 정보화 시대의 인터넷과 같은 역할을 4차 산업 혁명 시대에선 데이터가 할 것이라는 말에도 동의한다. 현재 일하고 있는 직장에서도 업무 특성상 다양한 산업의 기업과 미팅을 진행하고 있는데, 정말
"아니 이런 기업에서도(낮잡아 보는 게 아닌, 데이터와 정말 상관 없다고 생각되는) 데이터팀을 만든다고?"
라고 할 정도니, TOP-DOWN이든 BOTTOM-UP이든 증거는 충분하다. 그리고, 핫한 만큼 아주 활발한 직업 생태계를 가지고 있다. 정말 활발한 교류로 서로 도와가며 성장하는 건강한 생태계가 아주 마음에 든다.
여튼 데이터는 여전히 핫하고, 갈수록 핫해질 것이다.
2. 숨겨져 있는 비밀
대학생 때 통계학을 전공하며 쾌감을 느꼈던 부분은 거대한 데이터 셋에서 생각지도 못한 인사이트를 발견해 나가는 과정이었다. 뭔가 내 느낌 상 다들 지나치는 당연한 상황에서 나만 비밀을 알아채서 남들한테 말해주는 기분을 느꼈던 것 같다. 물론.. 실무에 나와보니 엄청난 환상의 엘도라도는 존재하지 않았고, 모두가 알고 있지만, 귀찮아서 놓친 무언가를 굳이 눈앞에 들이밀어 주는게 데이터 인사이트의 본질이라고 느끼고 있다..
여튼, 숨겨져 있는 인사이트를 끄집어 내고, 그걸 멋드러지게 말해주는게 재밌다.
3. 수학과의 접점
나름 수학을 좋아했고, 제일 잘하는 과목이었다. 돌이켜보면 간단한 원리로 아주 복잡한 문제를 해결하는 방식이 매력적이었다. 데이터 분석도 비슷한 구석이 있는 것 같다. 아주 거대한 뭉텅이의 데이터 셋을 간단한 기준 혹은 기법으로 만지다보면 정렬, 정리가 되어 문제를 단순화 하는 과정이 꽤 재밌다. 수리 가형 30번 문제 풀 때 느꼈던 지적 희열 같은 것을 느낀다. 최근 머신러닝, 딥러닝 공부하는 과정에서도 굉장히 어려운 아키텍쳐가 사실은 간단한 원리에서 출발한 것을 알게 되며 꽤나 희열을 느꼈다.
지금까지 해본 것들
1. 총학생회 선거 여론조사 프로젝트
학부생 때 팀플 주제로 당시 총학생회 선거를 앞둔 여론조사를 분석 주제로 선정해 진행했었다. 물론 억지로 주제를 끼워맞추고, 설계를 한 감이 없잖아 있지만 꽤나 흥미로운 결과가 나왔다. 과정은 "설문 기획 - 설문지 배포 및 취합 - 분석 -예상 투표 결과 예측" 이 정도였다.
기억에 남는 건 PCA로 분석을 진행해 Dimension을 줄여 중요한 Factor를 선정하고 이를 바탕으로 단과대별 포지셔닝을 해봤는데 위 결과처럼 당시 우리가 암묵적으로 알고 있던 단과대별 이미지와 일치하게 클러스터링이 되었다. 물론.. 해석으로 밀어붙인 부분도 없잖아 있지만, 결과가 저렇게 나왔을 때 팀원들과 굉장히 신기해하고, 흥분했던 기억이 남아있다.
프로젝트를 통해 기억이 남는건
- 데이터를 기획부터 취합, 분석, 해석까지 A TO Z로 해본 경험
- 통계 기법을 통해 현상을 의미있게 해석해 본 것
- R을 통한 PCA 활용 경험
요 정도인것 같다.
2. 스타트업 영상팀
대학생때 재능 공유 플랫폼 스타트업에서 영상 인턴을 해볼 경험이 있었다. 업무는 영상 제작이었지만, 훨씬 관심있었던 부분은 콘텐츠 기획, 정확히는 기획에 정량적인 근거들을 붙여 확신을 얻는 일이었다. 영상을 제작하며 항상 고민했던 부분은 이 무형, 추상의 기획안에 근거있는 의도를 집어넣고, 결과를 확인하는 일이기도 했다.
예를 들어 신규 강의로 블록체인 강의의 바이럴 콘텐츠를 기획할 때 유사한 코딩, 컴퓨터 공학류 강의의 수강신청 메시지와 후기를 텍스트 마이닝을 통해 키워드를 추출해 기획의 근거로 삼았다. 마찬가지로 다른 블록체인 영상 콘텐츠의 댓글을 분석해 세부적인 기획 콘셉을 정했다. 결과 또한 정략적으로 측정했다. 24시간/48시간/1주일 내 페이스북, 유튜브 좋댓공 결과를 기록했다.
딱히 엄청난 바이럴 효과, 대박 콘텐츠를 생산하진 못했다. 하지만, 개인적으로 창작 과정에서의 불필요한 의견 충돌, 끝나지 않는 주관의 싸움, 감에 의존하는 기획에서 한발짝 나아갔던 것 같다. 근거가 쌓이고, 자료가 아카이빙 되면서 무형의 것이 유형의 틀로 잡아가며 개인의 취향, 감각에 의존하는 것이 아닌 설득할 수 있는 근거로 기획할 수 있게 되어갔다.
요약하자면
- 필요한 데이터 정의와 아카이빙
- 나름(?) 데이터 드라이븐 의사결정 기초 닦기
이 정도로 볼 수 있겠다.
3. 인사이트 리포트
입사한 후에 유통 데이터를 활용한 데이터 인사이트 플랫폼 운영 및 지원 업무를 맡았다. 정말 많은 데이터 인사이트 리포트를 제안/제작/발표했다. 거의 1년반 동안 크게 작게 10회 이상은 직간접적으로 관여한 것 같다. 징글징글하게 인사이트라는 놈을 뽑아내며 든 생각은 크게 두 가지다.
데이터 인사이트는 비밀이 아니다.
정말 알고 싶은 비밀은 돈을 많이 내야 한다.
사실 그들이 원하는 비밀은 사실 정해져 있는 경우가 허다했다. 더 야속한 건 시키는 사람도, 하는 사람도 그 사실을 안채로 일을 시작한다는 것이다. 그래서 프로젝트의 아주 많은 부분을 저 사람이 어떤 결론을 원할까를 고민하는 데 썼다. 그래야 입맛에 맞춰 인사이트를 줄테니. 아이러니했다. data-driven-decision이 아니라 decision-drives-data였다. 정말 현타가 많이 왔다. 아무리 인사이트는 약 파는 거라지만, 이건 약 파는 게 아니라 예약 상품 배송 정도 밖에 안됐다.(쓰다보니 할말이 정말 많았구나....이건 나중에 한번 죽 정리해봐야지..)
마음을 진정하고 그래도 얻은 걸 정리해보면
- garbage in, garbage out
- 도메인 지식의 중요성
- 단편적인 데이터의 한계
정도가 되겠다.
다 아는 것들이었지만, 몸소 아주 뼈저리게 느낄 수 있었다. 다 연결되어 있는 부분들이지만 특히 단편적인 데이터의 한계는 크게 다가왔다. 마트 결제 데이터만 보고 38세의 안암동에 사는 남성이 왜 지난 달보다 이번 달에 막걸리를 더 사게 됐는지 알아내는 건 거의 현대 소설 한 편을 써야 하기 때문이다. 그래서 다시 알게 된건 결합 데이터, cross-field 데이터의 value다. 그래서 다들 마이데이터니 데이터 결합이니 하는 것이다.
4. 딥러닝 스터디
시작은 간단했다. 유통 데이터가 다양한 채널에서 들어올 때 칭따오와 칭타오로 들어오는 경우가 있는데 이걸 잡아내고 싶었다. 근데 한 달에 60만건 씩 쌓인다. 눈으로 볼 수도 없고 오류 유형을 예측할 수도 없다. 문제는 아는데 몇 년씩 다들 방치해 왔었다. 괜히 해결하고 싶었고, 쪼렙 주제에 호기롭게 해결책을 찾아봤다.
그러던 중 아주 fancy한 분야를 알게 되었는데 그게 바로 NLP다. 그냥 학부생때 챗봇의 근간 기술 정도로 알고 있었는데, 정말이지 거대한 분야였다. 바로 딥러닝 스터디에 가입해 지금까지 1년넘게 이어오고 있다. 정말 혀를 내두를 정도로 압도적인 기술들이 즐비했다. 매달 한 편의 논문을 리뷰하고 발표하며 황홀한 이론들을 접했다.
그러면서 느낀 건
기업간 기술격차는 지수곡선을 따른다는 것
딥러닝 커뮤니티가 아주 활발하다는 점
나도 저 엄청난 것들을 적용해보고 싶은 욕심
정도다.
그 이후로 닥치는 대로 파이썬 공부를 하고, 캐글 대회에 나가보고, 강의 듣고(따지고 보니 관련해 1년동안 8개 강의를 들었더라..), 조그만한 업무라도 어디 딥러닝 적용해 볼 데 없나 혈안이 되어서 찾아 다녔다.
쓰다보니..너무 길어져서 다음 편에 마저 써보겠다.
'그냥 생각난 것들 > 어쩌다 데이터' 카테고리의 다른 글
어쩌다 데이터6 : 취업 멘토링 후기 (0) | 2021.05.20 |
---|---|
어쩌다 데이터5 : 데이터 분석가로 취업한 문과생 (3) | 2021.04.12 |
어쩌다 데이터4 : 당장 돈이 되는 데이터 분석 (0) | 2021.03.29 |
어쩌다 데이터3 : 데이터 분석가 주니어의 현실 (4) | 2021.03.12 |
어쩌다 데이터2 : 커리어 고민(기획이 재밌지만 코딩을 해야 한다) (0) | 2021.02.11 |
댓글