본문 바로가기

전체 글107

어쩌다 데이터5 : 데이터 분석가로 취업한 문과생 0. 들어가며 데이터 분석가로 일한 지 3년차에 접어들었다. 이 시점에서 내가 해왔던 경험 중에 이제 와서 보니 지금 데이터 분석 업무를 하는데 정말 도움이 된 경험이 무엇인지 짚어보려 한다. 사실, 데이터 분석가로 취업한 문과생으로서 문과생들을 위한 취뽀 경험 공유 혹은 취업 팁 같은 글을 써보고 싶었지만, 어딘가 내키지 않았다. 솔직하게 지금의 커리어를 어떠한 고민 끝에, 오래전부터 준비해오고, 생각했던대로 시작한 것은 아니었고, 정말 어쩌다 보니 데이터 분석가로 일하고 있는 상황이다. 사실 데이터 커리어의 세부 커리어들(데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트 등)도 취업 하고 알게 되었다. 게다가 내가 한 경험들이 정말 데이터 분석가가 되는데 유효한 경험들이었는지, 또 취업 시장에서 .. 2021. 4. 12.
시간기록(4.4~4.10) 1. 꽤 줄었고, 그 시간이 프로젝트 시간이 됐다. 2. 카+유 시간 많이 줄었다! 3. 유튜브 시간이 많이 줄었지만, 아직 출퇴근 시간에는 어쩔수 없다.. 4. 더 줄여서 더 투자해보자 2021. 4. 11.
[댓심]크롤링 프로그램 제작2: 대댓글 크롤링 2021.04.07 - [프로젝트/유튜브 댓글분석] - [댓심]유튜브 댓글 크롤링 프로그램 제작기1 우선 대댓글이 달린 원 댓글을 대댓글 데이터에 함께 저장하려 시도했다. FK 개념으로 원 댓글에 고유 번호를 부여한 후 대댓글에 FK를 부여하려 했지만, 대댓글이 달리지 않은 댓글의 경우 크롤링 할 내용이 없기 때문에 NULL 값이 아닌 아예 건너뛰게 된다. 정리해보면 1. 대댓글이 없는 댓글을 식별할 수 없다 2. 원 댓글과 인덱스를 맞출 수 없음. 3. 댓글과 대댓글의 관계를 정보화 할 수 없음 역시 비슷한 문제를 해결하신 분이 계셨다. blog.naver.com/blueqnpfr1/222069530876 [PYTHON] 셀레니움(selenium)을 활용한 유튜브 댓글 크롤링 계기오랜만에 포스팅을 한다.. 2021. 4. 8.
[댓심]댓글 크롤링 프로그램 제작1 : 코드 완성 from selenium import webdriver as wd from bs4 import BeautifulSoup import time import re import pandas as pd driver = wd.Chrome(executable_path="C:/Users/MSI/OneDrive/바탕 화면/youtube/chromedriver.exe") url = 'https://www.youtube.com/watch?v=yDD4K-XxuDY' driver.get(url) last_page_height = driver.execute_script("return document.documentElement.scrollHeight") while True: driver.execute_script("window.. 2021. 4. 7.
[SQL] 서브쿼리는 언제 쓰는걸까? 처음 서브쿼리가 들어간 쿼리를 봤을 때 "왜 이렇게 잘난척 하면서 쿼리를 짠거지?"라고 생각했다. 당시 SQL 문법을 갓 떼고 나름 SELECT FROM WHERE 등을 조합해 쿼리를 짤 줄만 알던 시기였다. 서브쿼리가 뭔지는 알았고, 어떻게 짜는지는 알고는 있었지만, 언제, 왜 짜는지는 몰랐기 때문에 괜히 잘난척 하는 것처럼 보였던 것 같다.... SQL 서브쿼리 정의 하나의 SQL 문 안에 또다른 SQL 문이 포함되어 있는 경우 서브쿼리 사용 가능한 곳 1. SELECT 절 스칼라 서브쿼리라고도 하며 한 행, 한 컬럼만을 반환하는 서브쿼리를 말함 SELECT T1.C1 ,(SELECT AVG(T2.C1) FROM TEMP2 T2) FROM TEMP1 T1; 2. FROM 절 인라인 뷰 라고 하며 동적.. 2021. 4. 7.
시간기록(3.28~4.3) + 재점검 1. 꽤나 줄었다. 2. 3일 계획 - 피드백 - 3일 계획 - 피드백 3. 출퇴근 시간을 어떻게 보낼 수 있을지 고민 4. 반드시 줄인다. *유튜브 시간대 및 이용시간도 체크해보자 재점검 지금까지 시간을 줄이고 확보하는 프로세스를 생각해보면 이렇다. 1. 버려지는 시간 확인 2. 최대한 시간 확보하기 3. 효율적으로 시간 확보하기 ---------------------------------------표류중----------------------------------------------- 4. 확보한 시간에 무엇을 할지 고민하기 5. 무엇을 어떻게 진행할 지 고민하기 6. 빈 시간을 채워넣기 지금 우왕좌왕 하는 단계는 3~4단계에서 허덕이고 있지 않나 싶다. 시간을 무리하다시피 확보는 했지만, 말 그대.. 2021. 4. 4.