본문 바로가기

전체 글107

데이터 분석 실무 중에 마주친 문제들(220420) 데이터 분석 실무 중 마주친 문제들을 정리하며 어떻게 풀었는지, 또 어떤 난관에 부딛혔는지 기록해 볼 예정이다. 입사해서 지금까지 괴롭힌 문제도 있고, 최근에 마주하고 있는 문제도 있다. 혼자 끙끙 싸매다가 포기할 뻔했지만 감사하게 함께 고민해주시는 분들이 생겨 같이 풀고 있는 있는 문제도 있다. 그 해결과정들을 기록해보며 하나씩 풀어나가길 바라는 마음으로 정리해 봐야겠다. 1. 상품명 오기입 식별하기 상황 : 같은 상품이지만 오탈자 등의 이유로 같은 상품으로 식별이 안되는 이슈 원인 : 여러 유통채널에서 판매되는 상품들의 경우 유통사별로 MD의 상품명 기입 방식이 다르거나 상품명 기입 체계가 다르기 때문에 미세한 상품명 차이가 존재 접근방법 : 편집거리(Levienstein Distance) 구해서 유.. 2021. 6. 15.
[SQL]PARTITION BY, GROUP BY는 어떻게 다를까 GROUP BY와 PARTITION BY의 차이 GROUP BY PARTITION BY 사용 그룹 외부에서 묶어 순위 및 그룹별 집계를 구할 떄 사용 그룹 내 순위 및 그룹별 집계를 구할 때 사용 결과값 특정 원하는 컬럼에 대해서 추출해 결과값 보여줌 전체 데이터에서 원하는 결과값 보여줌 결론 : 데이터 다 보고 싶으면 PARTITION BY, 요약해서 하나씩 한줄씩만 보려면 GROUP BY 예시 1. 대륙별 GNP 합계 구하기 1) GROUP BY SELECT Continent ,SUM(GNP) FROM world.country group by Continent; 2) PARTION BY SELECT Continent ,SUM(GNP) OVER(PARTITION BY Continent) FROM wor.. 2021. 6. 10.
[SQL]작성 및 실행 순서를 이해하면 좋은 점 SQL의 작성 순서 1. SELCET 2. FROM 3. WHERE 4. GROUP BY 5. HAVING 6. ORDER BY 7. LIMIT SQL의 실행 순서 1. FROM : 어떤 테이블을? 2. WHERE : 어떤 ROW를? 3. GROUP BY : 어떤 그룹으로? 4. HAVING : 어떤 조건의 그룹을? 5. SELECT : 어떤 컬럼들을? 6. ORDER BY : 어떻게 정렬을? 7. LIMIT : 최종 출력할 ROW중 어떤 ROW를? 이 순서를 이해하면 ALIAS를 쓸 수 있는 절과 아닌 절을 구별할 수 있다. 대표적으로 GROUP BY는 SELECT보다 먼저 실행 되기 때문에 ALIAS를 쓸 수 없지만 ORDER BY의 경우 SELECT 이후에 실행 되기 때문에 써도 된다. 서브쿼리의 .. 2021. 5. 28.
어쩌다 데이터6 : 취업 멘토링 후기 0. 어쩌다 멘토링 어쩌다 보니 한 취업 컨설팅사에서 진행하는 취업 멘토링 프로그램에 멘토로 참여하게 되었다. 직무별로 현직자들에게 실제 업무 내용, 취업 시 도움이 됐던 경험, 기본 스펙 등을 공유하면서 취준생에게 도움을 주는 화상 멘토링 프로그램이었다. 취준생 시절 직무에 대한 정보가 부족해 여러 사이트, 커뮤니티를 전전했던 기억이 떠올라 흔쾌히 참가했다. 결론적으로 참가하길 잘했다는 생각이 들었다. 특히 올라오는 후기들을 하나하나씩 읽어보며 조금이나마 도움이 된거 같아 뿌듯했다. 언젠가 데이터 직무를 준비하는 취준생분들에게 도움이 되는 글이나 강의를 만들어보고 싶은 마음이 있었던 터라 개인적으로도 지난 경험들을 갈무리 해볼 수 있는 시간이었고, 또 취준생의 시각에서 내 직무를 돌아볼 수 있는 시간이.. 2021. 5. 20.
[SQL]데이터베이스와 DBMS, RDBMS 업무 중에도 꽤나 헷갈리는 개념들이라 짚고 넘어가야할 필요성을 느껴서 정리함 DBMS, RDBMS, 서버, 클라이언트 등의 개념부터 mysql, mariaDB, SAS, HIVE 등의 프로그램 이름까지 모호하게 알고 있던 개념들을 선을 그어 정리해보자. 1. DBMS와 RDBMS 위 그림을 보면 사용자가 각자의 응용프로그램을 통해 DBMS에 접근해 원하는 데이터베이스에 접근하고 작업을 진행한다. 즉, DMBS를 사용하는 것은 Client를 통해 server에 접속해 그 안에 있는 데이터베이스를 활용하는 명령을 내리는 것이다. 그 DBMS의 유형은 관계형 데이터베이스 관리 시스템(RDBMS) NoSQL DBMS 인 메모리 데이터베이스 관리 시스템(IMDBMS) 기둥형 데이터베이스 관리 시스템(CDBMS) .. 2021. 5. 15.
[댓심] Pororo 설치가 부른 나비효과 1. 극악의 설치 오류 극악의 설치 오류를 경험하고 있다. 구글링을 해도 아직 사람들이 안 써본건지, 아님 나만 오류인지는 몰라도 별로 오류에 대한 대처법이 없다. 덕분에 허접한 내 프로그래밍 지식만 뾰록나고 있다. 좋은일이지만 아주 아주 많은 인내심이 필요한 일이다. saea.tistory.com/16 Windows에 pororo 설치하기 / Windows에 pytorch 설치하기 / pytorch 1.6.0/ conda / 콘다지옥 / pip의 늪 뽀로로가 원흉이다. kakao에서 만든 패키지 pororo를 설치하기 위해 이 지난한 길을 걸어온 것이다. 어쩌면 pororo가 아니라 pytorch가 목적이라면 매우 간단히 끝나실 수도 있다..아마? 결론부터 얘기 saea.tistory.com 그나마 찾.. 2021. 5. 5.