데이터 분석 실무 중 마주친 문제들을 정리하며 어떻게 풀었는지, 또 어떤 난관에 부딛혔는지 기록해 볼 예정이다. 입사해서 지금까지 괴롭힌 문제도 있고, 최근에 마주하고 있는 문제도 있다. 혼자 끙끙 싸매다가 포기할 뻔했지만 감사하게 함께 고민해주시는 분들이 생겨 같이 풀고 있는 있는 문제도 있다. 그 해결과정들을 기록해보며 하나씩 풀어나가길 바라는 마음으로 정리해 봐야겠다.
1. 상품명 오기입 식별하기
상황 : 같은 상품이지만 오탈자 등의 이유로 같은 상품으로 식별이 안되는 이슈
원인 : 여러 유통채널에서 판매되는 상품들의 경우 유통사별로 MD의 상품명 기입 방식이 다르거나 상품명 기입 체계가 다르기 때문에 미세한 상품명 차이가 존재
접근방법 : 편집거리(Levienstein Distance) 구해서 유사 단어 클러스터링
참고 : https://blog.naver.com/ndb796/220870218783
이슈 : 계산량 문제
후속조치 :
(1) 자연어 처리 모델(LSTM)을 활용해 유사 상품명 식별 시도 중
2. 서로 다른 상품분류체계
상황 : 매주 들어오는 신상품에 대해 분류체계를 부여하는데 분류체계마다 기준이 다르며 오분류 상품 존재
원인 :
1) 제조/유통/컨설팅사 모두 고유의 분류체계가 있기 때문에 같은 상품에도 다른 분류체계가 부여될 수 있음
2) 분류체계 부여시 외부업체에서 수기로 부여함(비용 발생)
접근 방법 : 머신러닝을 활용한 상품 카테고리 자동화 프로세스 구축
https://d2.naver.com/helloworld/1264836
이슈 :
1) 분류 정확도를 100%를 장담할 수 없다면 기존 시스템을 대체할 수 없음
2) IMAGE 데이터 부재
후속조치 : 정확도 높일 방안 고민중
(1) BERT 활용 -> 상품 : 정확도 60% / 중분류 : 정확도 80%
(2) LSTM 활용 -> 상품 : 정확도 50% / 중분류 : 정확도 70%
결론 : 외주 대체할 수는 없음.... 그냥 검수 로직 정도로 해야 할 듯
3. 상권 정보 Missing Value
상황 : 점포별 상권 데이터 중 값이 누락된 데이터가 다수 존재(13%정도)
원인 :
1) 점포별 ID 관리 소홀
2) 상권 데이터 업데이트 잘안되고 관리 안함
접근 방법 :
1) 점포별 지리정보(x좌표&y좌표, 경도&위도 등) 활용 클러스터링 진행
2) K-MEANS 활용 Missing Value 채워 넣기
-> 정확도 너무 낮음
*외진 곳에 있는 점포가 정확도를 낮추는 것으로 추정
-> 데이터 전처리 혹은 추가적인 데이터 필요할 듯
3) 데이터 확보 or 전처리 방식 변경
결론 :
LGBM으로 분류 문제로 풀었음(정확도 99.75%..)
그냥 사내 상권 분류하는 로직을 우연찮게 찾아버린 듯ㅋㅋ
4. 신상품 타겟군 추출
상황 : 신상품 프로모션 진행시 캠페인 타겟 고객군 추출시 충분한 모수 확보 어려움
원인 :
1) 이전까지 캠페인 타겟 고객군 추출시 해당 상품 구매이력, 구매고객 데이터를 기반으로 진행
2) 신상품의 경우 구매 정보 자체가 없기 때문에 타겟군 추출시 기존 로직으로 진행할 경우 충분한 모수 추출 불가
3) 협업 필터링 사용해보려 했지만 신상품을 산 고객도, 신상품과 유사한 상품도 파악하기 어려움
접근 방법 :
속성 정보가 많으면 해볼 수 있지 않을까?
'그냥 생각난 것들 > 어쩌다 데이터' 카테고리의 다른 글
어쩌다 데이터8 : 뜻밖의 PM (2) | 2021.09.02 |
---|---|
어쩌다 데이터7 : 데이터 분석 직군(신입) 면접관 후기 (0) | 2021.07.01 |
어쩌다 데이터6 : 취업 멘토링 후기 (0) | 2021.05.20 |
어쩌다 데이터5 : 데이터 분석가로 취업한 문과생 (3) | 2021.04.12 |
어쩌다 데이터4 : 당장 돈이 되는 데이터 분석 (0) | 2021.03.29 |
댓글