본문 바로가기

프로젝트(진행중)/머신러닝 한 걸음씩8

EP 04. KNN(최근접 이웃) 개념과 장단점 1. KNN 개념 K-최근접 이웃 알고리즘이다. 말 그대로 K개의 가장 가까운 이웃 중에서 가장 공통적인 항목, 과반수에 의해 객체를 분류하는 방식이다. 위 그림을 예로 들어보면, K= 3일 경우 빨간색 2, 파란색 1이기 때문에 초록원은 빨간색을 부여받게 된 다. K=5일 겅우에는 빨간색 2, 파란색 3이므로 파란색을 부여받게 되는 것이다. 이러한 KNN은 머신러닝 중 지도학습에 속하고, 그 중 분류에 속한다. 지도학습인 이유는 정답이 있는 주어진 데이터를 활용해 카테고리에 다라 분류하는 문제이기 때문이다. 2. 장/단점 1) 장점 - 단순하고 효율적임 - 초기 데이터 분포의 가정이 필요 없음 - 별도의 훈련이 필요없음(저장) - 수치 기반 데이터 분류 작업시 성능이 우수함 2) 단점 - 설명력이 떨어.. 2021. 9. 6.
EP 03. 나에게 필요한 머신러닝 찾아내는 방법(with 생활코딩) 지난 10일간 생활코딩 머신러닝 야학 3기에 참여했다. 결론적으로 굉장히 유익한 강의였고 무료라는 점이 죄송할 정도로 높은 퀄리티의 강의와 자료를 제공했다. 엄청나게 어려운 개념, 복잡한 코딩 실습을 하며 프로젝트를 진행한 건 아니다. 개념 입문 느낌의 강의였고, 머신러닝에 대한 마음가짐? 접근 루트?를 알려주는 길잡이 같은 강의였다. 머신러닝에 대해 갈무리하는 의미로도 굉장히 좋았지만 직장인으로서의 공부에도 새로운 관점을 갖게 해준 점, 머신러닝을 공부할 때 마주치는 어려운 수식에서 가져야할 태도 측면에서도 굉장히 좋았다(이 부분은 따로 써볼 예정이다.) 10일동안 "머신러닝1", "텐서플로우" 강의를 들었고 공부한 내용을 정리해봤다. 딱 이 세 가지 그림만 기억하면 될 것 같다. 1. 기계학습의 세계.. 2021. 8. 1.
EP 02. 과적합과 정규화 개념을 죽 정리해보다 이게 학부때 날 그렇게 괴롭혔던 라쏘, 릿지였다는 걸 알고 새삼 교수님께 죄송했다... 선형방법론의 그 어려운 수식을 푸는 느낌으로 공부해볼 일은 아니지만 꽤나 머신러닝에서 이해가 안돼 애를 먹고 있는 파트이기 때문에 정리해보려 한다. 0. 과적합이 뭘까? - 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻함 - 학습데이터에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오차가 증가(위키) 1. 왜 알아야 할까? - 과적합은 강력한 머신러닝의 숙명의 숙명과도 같은 것 - 전체 데이터를 학습 할 수 없는 이상 항상 염두해 두어야 함 - 개념이 뭔지 알고, 증상이 뭔지 알아야 어떤 치료를 할 지 알 수 있기 때문 2. 왜 .. 2021. 7. 26.
EP 01. 경사하강법 사실 아무 생각 없이 모델을 최적화 시킬 때 쓰는 방법으로만 알고 있었는데, 자세하게 밟고 넘어가야 할 것 같아서 정리 정리할 개념들과 순서는 다음과 같다. - 개념 - 원리 - 구현 1. 경사하강법 개념 경사 하강법(傾斜下降法, Gradient descent)은 1차 근삿값발견용 최적화 알고리즘이다. 기본 개념은 함수의 기울기(경사)를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것이다. -위키백과- 수학적 개념으로 이해해보면 극값, 즉 미분값이 0이 되는 점을 찾아가는 과정 정도로 이해하면 될 것 같다. 머신러닝에서의 경사하강법으로 이해해보면 비용함수(Cost Function)를 최소화 하기 위한 과정이다. 비용 함수는 실제값과 예측값의 차이를 가장 작게 만드는 가.. 2021. 7. 19.