-
머신러닝이란? 학습의 방법과 과정 그리고 응용 분야Machine Learning/학습일지 2020. 10. 13. 16:18
요약 - 머신러닝이란 "수많은 데이터에서 패턴을 찾아내는 것"
How can we use machine learning? - 패턴을 이용해 미래 예측 가능
머신러닝은 인공지능의 한 분야
하지만 마법은 존재하지 않는다.
데이터를 분석하는 방식에서 영향을 크게 받게 된다. 그렇다면 데이터를 어떤 방식으로 분석해서 패턴을 찾을 수 있을까?
비슷한 데이터들을 묶고 차이를 데이터 간 구분선을 구해 분류를 한다.
결국 벡터값을 처리해야하고, 이를 표시하기 위해서는 데이터 form이 행렬로 되어있는 경우들이 많다.
또한 문자로 되어있는 정보들을 수치로 바꿔야 하는 어려움도 발생하게 된다.
즉, 데이터의 특징 추출이 중요한 이슈로 작용한다.
어떤 특징을 추출할 것인지 여기서 엔지니어의 역량에 따라 결정된다.
회귀분석의 중요성
앞서 머신러닝을 위해서는 데이터 분류를 위한 구분선을 잘 만드는 것이 중요하다. 이 때, 데이터 사이의 거리를 기준으로 분류를 하게 된다.
이를 데이터간 변수로 나타내게 되는데, 회귀분석이 많이 쓰이고 그 중에서 2차원 이상인 다중회귀분석이 많이 사용된다.
머신러닝의 학습방법 종류
머신러닝의 종류에는 크게 3가지가 있다
교수학습(supervised learning) - 데이터 입력시 답으로 볼 수 있는 레이블을 함께 입력함
비교수학습(unsupervised learning) - 최종적으로 내는 답이 정해져있지 않을 때, 많이 사용한다. 클러스터분석, PCA, 벡터양자화, 자기조직화가 대표적 예이다.
강화학습(Reinforcement learning) - 교사학습과 비슷하지만, 완벽한 해답은 주지 않음. 다만 행동 주체와 환경이 등장.
머신러닝 과정
데이터수집 -> 데이터 가공 -> 데이터 학습 -> (학습방법 선택, 매개변수 조정, 모델 학습) -> 정밀도 나올때까지 반복
*데이터 가공시 데이터의 어떤 특징을 이용할 건지, 어떤 형식으로 가공할 것인지 결정해야함
*학습 알고리즘 종류 : SVM, 랜덤포레스트, k-means 등
머신러닝 응용분야
*클래스 분류
*클러스터링 - 그룹나누기
*추천
*회귀 - 과거 데이터 기반으로 미래 데이터 예측
*차원 축소 - 데이터의 특성을 유지하면서 데이터으 ㅣ양을 줄이는것
***초과 학습(over fitting)이란?***
데이터가 너무 적거나 모델에 비해 문제가 너무 복잡하여 제대로 해결하지 못하는 상황, 배운 것만 해결하는 상황을 으미합니다.