기계학습(Machine Learning) 방법론

안녕하세요 배도리 입니다. 벌써 5월이 됐네요 시간은 진짜 화살과도 같은것 같아요. 지나고 나면 순식간입니다. 빠르다는 공통점도 있지만 또 다른 공통점으로는 시간과 화살은 돌아오지 않아요. 그러니 현재, 이순간에 최선을 다해야 한다고 합니다. 그런데 저도 제가 최선을 다하고 있나라는 생각이 드네요. 그런 생각을 하는것을 보니 그렇지 못한것 같습니다. 과거 보단 분명 열심히 살고 있지만 부끄럽게도 아직 현재에 최선을 다하지 않고 있나봅니다. 저 또한 원하고자 하는바를 위해 워윅의 W를 누른것 처럼 더 열심히 달려가야겠습니다. 계속 나아가서 구축한다!

전 게시글에서 넘파이,판다스,전처리를 다뤘고 이제부터는 기계학습 방법론에 대해서 배워보겠습니다.

기계 학습 방법론은 크게 3가지로 나눌 수 있습니다

지도 학습 (Supervised Learning)

지도 학습은 입력 데이터와 함께 정답 레이블이 제공되는 학습 방법입니다. 기계는 주어진 데이터와 레이블을 사용하여 학습하고, 새로운 데이터에 대한 예측을 수행합니다. 주요 예제로 회귀(Regression)와 분류(Classification) 문제가 있습니다.

비지도 학습 (Unsupervised Learning)
비지도 학습은 입력 데이터만 제공되며 정답 레이블은 제공되지 않는 학습 방법입니다. 기계는 데이터의 구조나 패턴을 찾아내는 데 초점을 맞춥니다. 주요 예제로 군집화(Clustering)와 차원 축소(Dimensionality Reduction)가 있습니다.

강화 학습 (Reinforcement Learning)
강화 학습은 기계가 환경과 상호 작용하며 학습하는 방법입니다. 기계는 행동을 수행하고 환경에서 얻은 보상을 통해 최적의 행동을 찾아나갑니다. 이러한 과정은 순차적인 의사결정 과정으로, 에이전트가 장기적인 보상을 최대화하도록 학습합니다.

지도학습에서의 분류(Classification)와 회귀(Regression)에 설명하겠습니다.

분류 (Classification)

분류는 입력 데이터를 미리 정의된 여러 범주 중 하나로 할당하는 것입니다. 기계 학습 모델은 학습 데이터와 그에 해당하는 범주 레이블을 사용하여 학습하며, 이를 통해 새로운 데이터에 대한 범주를 예측합니다. 이진 분류(binary classification)는 2개의 class label 존재하고 다중 분류(multiclass classification)는 3개 이상의 class label 존재합니다.

예시: 스팸메일 분류, 특정 물체 인식, 필기체 숫자 판별(MNIST), 얼굴 인식

회귀(Regression)

회귀는 입력 데이터에 대한 연속적인 값을 예측하는 것입니다. 기계 학습 모델은 학습 데이터와 그에 해당하는 연속적인 값(레이블)을 사용하여 학습하며, 이를 통해 새로운 데이터에 대한 연속적인 값을 예측합니다. 회귀 문제에서는 보통 입력 변수와 출력 변수 사이의 관계를 찾으려고 합니다.

예시: • 농산물 가격, 부동산 가격, 주식 가격, 강우량, 온도 등의 예측

다음은 비지도학습에서 군집화(Clustering)와 차원 축소(Dimensionality Reduction)를 설명하겠습니다.

군집화 (Clustering)
군집화는 데이터를 유사한 속성을 가진 그룹으로 분류하는 과정입니다. 이러한 그룹을 군집(Cluster)이라고 합니다. 군집화 알고리즘은 레이블이 없는 입력 데이터만 사용하여 데이터 간의 유사성을 기반으로 군집을 형성합니다. 주요 군집화 알고리즘으로는 k-평균(K-means), DBSCAN, 계층적 군집화(Hierarchical Clustering) 등이 있습니다. 군집화는 고객 세분화, 이미지 분류, 이상치 탐지 등 다양한 분야에서 사용됩니다.

차원 축소 (Dimensionality Reduction)
차원 축소는 고차원 데이터의 특성을 줄이면서 원래 데이터의 정보를 최대한 유지하는 방법입니다. 차원이 많아질수록 데이터 간의 거리가 멀어지고, 모델의 성능이 저하되는 차원의 저주(Curse of Dimensionality) 문제를 해결하는 데 도움이 됩니다. 차원 축소 기법은 주성분 분석(PCA, Principal Component Analysis), t-SNE, LDA(Linear Discriminant Analysis) 등이 있습니다. 차원 축소는 시각화, 특성 추출, 노이즈 제거, 학습 시간 감소 등 여러 가지 이점을 제공합니다.

다음 게시글은 지도학습의 방법론 중 하나인 KNN에 대해 설명하겠습니다!

'Machine Learning_모델설계_Python' 카테고리의 다른 글

kNN_2 분류 실습 (3)	2023.05.10
kNN_1 분류 (2)	2023.05.09
데이터 전처리_3 (0)	2023.05.07
데이터 전처리_2 (1)	2023.05.05
데이터 전처리_1 (3)	2023.05.04

배도리늑대

기계학습(Machine Learning) 방법론

'Machine Learning_모델설계_Python' 카테고리의 다른 글

티스토리툴바

기계학습(Machine Learning) 방법론

'Machine Learning_모델설계_Python' 카테고리의 다른 글

'Machine Learning_모델설계_Python' Related Articles

티스토리툴바