공부하는 안씨의 기록

[머신러닝] 지도학습, 비지도학습, 자기지도학습, 강화학습 본문

인공지능

[머신러닝] 지도학습, 비지도학습, 자기지도학습, 강화학습

an씨 2025. 2. 10. 17:52

해당 게시글은 머신러닝의 4분류인 지도학습, 비지도학습, 자기지도학습, 강화학습에 대한 개념 정리로,
학교 수업 및 패스트캠퍼스 강의를 듣고 숙지한 내용을 바탕으로 작성하였다. 


머신러닝의 4가지 개념 정리

머신러닝(Machine Learning)은 데이터를 기반으로 학습하고, 주어진 문제를 해결하기 위해 예측하거나 분류하는 기술이다. 머신러닝의 학습 방식은 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 자기지도학습(Self-Supervised Learning), 강화학습(Reinforcement Learning)으로 분류할 수 있다. 각각의 학습 방식에 대해 간단히 살펴보자!


1. 지도학습 (Supervised Learning)

지도학습은 입력(Input)과 정답(Label)이 주어진 데이터를 이용해 모델을 학습시키는 방법이다.

주어진 데이터에 명확한 정답이 있기 때문에 모델이 예측한 결과와 실제 정답을 비교하면서 성능을 개선한다.

특징

  • 입출력 데이터 쌍이 존재한다.
  • 데이터는 사전에 라벨링(labeling)되어있어야 한다. 예를 들어 사람의 얼굴에서 눈을 인식하기 위한 이미지 자료가 있다면, 눈에 해당하는 픽셀 정보를 전부 숫자 데이터로 가져와야 해당 데이터를 입력으로 사용할 수 있다. 데이터가 많으면 많을 수록 학습에 유리하기 때문에, 라벨링된 데이터가 많을 수록 좋으나, 데이터 라벨링을 위한 비용이 크게 소모될 수 있다. 
  • 대표적인 문제 유형은 분류(Classification) 회귀(Regression)이다.
  • 입력에 대한 정답을 정확히 예측하는 것이 목표이다.

예시

  • 이미지 분류(고양이 or 강아지)
  • 이메일 스팸 필터링 (스팸/비스팸 분류)
  • 집값 예측 (집 크기, 위치 등을 바탕으로 가격 예측)

2. 비지도학습 (Unsupervised Learning)

비지도학습은 정답(Label) 없이 주어진 데이터의 숨겨진 패턴이나 구조를 발견하는 학습 방법이다.

데이터의 군집화나 축소된 표현을 찾는 데 주로 사용된다.

특징

  • 정답이 주어지지 않는다.
  • 데이터의 패턴을 스스로 탐색하고 학습한다.
  • 대표적인 문제 유형은 군집화(Clustering)와 차원 축소(Dimensionality Reduction)이다.

예시

  • 고객 세그먼트 분석 (고객 그룹화)
  • 이미지 데이터의 주요 특징 추출

3. 자기지도학습 (Self-Supervised Learning)

자기지도학습은 데이터의 일부 정보를 정답(Label)으로 사용해 모델을 학습시키는 방법이다.

앞서 언급한 1. 지도학습의 문제점은 사전에 라벨링된 데이터가 많이 필요하지만, 정답(Label)을 알고 있는 데이터가 너무 적거나, 정답을 만드는 비용이 상당하다는 것이다. 자기지도 학습에서는 정답을 직접 생성한다는 점에서 기존 지도학습의 문제를 해결함으로써 차별화된 특징을 지닌다. 주로 대규모 데이터 학습에 사용되며, 최근 자연어 처리(NLP)와 컴퓨터 비전 분야에서 각광받고 있다.

특징

  • 대규모 데이터를 효과적으로 학습할 수 있다.
  • 사전 학습 단계(Pre-training)전이 학습 단계(Transfer Learning)로 나눌 수 있다.  
  • 사전 학습 단계에서는 모델이 특정 태스크의 정답 레이블 없이도 데이터 안에서 스스로 정답을 생성하여 학습한다. (데이터의 맥락-context-을 학습) 데이터의 일부를 숨기고 이를 예측하거나, 변형된 데이터 간 관계를 학습하는 방식으로 이루어진다. 
  • 전이 학습 단계는 사전 학습 단계를 마친 Pre-trained Model을 특정 작업(Task)에 맞게 미세 조정(Fine-Tuning)하는 과정이다. Pre-trained Model은 일반적인 특징을 학습한 상태이므로, 이를 기반으로 기존의 소규모 라벨링 데이터로 학습 진행 시, 높은 성능을 얻을 수 있다.  

Pre-training의 예시

  • BERT 모델: 문장의 일부 단어를 마스킹(masking)한 후, 이를 예측하도록 학습한다.
  • Vision Transformer(ViT): 이미지의 일부분을 제거하거나 변형된 이미지를 사용해 모델을 학습한다.

4. 강화학습 (Reinforcement Learning)

강화학습은 환경(Environment)과 상호작용하면서 보상(Reward)을 최대화하는 방향으로 학습하는 방법이다. 에이전트(Agent)는 매 순간 행동(Action)을 선택하고, 그 결과로 보상을 받아 다음 행동을 결정한다.

강화학습의 주요 요소

강화학습을 이해하기 위해서는 환경과 에이전트 간의 상호작용과 이를 구성하는 주요 요소를 알아야 한다.

  1. 에이전트(Agent):
    • 환경에서 행동을 수행하고, 보상을 받으면서 학습하는 주체이다.
    • 예시: 자율주행 자동차, 게임 AI
  2. 환경(Environment):
    • 에이전트가 상호작용하는 공간이다.
    • 환경은 에이전트의 행동에 따라 상태(State)와 보상(Reward)을 반환한다.
    • 예시: 게임 환경, 교통 시스템
  3. 상태(State):
    • 에이전트가 현재 처한 상황을 나타내는 정보이다.
    • 예시: 바둑판의 현재 돌 배치, 로봇의 위치
  4. 행동(Action):
    • 에이전트가 특정 상태에서 수행할 수 있는 선택이다.
    • 예시: 자율주행 자동차의 가속, 정지, 회전
  5. 보상(Reward):
    • 에이전트가 특정 행동을 수행한 후 환경으로부터 받는 피드백이다.
    • 보상은 행동이 얼마나 바람직한지를 나타내며, 에이전트는 누적 보상(Sum of Rewards)을 최대화하기 위해 학습한다.
    • 예시: 게임에서 점수 획득, 에너지 소비 감소
  6. 정책(Policy):
    • 에이전트가 어떤 상태에서 어떤 행동을 선택할지를 결정하는 전략이다.
    • 강화학습의 목표는 최적의 정책(Optimal Policy)을 학습하는 것이다.

특징

  • 보상을 최대화하기 위해 시도와 오류를 반복한다.
  • 학습 과정이 시뮬레이션 환경에서 이루어질 수 있다.
  • 게임 AI, 로보틱스, 자율주행 등에 활용된다.

예시

  • 체스 게임에서 최적의 수 찾기
  • 자율주행 자동차의 경로 최적화

요약 및 후기

머신러닝의 4가지 학습 방식은 각각의 특징과 응용 분야가 다르다. 지도학습은 정답 예측, 비지도학습은 패턴 탐색에 중점을 둔다. 자기지도학습은 데이터로부터 정답을 생성해 대규모 데이터를 학습하며, 강화학습은 보상 기반의 학습으로 최적의 행동을 찾는다. 이번에 최신 각광받는 자기지도학습이 구체적으로 어떻게 이루어지는지에 대해 알게되어 재밌었던 것 같다.