머신러닝/Quiz - 수업용
배깅[Bagging]
홍팡
2024. 3. 28. 02:30
Bagging
배깅(Bagging)이란 Bootstrap Aggregating이라 불리는 방법으로, 원본 훈련 데이터에서 여러 Bootstrap 샘플을 복원 방식으로 여러 번 뽑고 이렇게 뽑힌 여러 샘플 데이터들로 각 모델을 학습시키고 이렇게 학습된 여러 모델의 예측 결과를 집계(Aggregation)하는 앙상블(Ensemble) 학습의 한 방법이다. Classification 문제의 경우(혹은 Categorical Data)에는 학습된 다수의 모델이 분류한 결과 중 제일 많은 결정을 내린 쪽으로 선택하는 Voting 방식을 취하고, Regression 문제의 경우(혹은 Continuous Data)에는 도출된 결과들을 평균을 취하는 방식을 취한다. 배깅 방식은 높은 분산을 가진 학습 알고리즘의 안정성과 정확성을 향상시키기 위해 사용되었다.
Bagging의 장점
- 분산 감소 : 여러 모델의 예측 결과를 결합하는 방식을 통해, 단일 모델의 결과로 나오는 예측의 분산을 줄일 수가 있다.
- 과적합 방지 : 원본 훈련 데이터를 모두 사용하는 방식이 아닌, 복원 추출을 통해 샘플링 된 여러 데이터 세트를 활용하여 모델을 학습시킴으로써 과적합의 위험을 감소시킬 수 있다.
- 병렬 처리 가능 : 각 학습되는 모델들은 독립적으로 학습되므로, 병렬 처리를 통해 학습 속도를 향상시킬 수 있다.
Bagging의 단점
- 해석의 어려움 : 여러 모델의 예측 결과를 결합하기 때문에, 단일 모델보다 결과를 해석하기 어려울 수 있다.
- 계산 비용 : 여러 개의 모델을 동시에 학습시켜야 하므로, 단일 모델을 학습시키는 것보다 시간과 계산 비용이 더 많이 들 수 있다.
Bagging 기법을 활용한 모델이 바로 랜덤포레스트(Random Forest)이다.