환경부 통합물관리 일원화 이후, 수량과 수질뿐만 아니라 수생태계의 건강성도 통합적으로 관리하기 위한 제도적 기반 마련이 중요해지고 있다. 본 연구는 한강수계 내에서 2008년부터 2018년까지의 유량, 수질 및 수생태계 건강성 지수(BMI, TDI, FAI)별 등급 데이터를 활용하여 수생태계 건강성 등급 예측을 위한 머신러닝 모델을 개발하고 모델의 예측 성능 개선을 위한 GAN 알고리즘의 적용성을 평가하였다. 머신러닝 모델은 6개 모델(서포트벡터머신, K-최근 접이웃, 의사결정트리, 랜덤포레스트, 그레디언트 부스트, 익스트림 그레디언트 부스팅)을 사용하였으며, 두 가지 데이터셋(Raw 데이터셋, Raw + GAN 데이터셋)으로 학습된 모델의 예측 성능을 비교 분석하였다. 연구 결과, Raw 데이터셋으로 학습된 머신러닝 모델 중 성능이 우수한 3개 모델(서포트벡터머신, 랜덤포레스트, 익스트림 그레디언트 부스팅)의 평균 F1-score는 0.4 이하로 나타났으나, Raw 데이터셋과 GAN 데이터셋으로 학습한 모델의 경우 평균 0.9 이상의 예측 정확도를 가졌다. 특히 테스트 데이터셋에서도 GAN 알고리즘을 활용한 머신러닝 모델의 평균 성능이 BMI 0.48, TDI 0.30, FAI 0.58 (Raw 데이터셋)에서 BMI 0.92, TDI 0.78, FAI 0.93으로 크게 향상된 것을 확인하였다. 본 연구의 결과를 통해 GAN 알고리즘을 통한 데이터 불균형 개선은 머신러닝 모델의 수생태계 건강성 등급 예측 성능 향상에 크게 기여하는 것을 확인하였다. 그러나 본 연구의 머신러닝 모델은 대부분 본류 하천의 데이터로 학습되었기 때문에 향후 4대강 본류 및 지류 하천 데이터를 활용한 모델의 최적화 연구가 필요할 것이다.