1. 서론


적대적 생성 신경망 (generative adversarial network; GAN) [1] 은 생성자 (generator) 와 판별자 (discriminator) 가 서로를 속이는 적대적 학습 (adversarial training) 을 수행하여 학습 데이터가 따르는 어떤 정답 분포를 학습하여 해당 분포에서 데이터를 샘플링 할 수 있는 프레임워크를 지칭한다. 적대적 생성 신경망은 이미지 생성 및 편집, 초해상화, 음성 합성, 도메인 변환, 이상점 검출, 기상예측, 유동 해석 등 다양한 산업 분야에서 활용되고 있으며, 특히 이미지 생성 및 편집 분야에서 유례없는 성공을 보여주어 최신 모델인 StyleGAN3 [2] 을 학습하여 생성한 이미지는 사람이 판단하기에도 진짜인지 생성된 이미지인지 구별하기 힘든 정도이다. 본 글에서는 적대적 생성 신경망의 발전 방향, 최신 동향, 및 한계점에 대해서 다룰 예정이다.

https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_3_afhq_interpolations.mp4#t=0.001

그림 1. StyleGAN2 [2] 와 StyleGAN3 [3] 을 사용하여 합성한 동물 사진들 (출처: https://nvlabs.github.io/stylegan3/)

적대적 생성 신경망 춘추전국 시대:

적대적 생성 신경망 (GAN) 은 몬트리올 대학교의 Ian Goodfellow 연구원이 2014년에 개발한 알고리즘으로 생성 신경망과 판별 신경망이 서로를 속이는 적대적 학습을 수행하여 근사를 원하는 참 분포 (true distribution) 와 생성자가 품고 있는 근사 분포 (fake distribution) 사이의 젠슨-샤넌 다이버전스 (Jensen-Shannon divergence)를 줄이는 모델이다. 분포 사이의 젠슨-샤넌 다이버전스를 줄인다는 것은 근사 분포를 참 분포로 모사하는 과정을 의미하며, Ian Goodfellow et al. 는 논문 "Generative Adversarial Nets" [1] 에서 판별자가 충분히 학습 될 수 있다는 가정하에 두 신경망 사이의 적대적 학습이 내쉬 균형 (Nash equilibrium) 으로 수렴함을 증명하였다. 하지만, 적대적 생성 신경망이 제안될 당시, Max Welling 과 그의 제자 Diederik P Kingma 가 이미지 생성을 위한 변분 오토 인코더 (variational autoencoder; VAE) [4] 를 제안한 상태였다. 적대적 생성 신경망은 변분 오토 인코더와 비교했을 때 학습이 어려웠으며, 부족한 생성 성능, 잠재변수에 대한 해석성 부족과 같은 치명적인 단점들을 가지고 있었기 때문에 제안될 당시에는 큰 인기를 누리지 못했다. 하지만, 2015년 11월 적대적 생성 신경망에 컨볼루션 신경망 (convolutional neural network) 을 최초로 도입한 DCGAN [5] 이 제안되자, DCGAN의 놀라운 생성 능력 및 잠재 벡터를 통한 이미지를 조작 능력을 보고 많은 연구자들이 충격을 받게된다. 이로 인해 적대적 생성 신경망은 제 1의 전성기를 맞이하게 된다.

Untitled

그림 2. 월별 적대적 생성 신경망 논문의 수 (출처: https://easyai.tech/en/ai-definition/gan/)

적대적 생성 신경망의 제1 전성기 동안 연구자들이 가장 집중한 키워드는 적대적 생성 신경망의 '학습 안정성'이다. DCGAN이 등장하며 적대적 생성 신경망의 성능이 비약적으로 도약한 것은 사실이나 적대적 생성 신경망을 제대로 학습시키는 것은 여전히 엄청난 노력을 요구하였으며, 학습을 더욱 수월이 하기 위해 적대적 학습의 핵심인 판별자를 더욱 잘 학습하는 방법에 대한 연구들이 수행되었다. 대표적으로 f-GAN [6], LSGAN [7], GGAN [8], EBGAN [9], BEGAN [10], WGAN [11], WGAN-GP [12], McGAN [13], DRAGAN [14], SNGAN [15] 등의 적대적 생성 신경망이 제안되었고, 최근까지 많은 영향을 주고 있는 연구들을 위주로 그 내용을 요약하자면 아래와 같다.

BigGAN과 StyleGAN의 천하통일: 스펙트럼 정칙화가 등장한 후, Google Deepmind에서 인턴을 하던 Andrew Brock 연구원은 놀라운 생성 결과물 사진과 함께 BigGAN이라는 모델을 개발하여 인공지능 분야 최정상 학회인 ICLR 2019에 발표하였다. BigGAN [16] 은 SNGAN 이후 제안된 적대적 생성 신경망 모델 중에 가장 영향력 있는 생성 신경망이 되었지만, 핵심 아이디어는 다음과 같이 놀라울 정도로 간단하다. 이는 (1) "기존의 ResNet 기반 생성자, 판별자 네트워크 쌍을 조금 더 깊고 넓은 신경망으로 개조", (2) "여러 대의 그래픽 카드를 사용하여 더욱 큰 배치 크기로 적대적 생성 신경망을 학습"으로 요약될 수 있으며, BigGAN 은 위 두 가지 변화를 통해 당시 최신 모델인 SNGAN, SAGAN [17] 이 고전하던 고해상도 이미지 생성 문제를 엄청난 수준으로 발전시켰으며, 논문이 제출된 지 2년 후인 지금까지도 고해상도 이미지 생성의 기준이 되고 있다. BigGAN의 놀라운 생성 성능에도 불구하고, 적대적 생성 신경망은 실생활에서 사용할 수 있을 정도로 기술이 성숙하지 못 했다. 이는 논문에 실려있는 화려한 질적 평가 결과와는 달리, 실제 무작위로 생성된 이미지들은 시각적 아티팩트 (visual artifacts) 를 거의 항상 포함하고 있으며, 생성된 이미지의 질 역시 좋지 못하기 때문이다. 이를 해결 또는 우회하기 위해 최신 딥러닝 모델은 두 가지 방법을 사용하는데, (1) 분산이 낮은 데이터 세트 만을 학습에 사용, (2) 사상 네트워크 (mapping network) 를 통한 의미상으로 잘 인코딩되어있는 잠재공간 (latent space disentanglement) 을 학습하는 것이다. (1) 의 방법은 적대적 생성 신경망의 능력을 근본적으로 향상시키진 않지만, 적대적 생성 신경망이 중간에 맞춰진 (center aligned) 이미지들의 분포는 잘 근사할 수 있음을 시사하며, (2) 의 방법은 사상 네트워크를 통해 이미지를 더욱 정교하게 생성하고 편집할 수 있다는 것을 보여주었다. 위의 두 방법을 사용하고 있는 모델들은 인기 있는 StyleGAN [18] 생성 모델 시리즈들이며, 현대 적대적 생성 신경망의 기준이 되었다.

Untitled