정말 딥러닝은 사람처럼 세상을 인식하고 있을까?

NAVER D2·DEVIEW 2018 2018·2018년

AI 요약

사람 눈엔 똑같지만 모델은 전혀 다르게 보는 적대적 예제(adversarial example)를 주제로, NIPS 워크숍 공격·방어 컴페티션 경험을 공유한 발표다. '딥러닝이 정말 사람처럼 세상을 인식하는가'라는 질문 아래 주요 공격·방어 기법을 훑는다.

핵심 포인트

단 한 픽셀 변경으로도 오분류를 일으킬 만큼 모델은 취약하며, FGSM·타깃형·유니버설 교란·변환 네트워크 등 다양한 공격이 존재
컴페티션 상위권은 학습 기반보다 FGSM류에 기법을 더한 단순한 접근이 우세했고, 발표자 팀의 흑색 어태커 학습 시행착오도 공유
방어는 적대적 학습과 탐지로 나뉘며 각각 비용·우회 한계가 있고, 캡슐넷의 강건성도 단정하기 어렵다는 신중한 결론

왜 읽나모델 견고성과 보안, 적대적 공격·방어 연구의 큰 그림을 잡으려는 ML 연구자·엔지니어에게 입문 지도가 된다.

챕터별 상세

010:00 – 2:24

딥러닝은 사람처럼 보는가 — 적대적 예제의 위협

SAP 랩스 코리아 소속 발표자가 NIPS 워크숍의 적대적 공격·방어(adversarial attack & defense) 컴페티션 경험을 공유하며 시작한다. 핵심 문제의식은 '딥러닝이 정말 사람처럼 세상을 보고 있는가'다. 2012년 이후 이미지 분류 모델이 널리 쓰이지만, 사람 눈에는 똑같아 보이는 이미지에 아주 작은 노이즈를 더하면 모델이 전혀 다른 클래스로 오분류하는 현상이 잘 알려져 있다.

이 취약성은 극단적이어서, 이미지에서 단 하나의 픽셀만 바꿔도 오분류 성공률이 10% 가까이 나오는 연구까지 있다. 이렇게 만든 입력을 적대적 예제(adversarial example)라 하고 이를 막으려는 시도를 방어(defense) 또는 적대적 학습이라 한다. 수학적으로는 사람 인지에 영향이 없는 작은 노이즈 크기(L-infinity, L2 등 norm으로 제한)를 주되 기계의 출력은 흔드는 것이 공격의 정의다.

대표적인 공격 기법들을 훑는다. 첫째는 FGSM(Fast Gradient Sign Method)으로, 손실을 키우는 그래디언트의 부호 방향으로 노이즈 크기만큼 한 번에 입력을 움직이는 단순한 방법인데 효과적이라 벤치마크로 널리 쓰인다. 이를 작게 잘라 여러 번 반복하는 변형(iterative FGSM)도 있다. 다만 FGSM 계열은 정답 레이블 정보가 들어가 적대적 학습에 그대로 쓰면 노이즈 크기가 커질수록 정확도가 떨어지는 '레이블 누수(label leaking)' 문제가 관찰된다.

흥미로운 지점은 가장 그럴듯하지 않은 클래스(least-likely)로 분류되게 만드는 타깃형 공격도 잘 통한다는 것이다. 이어 하나의 고정된 노이즈로 이미지 종류와 무관하게 여러 모델을 속이는 유니버설 적대적 교란을 소개하는데, 사전학습 모델들에 높은 오분류율을 내는 공통 노이즈가 실제로 존재했고 모델 간 전이도 어느 정도 확인됐다. 또 노이즈 생성 자체를 인코딩·디코딩 구조로 학습시키는 변환 네트워크(adversarial transformation network)도 들지만, 정작 컴페티션 상위권 팀 대부분은 학습 기반 대신 FGSM류에 별도 기법을 더한 방식을 택했다.

컴페티션의 구체적 공격 방법을 정리한다. 공격은 무조건 틀리게만 하면 되는 비타깃(untargeted)과 특정 클래스로 틀리게 하는 타깃(targeted)으로 나뉘고 일반적으로 비타깃이 더 쉽다. 1등 팀은 의외로 단순해서 FGSM에 항(term) 하나를 추가해 방어 없는 상황에서 매우 잘 통했고, 2등류는 작은 랜덤 노이즈를 뿌린 뒤 FGSM을 얹는 방식이었다. 발표자 팀은 18등으로, 변환 네트워크처럼 별도의 어태커를 학습시키는 흑색(black-box) 접근을 택했고 손실 함수로 리버스 크로스 엔트로피가 수학적으로 가장 깔끔하다고 판단해 채택했다.

팀은 학습 기반이 그래디언트 기반보다 거의 항상 더 잘 나오리라 기대했지만 작은 노이즈 영역에서 성능이 안 나와 원인을 파고들었다. 백본 교체·앙상블 끝에 단순히 틀리게 만드는 방향과 완전히 다른 클래스로 보내는 방향을 함께 섞어 손실 항을 둘로 구성하는 아이디어에 도달했으나, 파이널 3일 전이라 학습을 마치지 못해 차선책을 제출했다. 방어로 넘어가면 크게 적대적 학습과 탐지 두 갈래가 있는데, 적대적 학습은 공격 예제를 학습 데이터에 함께 넣어 모델을 강건하게 만들지만 모든 공격 방식마다 예제를 만들어 넣어야 하는 비용 문제가 있다.

적대적 학습의 부담이 크다고 보고 또 다른 방어인 탐지(detection)로 넘어간다. 적대적 노이즈는 랜덤 노이즈와 다른 패턴이 있다는 가정 아래 각 레이어에 탐지기를 두어 적대 입력을 막는 방식인데, 탐지되면 이미지를 버려야 해 공격자가 정상 입력까지 막게 유도할 여지가 있다. 그래서 강화학습이나 영상 같은 시퀀스에서는 적대 입력 감지 시 이전 프레임으로 예측한 프레임을 대신 쓰는 식의 다른 방어도 시도된다.

이어 화제의 캡슐넷(CapsuleNet)을 직접 구현해 화이트박스 공격으로 검증한다. CNN과 캡슐넷을 FGSM·반복형으로 비교한 결과 특출나게 강건해 보이지는 않았으나 일부 실험은 논문과 비슷하게 재현됐고, 실험 셋업이 논문과 많이 달라 '캡슐넷이 강건하지 않다'고 단정하기는 어렵다고 신중하게 정리한다. 전체적으로 모델은 적대적 공격 앞에서 자유롭지 못했고 관련 연구가 2016~2017년에 집중됐음을 짚으며, 동영상 입력에서는 교란의 영향이 생각보다 크지 않다는 보고를 둘러싼 청중 질의응답으로 마무리한다.