말벌 영상인식을 위한 심층 합성곱 신경망의 성능 평가
Abstract
One of the serious factors for honeybee decline is due to the various attacks from Vespa hornets, indigenous and invaded. Population monitoring as well as the alerting systems is requested against the Vespa. Automated image recognition is the primary step for the unmanned autonomous monitoring system development. This study compared the recent deep convolutional neural network (DCNN) algorithms such as AlexNet, VGG19, GoogLeNet, and ResNet50 for the best model selection for classification of 3 Vespa species, V. mandarinia, V. crabro and V. velutina. To evaluate classification performance, accuracy was utilized after transfer learning on each DCNN. As a result, the ResNet50 showed the best in terms of accuracy after sufficient training of 100 epochs. If performance and speed are considered simultaneously, AlexNet could be the alternative. The real-time monitoring system for objects requires both localization and classification. And Vespa occurrence or population change would need rapid recognition for the objects. Therefore speedy image recognition based on the DCNN, which combines localization and classification for objects in an image, should be considered in the future works.
Keywords:
Vespa hornets, Deep convolutional neural network, Deep learning, Classification서 론
인공지능의 한 분야인 딥러닝 기술은 인식, 추론, 학습, 행동과 같은 영역에서 혁신적인 발전을 이루고 있으며 현재 영상인식 분야의 정확도는 인간의 수준을 초월하는 단계에 이르게 되었다. 이러한 영상인식 분야의 발전에는 ImageNet (www.image-net.org)을 중심으로 영상에 대한 빅데이터의 제공, GPU를 기반으로 하는 대용량 데이터에 대한 실시간 병렬처리기술의 발전 그리고 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)를 포함한 딥러닝 기술의 경쟁적인 연구 노력이 서로 조화롭게 협력한 결과라고 할 수 있다(Orga et al., 2014). 특히 2012년 이전에는 영상인식에 필요한 유용한 특징을 개발자들이 직접 결정해서 추출하는 형태가 주류를 이루었으나 2012년 Alex Krizhevsky 등이 심층 합성곱 신경망(Deep Convolutional Neural Networks, DCNN) (Alex et al., 2012)을 발표하면서 깊은 구조의 CNN 알고리즘을 이용하여 인식 오류율을 17%로 낮추었고 이러한 CNN 기반의 여러 연구가 발전되어 2015년에는 마이크로소프트의 MSRA 팀이 ResNet으로 96.43%의 정확도를 달성하여 인간의 인식 오류 수준인 5%를 능가하는 수준에 이르게 되었다. 본 연구에서는 최근 영상인식에서 혁신적인 발전을 이룬 심층 합성곱 신경망 기반의 다양한 인식 알고리즘을 평가하여, 말벌의 분류에 가장 적합한 딥러닝 알고리즘을 찾고 이를 이용해 향후 말벌에 대한 실시간 모니터링 시스템의 구성에 활용하고자 한다. 양봉꿀벌을 사육하는 양봉가에게 가을철 봉군 유지의 가장 큰 장애는 말벌류의 공격이다(Jung, 2012; Kim et al., 2017). 국내에는 13종의 말벌이 보고되고 있으며(Kim et al., 2006; Choi et al., 2013) 8월 상순부터 11월 초순 사이에 봉군에 치명적인 피해를 주며 이에 잘 대응하지 못했을 경우 벌통 전체가 폐사할 수 있다고 보고된 바 있다(Jung et al., 2007, 2012). 또한, 말벌 중에서도 집단공격형 사냥 전략을 가진 장수말벌(V. mandarinia)의 피해가 가장 큰 것으로 보고되고 있다. Chang (1993)은 말벌 피해의 88.5%가 장수말벌에 기인한 것이라고 보고했다. 아울러, 외래 생물인 등검은말벌(V. velutina)이 국내에 침입하여 말벌로 인한 문제의 복합성이 높아지고 있다. 특히 등검은말벌의 정착은 토착 말벌 군집구조에도 영향을 미친다고 보고되고 있다(Jung, 2012). 등검은말벌의 경우 몸집이 작은 그룹의 말벌, 좀말벌, 털보말벌의 군집구조에 더 큰 영향을 미치고 있다. 최근 말벌의 자동 모니터링에 대한 기초 연구가 수행된 바 있으니, 이는 대부분 자료 전송 시스템에 관한 연구였다(Kim and Jung, 2014, 2015). 따라서 본 연구팀은 등검은말벌과 장수말벌 그리고 말벌(V. crabro)을 대상으로 심층 합성곱 신경망 기반의 최근 딥러닝 알고리즘의 인식성능을 평가하고자 한다. Fig. 1은 심층 합성곱 신경망 기반의 영상인식 과정을 보여준다. 객체 인식을 위해서는 크게 영상에서 객체의 위치 탐지(object localization)와 분류(classification) 두 가지 단계가 필요하다.
객체 인식 연구와 관련된 최근 신경망을 분류하면 객체 위치 탐지 연구, 객체 분류 연구, 객체의 위치 탐지 및 분류가 동시에 이루어지는 세 가지 종류로 나눌 수 있다. 그런데 말벌 모니터링 시스템의 경우 움직임이 있는 객체를 대상으로 인식이 이루어지므로 연속 영상에서 움직임 정보를 이용하여, 배경과 대상 객체를 분리할 수 있는 유용한 방법들이 있다. 따라서 본 연구에서는 객체 영역을 탐지했다는 가정 하에서 객체의 분류와 관련된 합성곱 신경망을 중심으로 인식성능을 평가하고자 한다. 평가 대상 합성곱 신경망으로는 최근 ILSVRC에서 좋은 인식성능을 보인 AlexNet, VGG19, GoogLeNet, ResNet50을 사용하였으며 동일 수준의 학습조건에서 각 합성곱 신경망을 학습하고 학습된 신경망에 대하여 테스트 영상에 대한 인식결과의 정확도를 비교하여 개별 알고리즘의 분류성능을 평가하고자 한다.
재료 및 방법
1. 말벌 학습데이터 및 전처리(pre-processing)
딥러닝에서 학습용 데이터 집합의 크기와 데이터 영상의 해상도는 각 신경망 추론의 정확도에 큰 영향을 미친다. 말벌 데이터는 안동대학교 Bee Lab으로부터, 등검은말벌, 장수말벌, 말벌을 촬영한 780장의 영상을 받았다.이 영상은 말벌 영역에 대해 라벨링을 거친 후에 각 심층 합성곱 신경망의 주어진 입력조건에 따라 적합한 크기 변환을 수행한다. 라벨링 과정에서는 향후 YOLO (https://pjreddie.com/darknet/yolo/)와의 성능 비교를 위해 yolo_mark (https://github.com/AlexeyAB/Yolo_mark)를 이용해 라벨링하였다. 서론에서 제시한 바와 같이 영상인식은 객체 감지와 객체의 분류로 나뉜다. 말벌 모니터링을 위해서는 영상에서 관심이 있는 말벌의 영역에 대한 감지와 해당 영역에 대한 객체의 분류가 필요하다. YOLO의 경우에는 영상에 포함된 객체 영역에 대한 탐지와 해당 객체에 대한 분류가 동시에 이루어지며, 나머지 비교 대상 합성곱 신경망 알고리즘의 경우 영상 전체를 입력으로 객체를 분류하는 형태이므로 가능한 동일 입력조건에서 인식성능의 비교를 위해 다른 인식 알고리즘의 학습데이터에 대해서도 YOLO와 동일한 조건의 말벌 데이터 집합을 학습데이터로 사용하였다. Fig. 2와 같이 yolo_mark를 이용해 라벨링하고 라벨링 결과 데이터에 기록된 크기(객체의 위치를 영상의 좌측 상단 x, y 좌표 및 가로 세로 값으로 표시)대로 말벌 객체를 영역을 선택하여 저장한 후 각 심층 합성곱 신경망별로 주어진 입력조건에 맞게 영상의 크기를 변환하여 학습데이터로 활용하였다.
2. 성능 평가에 이용한 심층 합성곱 신경망의 구조 및 전이 학습(transfer learning)
AlexNet은 Fig. 3과 같이 5개의 합성곱 층과 3개의 완전연결 층(FC, Fully Connected Layer)으로 구성된 2개의 CNN이 병렬적으로 구성되어 2개의 GPU를 이용해서 각 CNN을 학습하는 구조이다(Alex et al., 2012). 그러나 최근에는 GPU 성능의 향상과 구조적인 용이성 때문에 일반적인 직렬 형태의 합성곱 신경망 구조를 많이 사용하며 전이 학습에 사용한 AlexNet도 Fig. 4와 같이 직렬구조의 CNN이다. 일반적인 AlexNet의 경우 1000개의 클래스를 분류하도록 신경망이 구성되어 있으나 본 논문에서는 3종류의 클래스를 분류할 수 있도록 신경망을 변경하여 사용했다. Fig. 3에서 제일 좌측 입력 영상의 화소 크기는 해당 논문에서 224로 표기되어 있으나 오류이다. 따라서 Fig. 4처럼 이번 평가 실험에서 입력 영상의 크기는 227이다.
기본적인 구조는 Fig. 3과 같고 합성곱 필터링 과정에서 병렬 구조를 직렬 형태로 바꾸었다. Fig. 4에서 외부 직육면체의 가로와 세로 숫자는 입력 및 단계별 필터링 후 영상의 크기이며 내부 직육면체의 가로와 세로 숫자는 합성곱 필터의 크기를 나타내고 외부 직육면체 아래의 값은 합성곱 필터의 개수를 나타낸다. 그리고 맨 오른쪽 사각형들은 완전 연결 층을 의미하고 아래의 값은 출력 노드 수이다.
VGGNet은 합성곱 신경망에서 망의 깊이가 미치는 영향을 연구하기 위해 개발된 것이며 11~19층을 갖는 5종류가 있다(Karen et al., 2015). 실험에 사용한 VGG19는 Fig. 5와 같이 전체 합성곱 필터의 크기를 3×3으로 고정하고 총 16개의 합성곱 층과 3개의 완전 연결 층으로 이루어진 19개의 층을 갖는다. 전이 학습에 사용된 출력층은 AlexNet과 마찬가지로 VGG19 출력층을 3개로 줄여 학습에 사용하였다.
망이 깊어져 학습에 어려움이 생기나 저층 구조에서 최적화한 파라미터를 초기화에 이용하여 문제를 해결하였으며 2014년 ILSVRC에서 VGGNet은 우수한 성적을 거두었다. 그러나 16층 이상의 경우 망의 깊이가 추론의 정확도를 개선하지 않음을 확인했고 실제, VGG16의 정확도가 VGG19보다 근소하게 높다.
GoogLeNet은 망의 깊이와 넓이의 증가를 통해 신경망 추론의 정확도를 개선하면서, 동시에 DCNN에서 비선형적인 특징 추출의 어려움과 망의 깊이 증가로 발생하는 연산량 증가를 개선하기 위해 고안된 새로운 합성곱 신경망이다(Christian et al., 2015). Christain et al.은 여러 크기의 합성곱 층과 Pooling 층의 동시 사용으로 다양한 특징의 추출에 유리하며, 모듈 내부에 크기가 1인 합성곱을 추가하여 여러 크기의 합성곱 계산으로 인한 계산량의 증가도 조절할 수 있는 Inception 모듈을 제안하였고 9개의 Inception 모듈을 추가한 GoogLeNet으로 2014년 ILSVRC에서 최고의 인식성능을 보였다. 실험에서 사용한 GoogLeNet은 입력층과 연결된 낮은 층에서는 전통적인 DCNN의 구조를 취하고 연속적으로 9개의 Inception 모듈을 연결한 다음, 출력과 인접한 높은 층에서는 분류를 위해 완전 연결 층을 두고 최종적으로 softmax 함수를 이용해 확률 분포로 변경하는 구조를 갖는다. 기존의 AlexNet 및 VGG19와 마찬가지로 출력에서 완전 연결 층의 출력 노드의 크기를 3개의 클래스로 변경하여 사용하였다.
ResNet은 합성곱 신경망의 층이 증가하면서 발생하는 정확도의 감소를 해결하기 위해 잔차 학습(Residual Learning)을 기존 VGGNet 기반 신경망에 적용한 개선된 합성곱 신경망이다(Kaiming et al., 2016). Fig. 6에서 좌측은 일반적인 합성곱 신경망 내부의 연속된 망이다. 일반적인 합성곱 신경망 블록의 경우 입력(x)에 대해서 원하는 추론, H (x)를 얻기 위한 학습이 수행된다. 그러나 학습의 목표를 H (x)-x, 즉, 해당 블록의 출력과 입력의 잔차를 최소화하는 것으로 수정하고, F (x)=H (x)-x로 두면 H (x)는 F (x)+x가 되어 블록의 입력을 출력에 연결해서 더하는 구조가 되어야 한다. 이러한 구조는 별도의 합성곱 파라미터는 필요가 없으며 단지 덧셈을 추가하는 것으로 망을 구성할 수 있어 연산에 부담이 없다. 또한, F (x)=0이 되도록 학습을 하게 되어 입력과 출력의 차의 최소화를 학습하는 잔차 학습이 된다. 실험에 사용한 ResNet50은 가중치 층(weight layer)이 50개인 ResNet을 의미하며 앞서 언급한 합성망 신경망과 마찬가지로 최종 완전 연결 층의 출력을 3으로 변경하여 학습에 이용하였다.
성능 평가로 사용할 4개의 심층 합성곱 신경망을 구성하기 위하여 Matlab deep learning toolbox를 활용하였다.그리고 학습의 정확도 개선 및 속도 향상을 위하여 전이 학습을 사용하였다. 각 합성곱 신경망에 대해 백만 개 이상의 영상으로 사전 학습된 신경망을 이용하였고, 출력층의 구조만을 3종류의 말벌 분류에 적합하도록 변경하여 추가 학습에 활용하였다. 학습에 사용한 데이터는 안동대 Bee Lab에서 받은 등검은말벌, 장수말벌, 말벌 사진 600장이며 논문에서 언급한 전처리 과정을 거쳤고 유효성 검사 데이터의 비율은 종류별로 20%로 설정하였다.Epoch마다 학습용 데이터 집합과 유효성 검사 데이터 집합을 무작위로 구성하였고 데이터 증대를 위해 매 전방전달(forward propagation)에서 입력 영상을 무작위 회전(-20°~20°)과 가로, 세로 방향으로 무작위 이동(-3~3화소)을 동시에 수행한 뒤 입력으로 사용했다. 그리고 최적화 함수로는 확률적 경사 하강법과 모멘텀을 사용하였고 미니배치(minibatch)의 크기는 10으로 설정하였다. 성능 평가 척도는 정확도(바르게 분류한 영상의 수/전체 테스트 영상의 수)이고 검증용 데이터 집합은 별도로 구성한 180장의 말벌 영상이다. 정해진 Epoch만큼 학습한 신경망을 평가하고 다시 새로운 평가를 위해 정해진 Epoch을 수행하기 전에 GPU 및 신경망의 구성과 관련된 메모리 초기화 과정을 거쳐 각 테스트에서 같은 학습조건을 유지하였다. 전이 학습의 전체적인 과정은 Fig. 7과 같다.
결과 및 고찰
1. Epoch에 따른 심층 합성곱 신경망의 정확도 평가
전이 학습의 경우 사전 학습된 모델의 구조를 이용하므로 신경망의 구조 및 가중치가 각 모델에 대해 최적화되어 있다. 따라서 신경망에서 일부분의 층을 조정하고 새로운 학습데이터를 이용해 학습할 경우 빠른 학습이 가능하다. 실험에서는 사전 학습된 모델에서 최종 완전 연결 층의 출력만 3으로 변경하고 학습을 실행하였다. 다양한 Epoch을 설정하고 실험해 본 결과 100회 이상에서는 Epoch에 따른 유의미한 개선이 없어 10회의 Epoch과 100회의 Epoch에 대해 신경망별로 5회씩 학습하고 이에 대한 정확도 평가 결과를 제시하였다.
Fig. 8은 10회 Epoch을 걸친 후 신경망별로 학습용 데이터 집합에 대한 정확도 결과이다. X축은 가중치 갱신 횟수이며 Y축은 학습용 데이터 집합에 대한 평균 정확도이다. 유효성 검사 데이터 집합을 20%로 설정하였고 미니배치 크기를 10으로 설정하여 10회 Epoch의 경우 학습용 데이터 집합에 대해 480회의 가중치 갱신을 수행한다. 가중치 갱신 후 평가된 정확도를 matlab의 smooth 함수를 통과한 후 Y축에 표시하였다. 10회 Epoch의 경우 학습용 데이터 집합에 대해서도 아직 충분히 학습되지 않음을 알 수 있다. Table 1은 신경망별로 10회 Epoch을 5번 수행하고 검증용 데이터 집합에 대한 정확도 평가 결과이다. 신경망의 깊이가 가장 얕은 AlexNet은 10회 Epoch으로 비교적 높은 인식률을 보인다. 그리고 5회에 걸친 테스트에서 정확도의 최대와 최소 사이에 차이가 가장 적다는 것을 알 수 있다.
Fig. 9는 100회 Epoch을 걸친 후 신경망별로 학습용 데이터 집합에 대한 정확도 결과이다. 미니배치를 포함해서 Fig. 8과 같은 학습조건이며 가중치 갱신 횟수는 최대 4,800이다. Fig. 8과 비교할 때 모든 신경망에서 학습데이터에 대한 충분한 학습이 이루어졌음을 알 수 있다. 실험에서 유효성 검사 데이터의 정확도 곡선도 상기 그림과 거의 유사함을 확인하였다. 이를 바탕으로 검증용 데이터 집합에 대한 정확도는 Table 2와 같다. 실질적으로 충분한 학습이 이루어졌을 경우 각 신경망의 정확도 순위는 ILSVRC 2012년~2015년 순위와 유사했으며 ResNet50이 가장 우수한 인식성능을 보였다. 즉, 서로 다른 객체에 대한 분류와 마찬가지로 같은 종류의 객체에 대한 분류에서도 DCNN에 기반한 인식 알고리즘이 잘 동작함을 알 수 있다. 충분히 학습된 신경망의 경우 각 테스트에서 정확도의 차이도 감소했다. 학습에 걸리는 시간은 Table 2의 구동 환경에서 100회 Epoch 기준으로 Alexnet, VGG19, GoogLeNet, ResNet50 각각 865초, 5113초, 1829초, 3619초가 걸렸다. Matlab을 기준으로 가중치를 포함한 사전 학습된 신경망의 크기는 AlexNet 212MB, VGG19 520MB, GoogLeNet 228MB, ResNet50 88MB이다. 그리고 실시간 처리 속도를 비교한 FPS (Frame Per Second)는 Alexnet의 경우 약 115프레임이며, 나머지의 경우에는 22~25 프레임 수준의 실시간 처리가 가능했다. 따라서 차후 말벌 모니터링 시스템 구축에 있어 인식성능을 고려할 때는 ResNet 기반 인식 알고리즘이 가장 유용하며 속도와 분류성능을 동시에 고려할 때는 AlexNet이 좋은 대안이 됨을 확인했다. 따라서 향후 실시간 말벌 모니터링 구축을 위해서는 빠른 객체영역탐지 알고리즘과 ResNet 기반 분류 알고리즘을 결합하는 것이 필요하며 동시에 영역탐지와 분류가 동시에 이루어지는 YOLO를 비롯한 기존 방법과 비교도 필요하다는 것을 확인했다.
Fig. 10은 분류성능이 가장 우수한 ResNet50을 이용하여 테스트 영상을 분류한 결과의 예이다. 좌부터 등검은말벌 (V. velutina), 말벌 (V. crabro), 장수말벌 (V. mandarinia)이며 각각 전처리 과정에서 black, crabro, jangsu로 라벨링되었으며 분류 결과는 Matlab 코드에서 분류된 라벨과 해당 라벨에 대한 확률값에 100을 곱해서 백분율로 표시했다. ResNet50의 경우 입력 영상의 크기는 [224, 224, 3]이므로 다양한 크기의 테스트 영상은 bicubic 보간법으로 축소 및 확대의 전처리 과정을 거친다. Fig. 10에서 등검은말벌은 전처리 과정에서 좌우 크기가 축소되었고 ResNet50의 출력에서 95.6% 확률로 등검은말벌로 분류되었다. 말벌도 마찬가지로 좌우 방향으로 축소되어 입력되었으며 분류 결과 99.9%의 확률로 말벌로 분류된 결과이다. 장수말벌의 경우 원 영상의 크기가 ResNet에서 요구하는 입력보다 작아 가로 및 세로 방향으로 확대되어 입력되었으며 85.3%의 정확도로 장수말벌로 분류되었다.학습용 영상의 해상도는 분류의 정확도에 영향을 미치며 실험에 사용한 학습용 영상의 경우 전반적으로 말벌의 해상도가 제일 높아 분류 결과도 가장 좋은 성능을 보였다.
적 요
세계적으로 개체 수가 급감하고 있는 꿀벌의 체계적인 관리를 위해 양봉 산업에 큰 피해를 주는 말벌류에 대한 모니터링 체계가 필요하다. 본 논문에서는 실시간 말벌 모니터링 시스템의 구축을 위해 등검은말벌, 장수말벌, 말벌을 대상으로 최근 영상인식 분야에 우수한 성능을 보인 딥러닝 알고리즘을 대상으로 말벌류에 대한 실제 분류성능을 평가하였다. AlexNet, VGG19, GoogLeNet, ResNet50을 대상으로 전이 학습을 수행하였으며 각 신경망의 출력층을 분류대상에 맞게 수정하여 10회, 100회의 Epoch을 거친 후 검증용 데이터 집합에 대해 정확도를 비교하였다. 결과 인식성능은 ResNet50이 가장 우수하였고 성능과 속도를 동시에 고려했을 때는 AlexNet이 유용한 대안이 됨을 확인하였다. 따라서 향후 실시간 말벌 모니터링 구축시스템을 위해 빠른 영역탐지 알고리즘과 ResNet을 결합하는 연구가 필요함을 확인하였다. 그리고 현재 객체의 탐지와 분류가 동시에 이루어지는 다수의 알고리즘이 개발되고 있으며 특히 AlexNet에 기반한 YOLO 등이 활용되고 있다. 그러므로 이러한 방법과의 비교도 필요하다는 것을 확인했다.
Acknowledgments
본 연구는 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학지원사업의 연구결과로 수행되었음(2019-0-01113). 이 논문은 안동대학교 기본연구지원사업에 의하여 연구되었음.
References
- Chang, Y. D., M. Y. Lee, Y. H. Yim and Y. N. Youn. 1993. Species and visiting patterns of wasps (Hymenoptera: Vespoidea) in apiary. Kor. J. Apic. 8: 22-28.
- Choi, M. B., J. K. Kim and J. W. Lee. 2013. Checklist and Distribution of Korean Vespidae Revisited. Korean J. Appl. Entomol. 52(2): 85-89. [https://doi.org/10.5656/KSAE.2013.02.1.072]
- He, K., X. Zhang, S. Ren and J. Sun. 2016. Deep Residual Learning for Image Recognition, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 770-778. [https://doi.org/10.1109/CVPR.2016.90]
- Joseph, R., S. Divvala, R. Girshick and F.-h. Ali. 2016. You only look once: Unified, Real-Time Object Detection, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 779-788.
- Jung, C. 2012. Spatial Expansion of an Invasive Hornet, Vespa velutina nigrithorax Buysson (Hymenoptera: Vespidae) in Korea 27(2): 87-93.
- Jung, C. 2012. Initial stage risk assessment of an invasive hornet,Vespa velutina nigrithorax Buysson (Hymenoptera: Vespidae) in Korea. Korean J. Apic. 27: 95-104.
- Jung, C., M. S. Kang and D. Kim. 2007a. Vespid wasps(Hymenoptera) occurring around apiaries in Andong, Korea: II. Trap catches and seasonal dynamics. Korean J. Apic. 22: 63-70.
- Kim, B. S. and C. Jung. 2014. Automatic environmental monitoring of honeybee hive: prototype design. Kor. J. Apic. 29: 187-192. [https://doi.org/10.17519/apiculture.2014.09.29.3.187]
- Kim, B. S. and C. Jung. 2015. Design and implementation of cloud based realtime temperature and humidity monitoring system of honey bee colony. Api. 30: 263-267. [https://doi.org/10.17519/apiculture.2015.11.30.4.263]
- Kim, B. S., S. M. Jeong, G. E. Kim and C. E. Jung. 2017. Early Alert System of Vespa Attack to Honeybee Hive: Prototype Design and Testing in the Laboratory Condiation, J. Apic., 32(3): 191-198. [https://doi.org/10.17519/apiculture.2017.09.32.3.191]
- Krizhevsky, A., A. Sutskever and G. E. Hikton. 2012. ImageNet Classification with Deep Convolutional Neural Networks. Adv. Neural Info. Proc. Syst. 25: 1097-1105.
- Ling, M., Q. Chen and S. Yan. 2014. Network In Network, arXiv: 1312.4440v3.
- Russakovsky, O., J. Deng, J. H. Su, Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg and L. Fei-Fei. 2014. ImageNet Large Scale Visual Recognition Challenge. J. Com. Vision 15(3): 1-34. [https://doi.org/10.1007/s11263-015-0816-y]
- Simonyan, K. and A. Zisserman. 2015. Very deep convolutional networks for large-scale image recognition, arXiv: 1409.1556v6.
- Szegedy, C., W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke and A. Rabinovich. 2015. Going Deeper with Convolutions, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1-9. [https://doi.org/10.1109/CVPR.2015.7298594]