Chapter 02 딥러닝의 한계
01. 딥러닝과 데이터
딥러닝에서는 데이터의 절대량이 무엇보다 중요하다. 여러 경로로부터 수집된 데이터는 딥러닝에 활용되기 전에 '전처리'라는 과정을 거치는데 이것이 실제 딥러닝의 학습보다 더 많은 시간과 비용을 소요한다. 따라서 전처리의 수준은 경험적으로 결정하는 것이 일반적이다.
02. 데이터의 가치
딥러닝에서 유의미한 결과를 보여주는 부분은 지도학습 (Supervised Learning)을 활용한 것인데 이를 위해서는 출력 데이터에 라벨링이 되어 있어야 한다. 이는 단순히 데이터만으로는 학습이 불가능함을 보여주고 이 작업은 결국 사람이 해야 되므로 비용과 직결된다. 따라서 이런 데이터는 높은 가치를 갖게 되고 최근 미국을 시작으로 전개되고 있는 데이터 거래소의 예에서 보듯이 지도 학습용 데이터는 고부가가치를 창출할 수 있는 재화의 가치에 준한다고 할 수 있다.
03. 데이터와 개인정보
부가가치가 높은 데이터는 필연적으로 개인정보를 담고 있다. 따라서 양질의 데이터 확보가 중요한 딥러닝에서는 개인정보보호가 걸림돌이 되는 경우가 많다.
개인정보보다 데이터 활용에 더 친화적인 대표적인 나라가 중국이다. 중국은 전 국민의 안면인식, 지능형 CCTV 등 민감한 데이터를 적극 활용해 딥러닝 기술력에서 단숨에 미국과 양국구도가 되었다. 양질의 데이터로 학습된 인공지능을 플랫폼화하여 해외로 수출도 하고 있다.
반면에 유럽은 개인정보보호를 우선시 하여 이를 위반한 기업과 단체에 징벌적 손해배상을 요구하고 있으며, 인공지능 윤리 가이드라인을 제정하였다. 한국 역시 유럽 쪽의 노선을 가고 있다고 볼 수 있다.
04. 데이터의 수집과 알고리즘의 편향
데이터 수집은 대표성이 중요하지만 실제 데이터에서는 무엇이 대표인지 알기 어려운 경우가 많다. 그렇다면 데이터의 수집에서부터 편향이 존재할 가능성이 있다. 하지만 실제 편향을 완벽하게 제거하기는 어렵고 편향이 있는지 여부도 그것이 큰 문제로 이어지지 않는 한 발견하기도 어렵다. 연구계에서는 이러한 편향을 제거하기 위한 방법을 활발히 연구중이다. 이런 방법에는 컨퓨전 행렬 (Confusion Matrix) 등이 있다.
05. 지속적인 학습에 대한 어려움
100만 개로 학습된 신경망에 추가로 10만 개를 학습할 때는 일반적으로 110만 개를 처음부터 다시 학습시킨다. 10만 개만 추가로 학습을 하면 이미 학습한 100만 개에 대한 예측 성능이 급격히 떨어지기 때문이다. (이미 학습했던 내용을 잊어버린다)
따라서 딥러닝이 지속적으로 학습할 수 있다는 생각은 오해이다.
'AI_머신러닝_딥러닝' 카테고리의 다른 글
딥러닝 최신 용어정리 #6 메타학습 원샷학습 지속적인학습 신경망구조탐색 AutoML (0) | 2022.09.16 |
---|---|
딥러닝 최신 용어정리 #5 스타크래프트2의 인공지능 알파스타 (0) | 2022.09.12 |
딥러닝 최신 용어정리 #4 GPU TPU 뉴로모픽칩 등 (0) | 2022.09.12 |
딥러닝 최신 용어정리 #2 CNN GNN 강화학습 과적합 등 (0) | 2022.09.05 |
딥러닝 최신 용어정리 #1 퍼셉트론 엣지 손실함수 등 (0) | 2022.09.05 |