-
인공 신경망 (artificial neural network, ANN)인터넷시대와 4차산업 2023. 5. 2. 16:39반응형
인공신경망(人工神經網, 영어: artificial neural network, ANN)은 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 좁은 의미에서는 오차역전파법을 이용한 다층 퍼셉트론을 가리키는 경우도 있지만, 이것은 잘못된 용법으로, 인공신경망은 이에 국한되지 않는다.
인공신경망에는 교사 신호(정답)의 입력에 의해서 문제에 최적화되어 가는 지도 학습과 교사 신호를 필요로 하지 않는 비지도 학습으로 나뉘어 있다. 명확한 해답이 있는 경우에는 교사 학습이, 데이터 클러스터링에는 비교사 학습이 이용된다. 인공신경망은 많은 입력들에 의존하면서 일반적으로 베일에 싸인 함수를 추측하고 근사치를 낼 경우 사용한다. 일반적으로 입력으로부터 값을 계산하는 뉴런 시스템의 상호연결로 표현되고 적응성이 있어 패턴인식과 같은 기계학습을 수행할 수 있다.
예를 들면, 필기체 인식을 위한 신경망은 입력 뉴런의 집합으로 정의되며 이들은 입력 이미지의 픽셀에 의해 활성화된다. 함수의 변형과 가중치가(이들은 신경망을 만든 사람이 결정한다.) 적용된 후 해당 뉴런의 활성화는 다른 뉴런으로 전달된다. 이러한 처리는 마지막 출력 뉴런이 활성화될 때까지 반복되며 이것은 어떤 문자를 읽었는 지에 따라 결정된다.
다른 기계학습과 같이-데이터로부터 학습하는- 신경망은 일반적으로 규칙기반 프로그래밍으로 풀기 어려운 컴퓨터 비전 또는 음성 인식과 같은 다양한 범위의 문제를 푸는데 이용된다.
배경 지식
인간의 중추 신경계에 대한 조사는 신경망 개념에 영감을 주었다. 생물학적 신경망을 흉내내는 네트워크를 형상하기 위해 인공신경망에서 인공 뉴런들은 서로 연결되어있다.
인공신경망이란 무엇인가에 대한 하나의 공식적인 정의는 없다. 그러나 만약 통계학적 모델들의 집합이 다음과 같은 특징들을 가진다면 해당 집합을 신경(neural)이라고 부른다.
조정이 가능한 가중치들의 집합 즉, 학습 알고리즘에 의해 조정이 가능한 숫자로 표현된 매개변수로 구성되어있다.
입력의 비선형 함수를 유추할 수 있다.
조정가능한 가중치들은 뉴런 사이의 연결 강도를 의미하고 이들은 훈련 또는 예측하는 동안에 작동한다.
다양한 유닛들이 할당된 하위작업 보다 유닛들에 의한 병렬 혹은 집합적으로 함수들을 수행한다는 점에서 신경망은 생물학적 신경망과 닮았다. '신경망'이라는 단어는 보통 통계학, 인지 심리학 그리고 인공지능에서 사용되는 모델들을 가리킨다. 중추 신경을 모방하는 신경망 모델들은 이론 신경과학과 계산 신경과학의 한 부분이다.
인공신경망을 구현한 현대의 소프트웨어에서는 생물학적 접근법은 신호처리와 통계학에 근거한 좀 더 현실적인 접근법들로 인해 주로 사용되지 않는다. 이러한 시스템들 중 몇몇에서는 신경망 또는 신경망의 부분들(인공 신경들)은 큰 시스템을 형성하며 이러한 시스템은 조정이 가능하거나 기능하지 않은 구성 요소들로 결합되어 있다. 이러한 시스템의 일반적인 접근법은 많은 현실 문제 해결에 적합한 반면에 전통적인 인공지능 연결 모델에서는 그렇지 않다. 그러나 이들에게도 공통점이 있는데 그것은 비선형의 원리 분산, 병렬과 지역 처리 그리고 적응이다. 역사적으로 신경 모델들의 이용은 18세기 후반 if-then 규칙으로 표현된 지능을 가진 전문가 시스템을 특징으로 하는 고차원(symbolic) 인공지능에서부터 동적 시스템의 매개변수들을 가진 지능을 특징으로 하는 저차원(sub-symbolic) 기계학습으로 가는 패러다임의 변환이다.
역사
워런 맥컬록(Warren McCulloch)와 월터 피츠(Walter Pitts)는 (1943) 수학과 임계 논리(threshold logic)라 불리는 알고리즘을 바탕으로 신경망을 위한 계산학 모델을 만들었다. 이 모델은 신경망 연구의 두 가지 다른 접근법에 대한 초석을 닦았다. 하나의 접근법은 뇌의 신경학적 처리에 집중하는 것이고 다른 하나는 인공 신경망의 활용에 집중하는 것이다.
1940년 후반에 심리학자 도널드 헤비안(Donald Hebb)는 헤비안 학습(Hebbian learning)이라 불리는 신경가소성의 원리에 근거한 학습의 기본 가정을 만들었다. 헤비안 학습은 전형적인 자율학습으로 이것의 변형들은 장기강화(long term potentiation)의 초기 모델이 된다. 이러한 아이디어는 1948년 튜링의 B-type 기계에 계산학 모델을 적용하는데서 출발하였다.
팔리(Farley)와 웨슬리 클라크(Wesley A. Clark)는(1954) MIT에서 헤비안 네트워크를 모의 실험하기 위해 처음으로 계산학 모델(후에 계산기라 불리는)을 사용하였다. 다른 신경망 계산학 기계들은 로체스터(Rochester), 홀랜드(Holland), 하빗(Habit), 두다(Duda)에 의해 만들어졌다. (1956)
프랑크 로젠블랫(Frank Rosenblatt)는 (1958) 퍼셉트론 즉, 간단한 덧셈과 뺄셈을 하는 이층구조의 학습 컴퓨터 망에 근거한 패턴 인식을 위한 알고리즘을 만들었다. 계산학 표기법과 함께 로벤블라트는 또한 기본적인 퍼셉트론에 대한 회로가 아닌예를 들면 배타적 논리합 회로(exclusive-or circuit)와 같은 회로를 표기하였다. 해당 회로의 수학 계산은 폴 웨어보스(Paul Werbos)에 의해 오차역전파법이 만들어진 후에 가능하였다.[6] (1975)
마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)에 의해 기계학습 논문이 발표된 후에(1969) 신경망 연구는 침체되었다. 그들은 인공신경망에서 두 가지 문제점을 찾아내었다. 첫 번째로는 단층 신경망은 배타적 논리합 회로를 처리하지 못한다는 것이다. 두 번째 중요한 문제는 거대한 신경망에 의해 처리되는 긴 시간을 컴퓨터가 충분히 효과적으로 처리할 만큼 정교하지 않다는 것이다. 신경망 연구는 컴퓨터가 충분히 빨라지고, 배타적 논리합 문제를 효율적으로 처리하는 오차역전파법이 만들어지기까지 더디게 진행되었다.
1980년대 중반 병렬 분산 처리는 연결주의(connectionism)라는 이름으로 각광을 받았다. 데이비드 럼멜하트(David E. Rumelhart)와 제임스 맥클레랜드(James McClelland)가 쓴 교과서는 (1986) 연결주의를 이용해 신경 처리를 컴퓨터에서 모의 실험하기 위한 모든 것을 설명하였다.
인공신경망이 어느정도 뇌의 기능을 반영하는지 불분명하기 때문에 뇌 신경 처리의 간단한 모델과 뇌 생물학적 구조간의 상관관계에 대해 논란 중에 있으나 인공지능에서 사용되는 신경망은 전통적으로 뇌 신경 처리의 간단한 모델로 간주된다.
인공신경망은 SVM과 같은 다른 기계학습 방법들의 인기를 점차적으로 추월하고 있다. 2000년대 이후 딥 러닝의 출현이후 신경 집합의 새로운 관심은 다시 조명받고 있다.
2006년 이후 발전 동향
생물물리학 모의실험 그리고 뇌신경학 컴퓨팅을 위한 계산학 디바이스들은 CMOS를 통해 만들어졌다. 최근에는 큰 범위의 기본 요소들의 분석과 합성을 위한 나노 디바이스 제작과 같은 노력들이 있다. 만약 성공한다면 이러한 노력은 디지털 컴퓨팅을 뛰어넘는 신경 컴퓨팅의 새로운 시대를 도래하게 할 것이다. 왜냐하면 이것은 프로그래밍 보다는 학습에 기반하며 비록 첫 예시가 CMOS 디지털 디바이스와의 합작일지라도 이것은 기본적으로 디지털보다 아날로그이기 때문이다.
2009년부터 2012년동안 스위스 AI 연구실 IDSIA에서 위르겐 슈밋흠바(Jürgen Schmidhuber)의 연구 그룹이 개발한 재귀 신경망과 심화 피드포워드 신경망은 여덞 번의 패턴 인식과 기계학습 국제 대회에서 우승하였다. 예를 들면, 알렉스 그레이브스(Alex Graves et al)의 쌍방향 그리고 다중 차원의 장단기 기억(LSTM)은 2009년의 국제문서 분석 및 인식 컨퍼런스(ICDAR)의 필기 인식 부분에서 학습하게 될 세 가지 언어에 대한 아무런 사전 정보가 주어지지 않았음에도 불구하고 세 번이나 우승하였다.
IDSIA의 댄 크리슨(Dan Ciresan)과 그 동료들에 의한 빠른 GPU 기반 실행 접근 방법은 IJCNN 2011 교통 표지판 인식 대회, ISBI 2012 신경 구조의 분할의 전자 현미경 대회를 비롯하여 여러 패턴 인식 경연에서 여러 번 우승하였다.[19] 그들의 신경망은 또한 처음으로 교통 표지판(IJCNN 2012) 또는 MINIST 필기 인식 분야에서 인간과 견줄만한 또는 인간을 넘어서는 인공 패턴 인식이다.
심화 비선형 신경 아키텍처는 1980년 후쿠시마 구니히코(Kunihiko Fukushima)의 신인식기(neocognitron)와 비슷하다. 그리고 일차 시각 피질에서 데이비드 허블(David H. Hubel)과 토르스텐 비셀(Torsten Wissel)에 의해 밝혀진 간단하고 복잡한 세포들에 영감을 받은 표준 비전 아키텍처는 토론토대학의 조프 힌턴(Geoff Hinton) 연구실의 자율학습 방법에 의해 미리 훈련된다. 해당 연구실의 팀은 2012년 베르크(Berck)의 후원을 받는 신약 개발에 필요한 분자들을 찾는데 도움을 주는 소프트웨어 제작 대회에서 우승하였다.인공 신경망은 노드들의 그룹으로 연결되어 있으며 이들은 뇌의 방대한 뉴런의 네트워크와 유사하다. 위 그림에서 각 원모양의 노드는 인공 뉴런을 나타내고 화살표는 하나의 뉴런의 출력에서 다른 하나의 뉴런으로의 입력을 나타낸다.
인공신경망에 대한 논란
학습 문제
인공신경망 중에서도 로보틱스 분야는 많은 비평가들에게 비판을 받는다. 왜냐하면 실제 상황에 정확히 부합하는 작동을 학습하기 위해 수많은 경우에 대한 엄청난 다양성을 가진 자료의 수집을 필요로 하기 때문이다. 하지만 이것은 그리 놀랄 일이 아니다. 어떠한 학습 기계(Learning machine)라도 여러 가지 새로운 케이스에 정확히 동작하는 근본적인 구조를 잡기위해 수 많은 훈련 예시들을 필요로 하기 때문이다. 딘 포말리우(Dean Pomerleau)의 최근 논문 “자동 로봇 운전을 위한 인공신경망의 지식기반 학습 방법”에서는 여러 가지 종류의 길을 갈 수 있는 로봇 자동차를 훈련하기 위해 인공신경망이 사용된다. 그의 연구의 대부분은 하나의 학습 경험으로부터 여러개의 학습 시나리오를 추정하는 것과 과거 학습의 다양성을 유지하여 시스템이 과도하게 학습하는 것을 막는 것, 이 두가지에 기울여져 있다.(예를 들어, 이 연구에서는 과거에 학습된 우회전을 잊지 않고, 비슷한 상황에서 언제나 우회전을 하게 학습하는 것을 막게 할 수 있다.) 실제 상황의 넓고 다양한 반응에 대해서 어떤 것을 훈련하고 선택할 것인지와 같은 문제는 인공신경망에서는 상당히 일반적이다.
미국인 과학 칼럼니스트 알렉산더 듀드니(A. K. Dewdney)는 1997년 쓴 글에서, "비록 신경망이 매우 적은 장난감과 같은 문제를 풀지라도, 그 계산 능력은 일반적인 문제 해결 기법들을 가뿐히 뛰어넘을 정도의 수준을 가질 수 있다." 라고 적었다.
하드웨어 문제
크고 효과적인 인공신경망 소프트웨어를 구현하기 위해서는 상당한 프로세싱 기법과 저장 자원이 필요하다. 우리의 뇌는 신경 그래프를 통한 신경전달 프로세싱 임무에 최적화된 하드웨어를 가지고 있다. 우리가 가장 간단하게 시뮬레이션 할 수 있는 폰 노이만 기술 조차도 신경망 디자이너로 하여금 뇌와 같은 신경 그래프를 구축하기 위해 수백, 수천만 개의 데이터베이스 행을 채우도록 하고 있다. 이는 엄청난 양의 컴퓨터 메모리와 하드디스크 공간을 소비하게 한다. 게다가, 신경망 시스템의 디자이너는 이런 엄청난 신경 연결과 뉴런들을 통해 뇌와 같은 신호 전달을 시뮬레이션 할 수 있어야 한다. 이것은 일반적인 CPU의 처리능력과 시간으로는 불가능한 양일 정도이다. 하지만, 신경망은 가끔 효과적인 프로그램을 만들어 낼 수 있게 해주고 비용적 측면에서도 효율적이고 고려할만한 정도의 효과를 내 줄 때가 있다. 게다가 컴퓨터의 계산능력은 무어의 법칙에 따라 지속적으로 크게 증가하고 있으며, 이는 새로운 임무를 효과적으로 달성하는데 기여하고 있다. 또한 신경모방 공학에서는 처음부터 신경망을 구현하기 위해 설계된 회로(비 폰 - 노이만 칩)를 구성하여, 직접적으로 하드웨어적 어려움을 해결하기 위해 노력하고 있다.
실제 반례에 대한 비판
알렉산더 듀드니(A.K.Dewdney)의 또다른 주장은 신경망은 비행기의 자동운전모드 또는 신용카드 사기 탐지 같은 여러 가지 복잡하고 다양한 문제를 효과적이고 성공적으로 해결해왔다는 것이다.
하지만, 기술 집필자 로저 브리드만(Roger Bridgman)은 듀드니의 신경망에 대한 주장에 대해 이러한 말을 남겼다.
"신경망은 예를 들면, 그것은 더 높은 목적을 달성할 수 있다고 과장된 광고를 하고 있을 뿐만 아니라 이것이 어떻게 동작하는지 이해도 하지 않고도 성공적인 네트워크를 만들어 낼 수 있다고 말하는데, 이것은 불투명하고 이해할 수 없는 것일 뿐만 아니라 과학적 측면에서 가치가 없는 것이다."
그의 이러한 과학(인공신경망)은 기술이 아니라는 강한 발표에도, 듀드니는 "이것은 단지 남들이 보는 앞에서 그들이 이것을 이해하지 못하더라도 훌륭한 기술자들인 것처럼 보이기 위해 신경망을 안 좋은 학문이라고 비판하는 것"이라고 했다. 불투명하고 이해할 수 없는 것이라도 유용한 기계가 될 수있다면 그것은 여전히 우리에게 가치있는 것이고 필요한 것일 것이다.
비록 인공 신경망을 배우고 이해하고 분석하는 것이 매우 힘든 일이라는 것은 사실이지만, 실제 생물에서의 신경망을 배우고 이해하여 분석해서 적용하는 것보다는 훨씬 쉬운 일일 것이다. 게다가, 신경망을 구현하는 학습 알고리즘을 연구하는 연구자들은 점진적으로 기계학습을 성공적으로 하게 할 수 있는 신경 유전적 원리를 발견해 내는데 성공하고 있다. 예를 들어, 벤지오(Bengio)와 레쿤(LeCun)이 2007년에 쓴 논문에서는, 지역 vs 비지역 학습(local vs non-local learning)과 얕은 vs 깊은 구조(shallow vs deep architecture)에 대해서 다루고 있다.
혼합적 접근
일부 다른 분석가들은 신경망과 다른 분야에 대한 혼합적 모델을 지지한다.(예를 들면 기호적 접근과 인공신경망의 결합) 이러한 두 가지 접근방식의 내부 혼합은 사람의 내적 동작에 대한 메커니즘을 조금 더 잘 잡아 낼 수 있을 것이라 생각하기 때문이다.반응형'인터넷시대와 4차산업' 카테고리의 다른 글
퍼셉트론(Perceptron) (0) 2023.05.03 인공지능 기술의 실용적인 응용 (2) 2023.05.03 알파고(AlphaGo) (0) 2023.05.02 빅 데이터(Big Data)-1 (2) 2023.05.02 빅 데이터(Big Data) 플렛폼 (0) 2023.05.02