[신문기사] 인공지능과 딥러닝 빅데이터 안고 부활하다
2015.03.27 14:23
[딥러닝①] 인공지능과 딥러닝 빅데이터 안고 부활하다
왜 딥러닝인가
머니투데이 테크엠 편집부 |입력 : 2015.03.07 06:00
최근 수많은 기술 전문지 등 언론에서 끊임없이 인공지능 시대의 급부상을 이야기하고 있다. 동시에 엘론 머스크, 빌 게이츠, 스티브 호킹과 같은 몇몇 전문가와 학자의 우려 섞인 전망도 나오고 있다. 왜 이런 이야기가 쏟아져 나오는 것일까?
인공지능 분야는 1956년 존 매카시, 마빈 민스키, 나다니엘 로체스터, 클로드 샤논 같은 당시 최고의 정보과학자들이 다트머스대학에 모여 창시했다. 이후 이 분야는 수많은 혁신과 좌절, 새로운 도전이 반복적으로 이뤄진 인간 지성의 도전 영역이다.
물론 지능에 대한 연구와 추론 및 논증 능력에 대한 철학적 접근, 다양한 자동화기기 발명은 인간 문명과 함께 한 오래된 영역이다. 하지만 우리가 이야기하는 인공지능은 컴퓨터 시대에 들어오면서 컴퓨터 과학자의 본격적 연구대상이 됐다고 볼 수 있다. 1950년 앨런 튜링이 ‘기계가 생각할 수 있는가?’라는 도발적 질문을 던진 ‘컴퓨팅 기계와 지능’ 논문은 이후 지능을 갖는 기계에 대한 기초적 사유를 제시했다.
가장 유명한 ‘튜링 테스트’라는 이미테이션 게임은 이후 지능을 가진 개체를 판단하는 가장 기초적인 기준으로 제시되기도 했다. 그러나 1956년의 학회가 인공지능의 효시로 불리는 것은 당시 ‘학습과 기타 다른 지능의 특징을 기계가 시뮬레이션 할 수 있을 것이다’라는 선언에서 비롯한다. 인공지능으로 명명한 연구분야가 시작된 것이다.
인공지능, 혁신·좌절·재도전의 역사
1970년대까지 학자들은 검색을 통한 추론, 자연어 분석, 마이크로 세계에 대한 모델링을 통해 매우 긍정적 전망을 했다. 그러나 문제를 너무 쉽게 생각했다는 현실에 부딪치면서 첫 번째 인공지능의 겨울을 맞이했고, 모든 연구 지원이 끊겨 버렸다. 다시 1980년대에 들어오면서 인간의 지식을 여러 방식으로 저장하고 이를 기반으로 하는 논리적 추론기능을 첨가하면서 새로운 방식의 인공지능 접근이 이뤄졌다. 그럼에도 불구하고, 대부분의 노력이 난관에 부딪쳤고, 영국과 미국 등에서 투입한 막대한 자금도 더 이상 지속하지 못하면서 1990년대 초까지 다시 제2의 인공지능의 겨울이 찾아왔다.
1990년대까지 인공지능 접근방식은 인간의 지식을 저장하고 이를 추론하는 것은 하향식으로 지능을 구현하는 방식이다. 그러나 우리는 어떤 지식을 다양한 경험과 데이터를 통한 학습과정으로 축적하는 경우가 많다. 이런 문제를 접근하는 것이 ‘머신러닝’이다. 머신러닝은 결정 트리, 클러스터링, 베이지안 네트워크, 연관 규칙, 귀납적 논리 계획법, 유전 알고리즘 등 다양한 방식이 개발돼 왔다.
학습을 위한 또 다른 접근방식으로 ‘인공 뉴럴 네트워크(ANN)’라고 부르는 연결주의적 접근이 부침을 거듭하면서 성장했다. ANN의 발상은 인간의 신경망 구조를 모방하면서 입력으로 들어오는 정보를 각각의 입력 노드에 배정하고, 이들을 주어진 함수를 표현하는 네트워크로 출력 노드를 통해 결과를 얻어낸다는 아이디어에서 출발했다. 1958년 프랭크 로젠블라트의 퍼셉트론이 등장하면서 주목을 받았다. 퍼셉트론은 학습과 의사결정을 하며, 언어를 번역할 수 있을 것이라고 기대를 모았다. 그러나 1969년 마빈 민스키와 세이무어 페퍼트가 펴낸 ‘퍼셉트론’이라는 책에서 퍼셉트론의 한계가 비판받으면서 이후 10년 간 이런 방식의 연결주의적 연구는 중단됐다.
그러나 1980년 쿠니히코 후쿠시마의 네오코그니트론, 1982년 존 홉필드, 데이비드 러멜하트 등에 의해 새로운 유형의 뉴럴 네트워크가 제안되면서 다시 연구 집단의 관심을 받기 시작했다. 특히 오류역전파 알고리즘(Back Propagation)을 통한 학습기법이 효과적인 결과를 보이면서 일부 연구자들은 의욕적으로 이 분야에 매달렸다.
이런 뉴럴 네트워크를 학습의 주요 방식으로 사용하는 것을 ‘딥러닝(Deep Learning)’이라고 부른다. 뉴럴 네트워크를 다층 구조로 구성하면서 입력층과 출력층 사이에 하나 이상의 숨겨진 층을 갖고 이를 딥 뉴럴 네트워크(DNN, 심층 신경망)이라고 부르기 시작했기 때문이다.
예를 들어 손으로 쓴 글자를 인식하는 뉴럴 네트워크라면 입력한 글자에 대한 이미지를 나눠 각각의 단위 이미지를 입력 노드에 적용하고, 노드가 활성화되면서 그 값이 어떤 가중치를 갖고 다음 단계의 노드에 전달된다. 두 번째 단계의 노드 역시 여러 개의 입력된 값에 의해 활성화 여부가 결정되며, 다시 다음 단계의 노드에 영향을 준다. 이런 단계를 거쳐 최종 출력 노드가 활성화되는지 결정된다. 뉴럴 네트워크의 행위나 특성은 사실 각 연결 링크에 부여된 수정 가능한 가중치에 의해 결정된다고 볼 수 있다.
<그림> 두 개의 히든 계층을 갖는 4 계층 뉴럴 네트워크
의 출력 노드가 A라는 글자에 활성화되는 것이라고 하면, 이 뉴럴 네트워크는 A를 인지하는 능력을 가질 수 있는 것이다. A라고 확인된 다양한 이미지를 활용해 네트워크의 여러 값을 조정하는 과정을 학습이라고 부르며, (엄밀하게 말하면 가르치는 지도학습) 학습된 뉴럴 네트워크는 그 다음에 주어지는 임의의 이미지를 갖고 A인지 아닌지를 판별하게 되는 것이다. 알파벳을 인식하는 뉴럴 네트워크라면 26개의 출력 노드를 갖는다고 생각할 수 있다.
딥러닝 모델로는 고전적인 콘볼루셔날, 오류 역전파, 볼츠만 머신 네트워크, 서포트 벡터 머신(SVM) 등의 초기 모델에서 2000년 이후에 등장한, 제한된 볼츠만 머신(RBM)이나 리커런트 뉴럴 네트워크(RNN), 드롭아웃(DROPOUT) 같은 매우 다양한 알고리즘이 있다.
2004년 학계에 큰 변화가 일어났는데, 그 중심에는 토론토대학의 제프리 힌튼 교수가 있었다. 2004년 캐나다 첨단 연구소(CIFAR)에서 50만 달러 정도의 적은 펀딩을 제공하자 제프리 힌튼 교수는 뉴럴 컴퓨테이션과 어댑티브 퍼셉션(NCAP) 프로그램을 만들어 컴퓨터 과학자, 생물학자, 전기공학자, 뇌과학자, 물리학자, 심리학자를 초대했다.
힌튼 교수는 1984년에 볼츠만 머신을 제안한 인공신경망 연구의 선구자이며, 2012년에는 그의 제자들이 다국적 제약사인 머크에서 주최한 신약 발견 경진대회에서 우승을 차지하기도 했다. NCAP에는 뉴욕대 얀 레쿤과 몬트리올대학 요수아 벤지오 등이 참여했다.
2000년대를 넘어서면서 딥러닝 방식은 이미지 인식과 음성인식에 큰 성과를 나타내기 시작했다. 특히 정보처리를 위한 빠른 프로세서의 값이 싸지면서 구성할 수 있는 노드 수가 늘어나고, 수많은 실제 데이터를 얻을 수 있는 상황이 만들어지면서 빅데이터를 통한 학습이 성과를 보이기 시작했다. 2009년에 들어와서는 지도학습 방식의 딥러닝 알고리즘이 대부분의 패턴인식 경쟁에서 기존 방식을 능가하기 시작했다.
2011년 NCAP 연구자 중 하나인 스탠포드대 교수 앤드류 응은 구글 안에 딥 러닝 프로젝트를 구성했고, 음성인식과 구글 플러스의 사진 태깅에 딥러닝 기술을 활용하기 시작했다. 이 연구 그룹은 2012년 1만 6000개의 컴퓨터 프로세서로 10억 개 이상의 연결을 갖는 뉴럴 네트워크를 이용한 자율학습 방식의 딥러닝 기술을 적용해 유튜브 안에 있는 1000만 개의 이미지 중에서 고양이를 알아낸 결과로 언론의 주목을 받았다.
글로벌 IT기업, 딥러닝 투자 박차
구글은 2013년 3월 제프리 힌튼 교수를 영입했다. 이를 위해 구글은 힌튼 교수의 회사 DNN리서치를 인수했으며, 토론토대학의 다른 연구자들도 같이 끌어들였다. 구글은 이후 구글 나우의 음성인식, 유튜브 추천, 이미지 물체에 대한 자동 태깅 등 다양한 영역에서 딥러닝 기술을 이용하고 있다. 페이스북 역시 인공지능과 딥러닝에 대한 본격적인 투자를 하기 시작했다. 2013년 12월 페이스북은 얀 레쿤 교수를 영입해 새로 만든 인공지능 랩을 끌고 나가도록 했다. 그의 팀은 딥 페이스 기술을 발표했는데, 인간과 유사한 97.25% 정확도로 다양한 각도나 조명에서도 사람 얼굴을 인식할 수 있는 기술을 선보였다.
구글 브레인 프로젝트를 주도하던 앤드류 응 교수는 이후 중국 검색 서비스 회사인 바이두와 조인해 바이두의 인공지능 연구를 이끌게 됐다. 트위터 역시 매드비츠라는 딥러닝 회사를 인수해 사진 이미지 분석기술을 확보하고자 했다.
마이크로소프트(MS) 또한 다양한 내부 프로젝트와 서비스를 통해 인공지능 기술을 선보이고 있다. 이미지 내 물체 인식을 하는 아담 프로젝트, 음성인식의 코타나, 스카이프에서 선보인 동시통역기술 등이 대표적 사례다. MS 리서치를 끌고 가는 에릭 호비츠도 대표적인 인물로 손꼽히고 있다.
딥러닝에서는 대기업이 아닌 전문기업도 주목을 받고 있다. 대표적인 전문기업인 딥 마인드는 구글에 4억 달러에 인수됐고, 비카리어스는 마크 저커버그나 피터 틸, 제프 베조스 같은 유명인의 투자를 받으며 2013년 캡차 기술을 딥러닝으로 풀어낸 결과를 발표했다.
클러리파이 역시 비디오 영상 속의 객체를 인식하는 기술을 가진 주목할 만한 회사다. 딥 마인드는 최근 인지적 영역이 아닌, 단기 기억을 저장할 수 있는 뉴럴 튜링 머신기술을 제시함으로써 다시 한 번 많은 학자의 관심을 끌고 있다.
인공지능은 1990년대를 넘어서면서 기존의 접근방식으로도 뛰어난 성과를 보일 수 있음을 증명하기 시작했다. IBM의 ‘딥 블루’가 대표적이다. 1997년 5월 11일 체스 세계 챔피언 개리 카스파로프를 이겼고, 2011년 2월 왓슨으로 부르는 질의응답 시스템이 제퍼디 퀴즈쇼에서 최고의 퀴즈 챔피언인 브래드 루터와 켄 제닝스를 물리쳤다. 왓슨의 기술은 확률 통계적 방식, 검색기술, 자연어 처리, 기계학습 등의 고전적 방식과 일부 딥러닝 기술을 활용했다.
IBM의 왓슨이 제퍼디 퀴즈쇼에서 우승하는 장면
이후 IBM은 왓슨을 업그레이드 하고 10억 달러를 투자하면서, 이를 기반으로 하는 인지 컴퓨팅 사업을 적극 추진하고 있다. 여러 병원에 암 환자 치료를 위한 의사 보조 시스템으로 활용하며 새로운 요리법을 발견하고, 중역회의에서 주요 의사결정을 지원하는 용도로 사용할 수 있음을 제시하고 있다. 최근 IBM은 왓슨을 이용해 이메일을 더 잘 정리할 수 있는 새로운 메시징 소프트웨어(SW) ‘버스(Verse)’를 선보일 예정이라고 발표했다.
나아가 이를 하나의 엔진으로 API를 제공함으로써, 이를 기반으로 하는 새로운 앱 생태계를 만들기 위해 1억 달러를 지원하는 등 많은 창업자와 SW 개발회사의 관심을 이끌어 내고 있다. 이는 주디아 펄, 알렌 뉴웰 등에 의해 확률과 의사결정 이론, 경제학 이론, 통계 방식을 적극적으로 인공지능 분야에 도입한 결과다.
인공지능은 이밖에도 자율운행 무인자동차, 공장 자동화 로봇, 소프트뱅크의 ‘페퍼’나 MIT의 신시아 브리질이 개발한 ‘지보(JIBO)’ 같은 소셜 로봇, 인간 감정을 이해하고자 하는 다양한 사물인터넷 기기 등에서 그 활용영역을 넓히고 있다.
2040년경 인간 수준 지능 구현
그렇다면 언제쯤 인간과 같은 수준의 지능을 구현할 수 있을까? 옥스포드대학의 철학자이자 인류미래연구소장인 닉 보스트롬이 전 세계의 인공지능 전문가를 대상으로 조사한 결과는 50% 정도의 기회를 갖는 시점이 2040~2050년이라는 중간 값이 나왔다고 한다. 지난 1월 생명의미래연구소에서 개최한 ‘인공지능의 미래: 기회와 도전’이라는 컨퍼런스에 참석한 학자들이 ‘인공지능이 모든 중요한 인지능력을 인간만큼 갖출 수 있는가’에 대해 투표한 결과, 주요 학자들 역시 30년에서 60년 이상 걸린다고 응답했다. 이번 투표에서는 300년이 지나도 불가능하다고 답한 사람도 5명 있었다.
그런데 왜 엘론 머스크, 빌 게이츠, 스티브 호킹, 닉 보스트롬 같은 리더들이 인공지능의 위험성에 대해서 경고하는 것일까? 이는 일단 인공지능이 인간 지능을 넘어서는 수준에 도달하면, 그 다음부터는 인간이 생물학적으로 진화하는데 오랜 시간이 걸리지만, 기술을 통한 진화는 너무나 급속도로 이뤄져 우리가 제어할 수 없는 상태가 될 수 있다는 우려 때문이다.
그런데 인공지능이 사람 수준의 지능을 갖는다는 것은 무슨 의미일까? 이 문제는 결국 강한 인공지능과 약한 인공지능을 구별하게 하는 입장 차이를 가져온다. 강한 인공지능은 인간이 갖고 있는 의식 수준을 기계가 갖추는 것을 의미하며, 이는 결국 ‘생각을 갖는다는 것은 무엇인가’라는 철학적이면서 뇌과학적 문제로 귀결된다. 반면에 약한 인공지능은 인간 지능의 본질적 특성과 관련 없이 특정 영역에 집중해 지능을 시뮬레이션함으로써 사람들이 진짜 지능인지 아닌지 구별할 필요가 없이 프로그램이 성과를 보이면 된다는 입장이다. 아직까지 대부분의 연구성과는 약한 인공지능의 결과라고 생각할 수 있다.
지능을 ‘세상에 대한 모델을 만들고 그에 따라 행동하는 것’으로 단순 정의한다면, 직관적 인지분야 능력으로 지능을 말할 수 있다. 그러나 깊이 있는 숙고를 통한 의식을 기반으로 지능을 규정하고자 한다면 이 문제는 매우 복잡하고 어렵다.
인공지능이 촉발할 사회적 변화 논의해야
1980년 미국의 철학자 존 썰은 논문 ‘마인드, 브레인, 프로그램’을 통해 유명한 ‘차이니스 룸 논쟁’을 제안했다. 이 논쟁에서는 한 방에 사람 A가 있고 또 다른 방에 다른 사람 B가 있다고 가정한다. A는 중국어로 만들어진 문장을 다른 방에 있는 B에게 제시한다. B는 중국어를 전혀 이해하지 못하지만 중국어를 처리하는 프로그램을 갖고 있다. B는 A가 제시한 문장에 대해 프로그램을 통해 중국어로 이뤄진 대답을 제시한다. 그 프로그램은 중국어를 이해하거나 의미를 해석하지 못하고, 단지 구문 분석적으로 심볼을 바꾸고 숫자를 바꿀 뿐이다. 그럴 경우 B가 중국어 대답을 한다고 해도 B가 중국어에 대한 이해와 의미를 파악한 것이라고 말할 수 없다는 주장이다.
이는 매우 중요한 의식의 이론, 언어와 마음에 대한 철학, 그리고 자의식과 마음 이론의 논쟁을 불러 왔다. 사실 인간이 다른 동물과 차별적으로 갖고 있는 의식의 차원에서 가장 두드러진 것이 바로 ‘마음 이론’이라 말할 수 있다. 이는 다른 사람이 어떤 마음을 갖고 있는지를 알 수 있으며, 그 결과 내가 다시 어떤 마음으로 그 상태를 해석할 수 있는지를 알 수 있음을 얘기한다.
보통 우리는 4단계 정도를 쉽게 이해하며 복잡한 수준의 작가는 6단계까지 묘사하기도 한다. 예를 들어 (1)독자는 내가 내용을 좀 더 쉽게 썼으면 하고 (2)나도 그러길 바란다는 것을 (3)내가 알고 있다는 것을 (4)독자가 안다는 것을 내가 안다. 이런 생각을 하는 컴퓨터 프로그램을 만든다는 것이 얼마나 어려운 일인가를 알 수 있을 것이다.
인공지능 분야의 발전은 단지 프로그램과 기술, 이론의 발전으로만 이뤄내고 있지 않다. 때로는 디지털 네트워크로 연결된 사람들의 참여를 활용하기도 하고, 향상된 칩 기술을 이용한다. 구글의 번역은 사람들이 이뤄낸 다양한 고급 번역을 활용하고 있으며, 최근 IBM, 인텔, 퀄컴 등은 인간 뇌를 모방하는 뉴로모픽 칩 개발에 매우 적극적이다.
인간의 뇌는 단지 20W 수준의 에너지를 사용하면서 놀라운 인지능력을 발휘하고 있기 때문에 뉴런 구조를 모방하고 적은 에너지를 사용하는 칩을 만들어내는 것 역시 인공지능 발전에 매우 중요한 요소다. 또 사물인터넷 기기의 핵심 칩이 될 것으로 보인다. IBM은 최근 100만 개의 뉴런과 2억 5600만 개의 시냅스를 모방하는 칩을 만들어 내기도 했다. 이런 연구의 핵심은 쉽게 학습을 수행하고, 특징을 찾아내 분류하며, 매우 뛰어난 추론을 실행하는 우리 뇌의 특성을 어떻게 컴퓨팅 모델로 만들어 낼 것인가 하는 것이다. 이에는 뇌과학을 통한 최근의 많은 연구성과가 도움이 될 수 있을 것이다.
동시에 인공지능 기술로 인한 사회적 변화에 대한 논의와 준비가 함께 이뤄져야 한다. 직업의 소멸, 새로운 지능형 존재와 함께 하는 사회 시스템, 프로그램이 갖춰야 하는 계산적 윤리 모델, 법률적 기반 등에 대한 논의를 지금부터 시작하지 않으면 약한 인공지능이 실현되는 가까운 미래에도 수많은 위협적 요인이 존재할 수 있을 것이다.
한상기 소셜컴퓨팅연구소 대표
왜 딥러닝인가
머니투데이 테크엠 편집부 |입력 : 2015.03.07 06:00
최근 수많은 기술 전문지 등 언론에서 끊임없이 인공지능 시대의 급부상을 이야기하고 있다. 동시에 엘론 머스크, 빌 게이츠, 스티브 호킹과 같은 몇몇 전문가와 학자의 우려 섞인 전망도 나오고 있다. 왜 이런 이야기가 쏟아져 나오는 것일까?
인공지능 분야는 1956년 존 매카시, 마빈 민스키, 나다니엘 로체스터, 클로드 샤논 같은 당시 최고의 정보과학자들이 다트머스대학에 모여 창시했다. 이후 이 분야는 수많은 혁신과 좌절, 새로운 도전이 반복적으로 이뤄진 인간 지성의 도전 영역이다.
물론 지능에 대한 연구와 추론 및 논증 능력에 대한 철학적 접근, 다양한 자동화기기 발명은 인간 문명과 함께 한 오래된 영역이다. 하지만 우리가 이야기하는 인공지능은 컴퓨터 시대에 들어오면서 컴퓨터 과학자의 본격적 연구대상이 됐다고 볼 수 있다. 1950년 앨런 튜링이 ‘기계가 생각할 수 있는가?’라는 도발적 질문을 던진 ‘컴퓨팅 기계와 지능’ 논문은 이후 지능을 갖는 기계에 대한 기초적 사유를 제시했다.
가장 유명한 ‘튜링 테스트’라는 이미테이션 게임은 이후 지능을 가진 개체를 판단하는 가장 기초적인 기준으로 제시되기도 했다. 그러나 1956년의 학회가 인공지능의 효시로 불리는 것은 당시 ‘학습과 기타 다른 지능의 특징을 기계가 시뮬레이션 할 수 있을 것이다’라는 선언에서 비롯한다. 인공지능으로 명명한 연구분야가 시작된 것이다.
인공지능, 혁신·좌절·재도전의 역사
1970년대까지 학자들은 검색을 통한 추론, 자연어 분석, 마이크로 세계에 대한 모델링을 통해 매우 긍정적 전망을 했다. 그러나 문제를 너무 쉽게 생각했다는 현실에 부딪치면서 첫 번째 인공지능의 겨울을 맞이했고, 모든 연구 지원이 끊겨 버렸다. 다시 1980년대에 들어오면서 인간의 지식을 여러 방식으로 저장하고 이를 기반으로 하는 논리적 추론기능을 첨가하면서 새로운 방식의 인공지능 접근이 이뤄졌다. 그럼에도 불구하고, 대부분의 노력이 난관에 부딪쳤고, 영국과 미국 등에서 투입한 막대한 자금도 더 이상 지속하지 못하면서 1990년대 초까지 다시 제2의 인공지능의 겨울이 찾아왔다.
1990년대까지 인공지능 접근방식은 인간의 지식을 저장하고 이를 추론하는 것은 하향식으로 지능을 구현하는 방식이다. 그러나 우리는 어떤 지식을 다양한 경험과 데이터를 통한 학습과정으로 축적하는 경우가 많다. 이런 문제를 접근하는 것이 ‘머신러닝’이다. 머신러닝은 결정 트리, 클러스터링, 베이지안 네트워크, 연관 규칙, 귀납적 논리 계획법, 유전 알고리즘 등 다양한 방식이 개발돼 왔다.
학습을 위한 또 다른 접근방식으로 ‘인공 뉴럴 네트워크(ANN)’라고 부르는 연결주의적 접근이 부침을 거듭하면서 성장했다. ANN의 발상은 인간의 신경망 구조를 모방하면서 입력으로 들어오는 정보를 각각의 입력 노드에 배정하고, 이들을 주어진 함수를 표현하는 네트워크로 출력 노드를 통해 결과를 얻어낸다는 아이디어에서 출발했다. 1958년 프랭크 로젠블라트의 퍼셉트론이 등장하면서 주목을 받았다. 퍼셉트론은 학습과 의사결정을 하며, 언어를 번역할 수 있을 것이라고 기대를 모았다. 그러나 1969년 마빈 민스키와 세이무어 페퍼트가 펴낸 ‘퍼셉트론’이라는 책에서 퍼셉트론의 한계가 비판받으면서 이후 10년 간 이런 방식의 연결주의적 연구는 중단됐다.
그러나 1980년 쿠니히코 후쿠시마의 네오코그니트론, 1982년 존 홉필드, 데이비드 러멜하트 등에 의해 새로운 유형의 뉴럴 네트워크가 제안되면서 다시 연구 집단의 관심을 받기 시작했다. 특히 오류역전파 알고리즘(Back Propagation)을 통한 학습기법이 효과적인 결과를 보이면서 일부 연구자들은 의욕적으로 이 분야에 매달렸다.
이런 뉴럴 네트워크를 학습의 주요 방식으로 사용하는 것을 ‘딥러닝(Deep Learning)’이라고 부른다. 뉴럴 네트워크를 다층 구조로 구성하면서 입력층과 출력층 사이에 하나 이상의 숨겨진 층을 갖고 이를 딥 뉴럴 네트워크(DNN, 심층 신경망)이라고 부르기 시작했기 때문이다.
예를 들어 손으로 쓴 글자를 인식하는 뉴럴 네트워크라면 입력한 글자에 대한 이미지를 나눠 각각의 단위 이미지를 입력 노드에 적용하고, 노드가 활성화되면서 그 값이 어떤 가중치를 갖고 다음 단계의 노드에 전달된다. 두 번째 단계의 노드 역시 여러 개의 입력된 값에 의해 활성화 여부가 결정되며, 다시 다음 단계의 노드에 영향을 준다. 이런 단계를 거쳐 최종 출력 노드가 활성화되는지 결정된다. 뉴럴 네트워크의 행위나 특성은 사실 각 연결 링크에 부여된 수정 가능한 가중치에 의해 결정된다고 볼 수 있다.
<그림> 두 개의 히든 계층을 갖는 4 계층 뉴럴 네트워크
의 출력 노드가 A라는 글자에 활성화되는 것이라고 하면, 이 뉴럴 네트워크는 A를 인지하는 능력을 가질 수 있는 것이다. A라고 확인된 다양한 이미지를 활용해 네트워크의 여러 값을 조정하는 과정을 학습이라고 부르며, (엄밀하게 말하면 가르치는 지도학습) 학습된 뉴럴 네트워크는 그 다음에 주어지는 임의의 이미지를 갖고 A인지 아닌지를 판별하게 되는 것이다. 알파벳을 인식하는 뉴럴 네트워크라면 26개의 출력 노드를 갖는다고 생각할 수 있다.
딥러닝 모델로는 고전적인 콘볼루셔날, 오류 역전파, 볼츠만 머신 네트워크, 서포트 벡터 머신(SVM) 등의 초기 모델에서 2000년 이후에 등장한, 제한된 볼츠만 머신(RBM)이나 리커런트 뉴럴 네트워크(RNN), 드롭아웃(DROPOUT) 같은 매우 다양한 알고리즘이 있다.
2004년 학계에 큰 변화가 일어났는데, 그 중심에는 토론토대학의 제프리 힌튼 교수가 있었다. 2004년 캐나다 첨단 연구소(CIFAR)에서 50만 달러 정도의 적은 펀딩을 제공하자 제프리 힌튼 교수는 뉴럴 컴퓨테이션과 어댑티브 퍼셉션(NCAP) 프로그램을 만들어 컴퓨터 과학자, 생물학자, 전기공학자, 뇌과학자, 물리학자, 심리학자를 초대했다.
힌튼 교수는 1984년에 볼츠만 머신을 제안한 인공신경망 연구의 선구자이며, 2012년에는 그의 제자들이 다국적 제약사인 머크에서 주최한 신약 발견 경진대회에서 우승을 차지하기도 했다. NCAP에는 뉴욕대 얀 레쿤과 몬트리올대학 요수아 벤지오 등이 참여했다.
2000년대를 넘어서면서 딥러닝 방식은 이미지 인식과 음성인식에 큰 성과를 나타내기 시작했다. 특히 정보처리를 위한 빠른 프로세서의 값이 싸지면서 구성할 수 있는 노드 수가 늘어나고, 수많은 실제 데이터를 얻을 수 있는 상황이 만들어지면서 빅데이터를 통한 학습이 성과를 보이기 시작했다. 2009년에 들어와서는 지도학습 방식의 딥러닝 알고리즘이 대부분의 패턴인식 경쟁에서 기존 방식을 능가하기 시작했다.
2011년 NCAP 연구자 중 하나인 스탠포드대 교수 앤드류 응은 구글 안에 딥 러닝 프로젝트를 구성했고, 음성인식과 구글 플러스의 사진 태깅에 딥러닝 기술을 활용하기 시작했다. 이 연구 그룹은 2012년 1만 6000개의 컴퓨터 프로세서로 10억 개 이상의 연결을 갖는 뉴럴 네트워크를 이용한 자율학습 방식의 딥러닝 기술을 적용해 유튜브 안에 있는 1000만 개의 이미지 중에서 고양이를 알아낸 결과로 언론의 주목을 받았다.
글로벌 IT기업, 딥러닝 투자 박차
구글은 2013년 3월 제프리 힌튼 교수를 영입했다. 이를 위해 구글은 힌튼 교수의 회사 DNN리서치를 인수했으며, 토론토대학의 다른 연구자들도 같이 끌어들였다. 구글은 이후 구글 나우의 음성인식, 유튜브 추천, 이미지 물체에 대한 자동 태깅 등 다양한 영역에서 딥러닝 기술을 이용하고 있다. 페이스북 역시 인공지능과 딥러닝에 대한 본격적인 투자를 하기 시작했다. 2013년 12월 페이스북은 얀 레쿤 교수를 영입해 새로 만든 인공지능 랩을 끌고 나가도록 했다. 그의 팀은 딥 페이스 기술을 발표했는데, 인간과 유사한 97.25% 정확도로 다양한 각도나 조명에서도 사람 얼굴을 인식할 수 있는 기술을 선보였다.
구글 브레인 프로젝트를 주도하던 앤드류 응 교수는 이후 중국 검색 서비스 회사인 바이두와 조인해 바이두의 인공지능 연구를 이끌게 됐다. 트위터 역시 매드비츠라는 딥러닝 회사를 인수해 사진 이미지 분석기술을 확보하고자 했다.
마이크로소프트(MS) 또한 다양한 내부 프로젝트와 서비스를 통해 인공지능 기술을 선보이고 있다. 이미지 내 물체 인식을 하는 아담 프로젝트, 음성인식의 코타나, 스카이프에서 선보인 동시통역기술 등이 대표적 사례다. MS 리서치를 끌고 가는 에릭 호비츠도 대표적인 인물로 손꼽히고 있다.
딥러닝에서는 대기업이 아닌 전문기업도 주목을 받고 있다. 대표적인 전문기업인 딥 마인드는 구글에 4억 달러에 인수됐고, 비카리어스는 마크 저커버그나 피터 틸, 제프 베조스 같은 유명인의 투자를 받으며 2013년 캡차 기술을 딥러닝으로 풀어낸 결과를 발표했다.
클러리파이 역시 비디오 영상 속의 객체를 인식하는 기술을 가진 주목할 만한 회사다. 딥 마인드는 최근 인지적 영역이 아닌, 단기 기억을 저장할 수 있는 뉴럴 튜링 머신기술을 제시함으로써 다시 한 번 많은 학자의 관심을 끌고 있다.
인공지능은 1990년대를 넘어서면서 기존의 접근방식으로도 뛰어난 성과를 보일 수 있음을 증명하기 시작했다. IBM의 ‘딥 블루’가 대표적이다. 1997년 5월 11일 체스 세계 챔피언 개리 카스파로프를 이겼고, 2011년 2월 왓슨으로 부르는 질의응답 시스템이 제퍼디 퀴즈쇼에서 최고의 퀴즈 챔피언인 브래드 루터와 켄 제닝스를 물리쳤다. 왓슨의 기술은 확률 통계적 방식, 검색기술, 자연어 처리, 기계학습 등의 고전적 방식과 일부 딥러닝 기술을 활용했다.
IBM의 왓슨이 제퍼디 퀴즈쇼에서 우승하는 장면
이후 IBM은 왓슨을 업그레이드 하고 10억 달러를 투자하면서, 이를 기반으로 하는 인지 컴퓨팅 사업을 적극 추진하고 있다. 여러 병원에 암 환자 치료를 위한 의사 보조 시스템으로 활용하며 새로운 요리법을 발견하고, 중역회의에서 주요 의사결정을 지원하는 용도로 사용할 수 있음을 제시하고 있다. 최근 IBM은 왓슨을 이용해 이메일을 더 잘 정리할 수 있는 새로운 메시징 소프트웨어(SW) ‘버스(Verse)’를 선보일 예정이라고 발표했다.
나아가 이를 하나의 엔진으로 API를 제공함으로써, 이를 기반으로 하는 새로운 앱 생태계를 만들기 위해 1억 달러를 지원하는 등 많은 창업자와 SW 개발회사의 관심을 이끌어 내고 있다. 이는 주디아 펄, 알렌 뉴웰 등에 의해 확률과 의사결정 이론, 경제학 이론, 통계 방식을 적극적으로 인공지능 분야에 도입한 결과다.
인공지능은 이밖에도 자율운행 무인자동차, 공장 자동화 로봇, 소프트뱅크의 ‘페퍼’나 MIT의 신시아 브리질이 개발한 ‘지보(JIBO)’ 같은 소셜 로봇, 인간 감정을 이해하고자 하는 다양한 사물인터넷 기기 등에서 그 활용영역을 넓히고 있다.
2040년경 인간 수준 지능 구현
그렇다면 언제쯤 인간과 같은 수준의 지능을 구현할 수 있을까? 옥스포드대학의 철학자이자 인류미래연구소장인 닉 보스트롬이 전 세계의 인공지능 전문가를 대상으로 조사한 결과는 50% 정도의 기회를 갖는 시점이 2040~2050년이라는 중간 값이 나왔다고 한다. 지난 1월 생명의미래연구소에서 개최한 ‘인공지능의 미래: 기회와 도전’이라는 컨퍼런스에 참석한 학자들이 ‘인공지능이 모든 중요한 인지능력을 인간만큼 갖출 수 있는가’에 대해 투표한 결과, 주요 학자들 역시 30년에서 60년 이상 걸린다고 응답했다. 이번 투표에서는 300년이 지나도 불가능하다고 답한 사람도 5명 있었다.
그런데 왜 엘론 머스크, 빌 게이츠, 스티브 호킹, 닉 보스트롬 같은 리더들이 인공지능의 위험성에 대해서 경고하는 것일까? 이는 일단 인공지능이 인간 지능을 넘어서는 수준에 도달하면, 그 다음부터는 인간이 생물학적으로 진화하는데 오랜 시간이 걸리지만, 기술을 통한 진화는 너무나 급속도로 이뤄져 우리가 제어할 수 없는 상태가 될 수 있다는 우려 때문이다.
그런데 인공지능이 사람 수준의 지능을 갖는다는 것은 무슨 의미일까? 이 문제는 결국 강한 인공지능과 약한 인공지능을 구별하게 하는 입장 차이를 가져온다. 강한 인공지능은 인간이 갖고 있는 의식 수준을 기계가 갖추는 것을 의미하며, 이는 결국 ‘생각을 갖는다는 것은 무엇인가’라는 철학적이면서 뇌과학적 문제로 귀결된다. 반면에 약한 인공지능은 인간 지능의 본질적 특성과 관련 없이 특정 영역에 집중해 지능을 시뮬레이션함으로써 사람들이 진짜 지능인지 아닌지 구별할 필요가 없이 프로그램이 성과를 보이면 된다는 입장이다. 아직까지 대부분의 연구성과는 약한 인공지능의 결과라고 생각할 수 있다.
지능을 ‘세상에 대한 모델을 만들고 그에 따라 행동하는 것’으로 단순 정의한다면, 직관적 인지분야 능력으로 지능을 말할 수 있다. 그러나 깊이 있는 숙고를 통한 의식을 기반으로 지능을 규정하고자 한다면 이 문제는 매우 복잡하고 어렵다.
인공지능이 촉발할 사회적 변화 논의해야
1980년 미국의 철학자 존 썰은 논문 ‘마인드, 브레인, 프로그램’을 통해 유명한 ‘차이니스 룸 논쟁’을 제안했다. 이 논쟁에서는 한 방에 사람 A가 있고 또 다른 방에 다른 사람 B가 있다고 가정한다. A는 중국어로 만들어진 문장을 다른 방에 있는 B에게 제시한다. B는 중국어를 전혀 이해하지 못하지만 중국어를 처리하는 프로그램을 갖고 있다. B는 A가 제시한 문장에 대해 프로그램을 통해 중국어로 이뤄진 대답을 제시한다. 그 프로그램은 중국어를 이해하거나 의미를 해석하지 못하고, 단지 구문 분석적으로 심볼을 바꾸고 숫자를 바꿀 뿐이다. 그럴 경우 B가 중국어 대답을 한다고 해도 B가 중국어에 대한 이해와 의미를 파악한 것이라고 말할 수 없다는 주장이다.
이는 매우 중요한 의식의 이론, 언어와 마음에 대한 철학, 그리고 자의식과 마음 이론의 논쟁을 불러 왔다. 사실 인간이 다른 동물과 차별적으로 갖고 있는 의식의 차원에서 가장 두드러진 것이 바로 ‘마음 이론’이라 말할 수 있다. 이는 다른 사람이 어떤 마음을 갖고 있는지를 알 수 있으며, 그 결과 내가 다시 어떤 마음으로 그 상태를 해석할 수 있는지를 알 수 있음을 얘기한다.
보통 우리는 4단계 정도를 쉽게 이해하며 복잡한 수준의 작가는 6단계까지 묘사하기도 한다. 예를 들어 (1)독자는 내가 내용을 좀 더 쉽게 썼으면 하고 (2)나도 그러길 바란다는 것을 (3)내가 알고 있다는 것을 (4)독자가 안다는 것을 내가 안다. 이런 생각을 하는 컴퓨터 프로그램을 만든다는 것이 얼마나 어려운 일인가를 알 수 있을 것이다.
인공지능 분야의 발전은 단지 프로그램과 기술, 이론의 발전으로만 이뤄내고 있지 않다. 때로는 디지털 네트워크로 연결된 사람들의 참여를 활용하기도 하고, 향상된 칩 기술을 이용한다. 구글의 번역은 사람들이 이뤄낸 다양한 고급 번역을 활용하고 있으며, 최근 IBM, 인텔, 퀄컴 등은 인간 뇌를 모방하는 뉴로모픽 칩 개발에 매우 적극적이다.
인간의 뇌는 단지 20W 수준의 에너지를 사용하면서 놀라운 인지능력을 발휘하고 있기 때문에 뉴런 구조를 모방하고 적은 에너지를 사용하는 칩을 만들어내는 것 역시 인공지능 발전에 매우 중요한 요소다. 또 사물인터넷 기기의 핵심 칩이 될 것으로 보인다. IBM은 최근 100만 개의 뉴런과 2억 5600만 개의 시냅스를 모방하는 칩을 만들어 내기도 했다. 이런 연구의 핵심은 쉽게 학습을 수행하고, 특징을 찾아내 분류하며, 매우 뛰어난 추론을 실행하는 우리 뇌의 특성을 어떻게 컴퓨팅 모델로 만들어 낼 것인가 하는 것이다. 이에는 뇌과학을 통한 최근의 많은 연구성과가 도움이 될 수 있을 것이다.
동시에 인공지능 기술로 인한 사회적 변화에 대한 논의와 준비가 함께 이뤄져야 한다. 직업의 소멸, 새로운 지능형 존재와 함께 하는 사회 시스템, 프로그램이 갖춰야 하는 계산적 윤리 모델, 법률적 기반 등에 대한 논의를 지금부터 시작하지 않으면 약한 인공지능이 실현되는 가까운 미래에도 수많은 위협적 요인이 존재할 수 있을 것이다.
한상기 소셜컴퓨팅연구소 대표