[신문기사] 인공지능 ‘로봇 비서’, 거실에 안착할까
2015.03.18 10:47
인공지능 ‘로봇 비서’, 거실에 안착할까
기사입력 2015-03-17 19:45
2015년 비서 로봇이 쏟아진다. 시리나 구글 나우, 코타나처럼 스마트폰 뒷 공간에 몸을 숨겨 음성으로만 존재감을 드러내는 가상 비서가 아니다. 인간과 직접 대화하는, 물리적 실체를 지닌 로봇 비서다. 일반적으로 이러한 로봇을 ‘소셜 로봇’이라 칭한다.
올해 인간의 품에 안길 로봇 비서는 대략 4종이다. 지보, 페퍼, 큐빅, 이모스파크 등이다. 페퍼와 이모스파크는 올해 여름, 지보는 3분기, 큐빅은 가을에 소비자 품에 안길 예정이다. 이 4종의 로봇 비서들은 지난해 사전 주문 등을 받아 완판 될 만큼 유명세를 탄 적이 있다.
페퍼를 제외한 3종의 소셜 로봇은 소셜펀딩 서비스 인디고고를 통해 적잖은 개발 비용을 충당했다. 이 가운데 지보는 단연 히트 상품이었다. 2014년 7월부터 시작된 소셜펀딩으로 불과 두 달 만에 228만 달러를 모금하는 데 성공했다. 애초 목표 금액은 10만 달러였다. 지보를 향한 소비자들의 기대나 관심이 그만큼 컸다는 방증이다.
올 가을 정식 출시되는 지보사의 소셜 로봇 지보.(사진 출처 : 인디고고)
지보는 MIT 미디어랩에서 개인로봇그룹을 이끌던 신시아 브리질 박사가 창업했다. 브리질 박사는 이 연구소에서 ‘레오나르도’와 같은 개인 로봇 개발에 매진하며 경력을 쌓았다. 각 분야 로봇 전문가들을 속속 영입하며 대외 인지도도 높였다. 4종 가운데 미국 내에선 기대주 가운데 기대주다.
지보는 ‘가족 로봇’을 표방했다. 브리질 박사는 “로봇은 우리를 행복하게 만들어줘야 하고, 우리가 슬플 때를 알 수 있어야 한다”는 말로 지보의 장점을 설명한다. 지보는 인간의 음성과 이미지를 인식해 사용자 가족의 표정이나 심리 상태 패턴을 분석하고 그에 걸맞는 해답을 돌려준다. 때론 사진 촬영을 대신해주기도 하고 영상 통화를 중개해주기도 한다.
큐빅은 영화 ‘허’의 사만다를 꿈꾸는 소셜 로봇이다. 네모난 큐빅 모양이 친근감을 자아낸다. 25피트 약 7m 이상 떨어진 거리에서도 음성을 인식할 수 있다는 점을 차별점을 내세우고 있다. 무엇보다 ‘파워 배지’로 불리는 소형 마이크로 큐빅을 제어할 수 있다는 점이 특별하다. 지보가 이미지와 음성 인식 기술 모두를 탑재하고 있는 반면 큐빅은 음성 인식에 특화된 소셜 로봇 모델이다.
이모스파크도 지보와 비슷한 유형의 로봇 비서다. 이모쉐이프가 자체 개발한 이미지 인식 기반의 감정프로파일그래프(EPG) 기술로 사람들의 기분과 감정을 스스로 인식한다. 이를 통해 음악을 미리 추천해주기도 하고 적절한 인사말도 건넨다. 사람과의 대화를 학습해 다양한 맥락의 담화 결과를 내놓는다. 진화하는 대화엔진을 강점으로 내세우는 소셜 로봇이다. ‘최초의 인공지능 콘솔‘이라는 슬로건에서 보듯 인공지능 기술을 장점으로 내세우고 있다.
소셜 로봇 어떤 기술이 관건일까
큐빅 로보틱스의 소셜 로봇 ‘큐빅’(사진 출처 : 인디고고)
이들 로봇은 인공지능이 인간과 교감을 나누기 위한 목적으로 사용됐다는 공통점을 지니고 있다. 일종의 감성 교감형 인공지능 로봇이다. 영화 ‘허’에 등장하는 사만다를 연상시킨다. 인간의 노동을 대체해 일자리를 빼앗는 인공지능과는 구별된다.
[음성 인식 기술] 인간과의 소통을 중시하는 만큼 음성 인식(Speech Recognition) 기술이 중추적인 역할을 수행한다. 시리가 ‘뉘앙스’의 음성 인식 기술을 사용하고 있다면 이들 로봇은 자체 개발한 음성 인식엔진이나 구글 음성엔진을 활용하고 있다.
음성 인식 기술은 결코 만만한 기술이 아니다. 발화자의 자연 언어 속에서 다양한 신호를 구별해 잡음을 제거하고 키워드를 이해할 수 있어야 한다. 이 과정에 자연어 처리 기술이 개입된다. 뿐만 아니라 인식된 결과를 이해의 수준으로 변환하기 위한 맥락 분석 기술도 요구된다.
출력 단계에도 여러 기술들이 관여한다. 예를 들어 발화자의 명령에 따라 재질의를 할 것인지 아니면 검색 결과를 제시할 것인지 결정해야 한다. 보유한 데이터의 양이 많을수록 출력할 결과의 정확도가 높아진다. 때문에 검색엔진과의 협업이 요구된다. 큐빅은 구글과 러시아 얀덱스 검색엔진을 활용한다.
지보도 음성 인식 기술에 상당한 공을 들였다. AT&T와 IBM에서 음성 관련 기술을 연구했던 로베르토 피에라치니를 영입한 데 이어 2015년 1월에는 음성 인식 전문 기업 뉘앙스에서 스티브 챔버스를 CEO로 데려오기도 했다. 지보는 음성에 이미지 인식 기술까지 보탰다. 소위 인공지능의 척추 기술이라 일컬어지는 딥러닝을 활용한 사례인 셈이다.
[예측 기술] 인간과의 소통이 중심이 로봇에 예측 기술(Predictive Technology)은 필수 요소로 결합된다. 날씨나 장소, 무드, 날짜에 따라 인간의 행동이 다른 식으로 반응하기 때문이다. 예측 기술은 로봇의 출력 단계에서 빛을 발한다. 인간이 처해 있는 상황적 맥락을 파악해 시간대별로, 분위기별로 다른 대화 결과물을 제시한다. 일반적으로 대화엔진이 이 역할을 담당하고 있다.
로봇의 대화엔진은 자연스러움이 생명이다. 정현철 유진로봇 차장은 “소니 아이보의 경우 대화엔진의 자연스러움을 극복하지 못해 투자 대비 실용성을 확보하지 못했다”며 예측 기반 대화엔진의 중요성을 강조했다.
실용성은 아직 의문
이모쉐이프의 소셜 로봇 ‘이모스파크’(사진 출처 : 인디고고)
‘소셜 로봇’은 기대만큼이나 우려도 적지 않았다. 기술력의 검증이 부족하다는 이유에서다. 감정의 교감을 위한 인식 수준이 어느 경지에 도달했는지 평가받을 기회가 부족했다. 페퍼는 감정 로봇, 지보는 가족 로봇, 큐보는 개인 인공지능, 이모스파크는 첫 번째 인공지능 홈 콘솔이라고 홍보해왔다. 과연 그들이 표방하는 만큼의 만족도를 실 사용자들에게 제공할 수 있을지는 여전히 의문이다.
그러나 올해 이들 로봇은 본격적으로 소비자를 만나게 된다. 언론을 통해서, 데모 영상을 통해서만 지켜봤던 가상의 로봇이 올 여름이면 집안 특정 공간을 점유하는 형태로 들어올 예정이다.
한국어 자연어 처리 권위자인 서정연 서강대 컴퓨터공학과 교수는 이들 로봇이 실제 실용성을 갖기는 어려울 것이라고 예상했다. 당장 소셜 로봇을 향해 음성으로 명령을 하는 습관이 형성되기 어려운데다 음성 인식 기술이 기대만큼 만족스럽지 않아서다.
서 교수는 “일반적으로 소셜 로봇의 데모 영상은 시나리오가 짜여진 환경에서 촬영되는 것으로 알고 있다”면서 “1m 떨어진 환경에서 사람의 음성과 음악 소리, TV 소리를 구별해내기란 미국에서도 아직 어렵다”고 말했다.
서 교수에 따르면 구글 음성인식기가 인식 정밀도 측면에서 높은 수준을 자랑하지만 이는 스마트폰이라는 한정된 경우라는 설명이다. 1~2m 떨어져 다양한 잡음이 발산되는 집안 내에서는 정확한 인식을 기대하기는 아직 기술적으로 무리라는 것이 서 교수의 평가다.
유진로봇에서 서비스로봇을 개발하는 정현철 차장의 평가도 다르지 않다. 지보의 경우 구글 음성인식 기술보다 앞서 있을 수는 있지만 사용자가 직접 접했을 때 만족할 만한 피드백을 얻기는 어려울 것으로 예상했다. 정 차장은 음성인식엔진보다 대화엔진 쪽에서 “자연스러움을 기대하기란 쉽지 않을 것”이라고 평가했다.
사람과 공존하는 인공지능은 안착할까
일단 비서형 소셜 로봇에 시동은 걸렸다. 상용화 준비도 마쳤다. 가격도 높은 편은 아니다. 사용자의 손에 쥐어졌을 때 사람들의 삶을 얼마나 행복하게 할지 평가만 남았다. 국내에 출시되지는 않았지만 로봇 산업에 관심 있는 이들도 흥미롭게 지켜보는 중이다. 소니 아이보의 실패 사례를 넘어설 수 있을지도 주목거리다.
이들 소셜 로봇은 인간과 공존하는 인공지능의 시험대 성격도 지닌다. 인간의 일자리를 위협하는 존재로 인식돼온 인공지능이 인간의 삶 속에서 어떤 긍정적 효과를 발휘하게 될지 올해 말이면 판가름 날 수도 있다.
이성규 기자 dangun76@bloter.net
기사입력 2015-03-17 19:45
2015년 비서 로봇이 쏟아진다. 시리나 구글 나우, 코타나처럼 스마트폰 뒷 공간에 몸을 숨겨 음성으로만 존재감을 드러내는 가상 비서가 아니다. 인간과 직접 대화하는, 물리적 실체를 지닌 로봇 비서다. 일반적으로 이러한 로봇을 ‘소셜 로봇’이라 칭한다.
올해 인간의 품에 안길 로봇 비서는 대략 4종이다. 지보, 페퍼, 큐빅, 이모스파크 등이다. 페퍼와 이모스파크는 올해 여름, 지보는 3분기, 큐빅은 가을에 소비자 품에 안길 예정이다. 이 4종의 로봇 비서들은 지난해 사전 주문 등을 받아 완판 될 만큼 유명세를 탄 적이 있다.
페퍼를 제외한 3종의 소셜 로봇은 소셜펀딩 서비스 인디고고를 통해 적잖은 개발 비용을 충당했다. 이 가운데 지보는 단연 히트 상품이었다. 2014년 7월부터 시작된 소셜펀딩으로 불과 두 달 만에 228만 달러를 모금하는 데 성공했다. 애초 목표 금액은 10만 달러였다. 지보를 향한 소비자들의 기대나 관심이 그만큼 컸다는 방증이다.
올 가을 정식 출시되는 지보사의 소셜 로봇 지보.(사진 출처 : 인디고고)
지보는 MIT 미디어랩에서 개인로봇그룹을 이끌던 신시아 브리질 박사가 창업했다. 브리질 박사는 이 연구소에서 ‘레오나르도’와 같은 개인 로봇 개발에 매진하며 경력을 쌓았다. 각 분야 로봇 전문가들을 속속 영입하며 대외 인지도도 높였다. 4종 가운데 미국 내에선 기대주 가운데 기대주다.
지보는 ‘가족 로봇’을 표방했다. 브리질 박사는 “로봇은 우리를 행복하게 만들어줘야 하고, 우리가 슬플 때를 알 수 있어야 한다”는 말로 지보의 장점을 설명한다. 지보는 인간의 음성과 이미지를 인식해 사용자 가족의 표정이나 심리 상태 패턴을 분석하고 그에 걸맞는 해답을 돌려준다. 때론 사진 촬영을 대신해주기도 하고 영상 통화를 중개해주기도 한다.
큐빅은 영화 ‘허’의 사만다를 꿈꾸는 소셜 로봇이다. 네모난 큐빅 모양이 친근감을 자아낸다. 25피트 약 7m 이상 떨어진 거리에서도 음성을 인식할 수 있다는 점을 차별점을 내세우고 있다. 무엇보다 ‘파워 배지’로 불리는 소형 마이크로 큐빅을 제어할 수 있다는 점이 특별하다. 지보가 이미지와 음성 인식 기술 모두를 탑재하고 있는 반면 큐빅은 음성 인식에 특화된 소셜 로봇 모델이다.
이모스파크도 지보와 비슷한 유형의 로봇 비서다. 이모쉐이프가 자체 개발한 이미지 인식 기반의 감정프로파일그래프(EPG) 기술로 사람들의 기분과 감정을 스스로 인식한다. 이를 통해 음악을 미리 추천해주기도 하고 적절한 인사말도 건넨다. 사람과의 대화를 학습해 다양한 맥락의 담화 결과를 내놓는다. 진화하는 대화엔진을 강점으로 내세우는 소셜 로봇이다. ‘최초의 인공지능 콘솔‘이라는 슬로건에서 보듯 인공지능 기술을 장점으로 내세우고 있다.
소셜 로봇 어떤 기술이 관건일까
큐빅 로보틱스의 소셜 로봇 ‘큐빅’(사진 출처 : 인디고고)
이들 로봇은 인공지능이 인간과 교감을 나누기 위한 목적으로 사용됐다는 공통점을 지니고 있다. 일종의 감성 교감형 인공지능 로봇이다. 영화 ‘허’에 등장하는 사만다를 연상시킨다. 인간의 노동을 대체해 일자리를 빼앗는 인공지능과는 구별된다.
[음성 인식 기술] 인간과의 소통을 중시하는 만큼 음성 인식(Speech Recognition) 기술이 중추적인 역할을 수행한다. 시리가 ‘뉘앙스’의 음성 인식 기술을 사용하고 있다면 이들 로봇은 자체 개발한 음성 인식엔진이나 구글 음성엔진을 활용하고 있다.
음성 인식 기술은 결코 만만한 기술이 아니다. 발화자의 자연 언어 속에서 다양한 신호를 구별해 잡음을 제거하고 키워드를 이해할 수 있어야 한다. 이 과정에 자연어 처리 기술이 개입된다. 뿐만 아니라 인식된 결과를 이해의 수준으로 변환하기 위한 맥락 분석 기술도 요구된다.
출력 단계에도 여러 기술들이 관여한다. 예를 들어 발화자의 명령에 따라 재질의를 할 것인지 아니면 검색 결과를 제시할 것인지 결정해야 한다. 보유한 데이터의 양이 많을수록 출력할 결과의 정확도가 높아진다. 때문에 검색엔진과의 협업이 요구된다. 큐빅은 구글과 러시아 얀덱스 검색엔진을 활용한다.
지보도 음성 인식 기술에 상당한 공을 들였다. AT&T와 IBM에서 음성 관련 기술을 연구했던 로베르토 피에라치니를 영입한 데 이어 2015년 1월에는 음성 인식 전문 기업 뉘앙스에서 스티브 챔버스를 CEO로 데려오기도 했다. 지보는 음성에 이미지 인식 기술까지 보탰다. 소위 인공지능의 척추 기술이라 일컬어지는 딥러닝을 활용한 사례인 셈이다.
[예측 기술] 인간과의 소통이 중심이 로봇에 예측 기술(Predictive Technology)은 필수 요소로 결합된다. 날씨나 장소, 무드, 날짜에 따라 인간의 행동이 다른 식으로 반응하기 때문이다. 예측 기술은 로봇의 출력 단계에서 빛을 발한다. 인간이 처해 있는 상황적 맥락을 파악해 시간대별로, 분위기별로 다른 대화 결과물을 제시한다. 일반적으로 대화엔진이 이 역할을 담당하고 있다.
로봇의 대화엔진은 자연스러움이 생명이다. 정현철 유진로봇 차장은 “소니 아이보의 경우 대화엔진의 자연스러움을 극복하지 못해 투자 대비 실용성을 확보하지 못했다”며 예측 기반 대화엔진의 중요성을 강조했다.
실용성은 아직 의문
이모쉐이프의 소셜 로봇 ‘이모스파크’(사진 출처 : 인디고고)
‘소셜 로봇’은 기대만큼이나 우려도 적지 않았다. 기술력의 검증이 부족하다는 이유에서다. 감정의 교감을 위한 인식 수준이 어느 경지에 도달했는지 평가받을 기회가 부족했다. 페퍼는 감정 로봇, 지보는 가족 로봇, 큐보는 개인 인공지능, 이모스파크는 첫 번째 인공지능 홈 콘솔이라고 홍보해왔다. 과연 그들이 표방하는 만큼의 만족도를 실 사용자들에게 제공할 수 있을지는 여전히 의문이다.
그러나 올해 이들 로봇은 본격적으로 소비자를 만나게 된다. 언론을 통해서, 데모 영상을 통해서만 지켜봤던 가상의 로봇이 올 여름이면 집안 특정 공간을 점유하는 형태로 들어올 예정이다.
한국어 자연어 처리 권위자인 서정연 서강대 컴퓨터공학과 교수는 이들 로봇이 실제 실용성을 갖기는 어려울 것이라고 예상했다. 당장 소셜 로봇을 향해 음성으로 명령을 하는 습관이 형성되기 어려운데다 음성 인식 기술이 기대만큼 만족스럽지 않아서다.
서 교수는 “일반적으로 소셜 로봇의 데모 영상은 시나리오가 짜여진 환경에서 촬영되는 것으로 알고 있다”면서 “1m 떨어진 환경에서 사람의 음성과 음악 소리, TV 소리를 구별해내기란 미국에서도 아직 어렵다”고 말했다.
서 교수에 따르면 구글 음성인식기가 인식 정밀도 측면에서 높은 수준을 자랑하지만 이는 스마트폰이라는 한정된 경우라는 설명이다. 1~2m 떨어져 다양한 잡음이 발산되는 집안 내에서는 정확한 인식을 기대하기는 아직 기술적으로 무리라는 것이 서 교수의 평가다.
유진로봇에서 서비스로봇을 개발하는 정현철 차장의 평가도 다르지 않다. 지보의 경우 구글 음성인식 기술보다 앞서 있을 수는 있지만 사용자가 직접 접했을 때 만족할 만한 피드백을 얻기는 어려울 것으로 예상했다. 정 차장은 음성인식엔진보다 대화엔진 쪽에서 “자연스러움을 기대하기란 쉽지 않을 것”이라고 평가했다.
사람과 공존하는 인공지능은 안착할까
일단 비서형 소셜 로봇에 시동은 걸렸다. 상용화 준비도 마쳤다. 가격도 높은 편은 아니다. 사용자의 손에 쥐어졌을 때 사람들의 삶을 얼마나 행복하게 할지 평가만 남았다. 국내에 출시되지는 않았지만 로봇 산업에 관심 있는 이들도 흥미롭게 지켜보는 중이다. 소니 아이보의 실패 사례를 넘어설 수 있을지도 주목거리다.
이들 소셜 로봇은 인간과 공존하는 인공지능의 시험대 성격도 지닌다. 인간의 일자리를 위협하는 존재로 인식돼온 인공지능이 인간의 삶 속에서 어떤 긍정적 효과를 발휘하게 될지 올해 말이면 판가름 날 수도 있다.
이성규 기자 dangun76@bloter.net