[신문기사] <실리콘밸리 리포트> 음성비서 체험기…시리·나우·코타나·알렉사
2016.06.20 14:08
http://news.naver.com/main/read.nhn?mode=LSD&mid=shm&sid1=105&oid=001&aid=0008481575
<실리콘밸리 리포트> 음성비서 체험기…시리·나우·코타나·알렉사
기사입력 2016-06-19 11:00
시리 화면
올들어 IT업계 음성비서 성능향상 각축…인식 정확도는 '아직'
(샌프란시스코=연합뉴스) 임화섭 특파원 = 애플, 구글, 마이크로소프트(MS), 아마존, 페이스북 등 정보기술(IT) 기업들은 올해 들어 클라우드 기반 음성비서의 성능 향상을 위해 치열한 경쟁을 벌이고 있다.
이 분야 선발주자는 2011년 10월 아이폰 4S와 함께 음성비서 '시리'를 내놓은 애플이다. 이에 맞서 구글이 2012년 7월 '구글 나우'를 출시했고, 이어 MS가 2014년 4월 음성비서 '코타나'를 선보였다. 아마존은 2014년 11월 거치형 블루투스 스피커 '에코'의 내장 기능으로 음성비서 '알렉사'를 내놨다.
페이스북은 작년 8월 페이스북 메신저에 'M'이라는 이름의 대화형 비서 서비스를 만들었으나 이를 일반에 공개하지 않고 일부 사용자를 상대로 테스트중이다.
이 중 서비스가 일반에 공개된 애플 시리, 구글 나우, MS 코타나, 아마존 알렉사 등 4개 서비스를 연합뉴스 특파원이 테스트해 장단점을 비교해 봤다.
이 중 한국어를 지원하는 것은 시리와 구글 나우뿐이어서 테스트는 영어로 했으며, 위치정보는 미국 캘리포니아주 쿠퍼티노로 입력했다.
◇ 단답형 정답 최강자는 시리
명확히 정해진 답이 나오는 '단답형 질문'에 가장 강한 서비스는 애플 시리였다.
코타나 화면
"첫 100개의 양의 정수의 합을 계산하라", "달과 지구 사이의 거리는 얼마인가?" "'2001 스페이스 오디세이'는 누가 감독했는가?", "오늘 밤 샌프란시스코 자이언츠의 선발투수는 누구인가?" 등 질문에 시리는 깔끔하게 정리된 정답과 함께 일목요연한 관련 정보 요약을 내놓았다.
특히 "오늘 밤 샌프란시스코 자이언츠의 선발투수는 누구인가"라는 질문에 구글 나우, MS 코타나 등 다른 서비스들은 웹 검색 결과를 나열하기만 했다.
수학·과학 관련 질문에서는 '울프럼알파'(WolframAlpha)라는 유명 계산·지식 검색엔진의 도움을 받는 시리와 코타나의 성능이 구글 나우와 알렉사를 압도했다.
다만 날씨와 일기예보, 미국 프로야구·농구 등 인기 스포츠의 경기 결과나 일정 등 미국인들이 일상적으로 묻는 질문에 대해서는 4개 서비스 모두 잘 정리된 답을 내놨다.
"재즈를 틀어 봐"라며 음악 재생 명령을 내렸을 때도 4개 서비스 모두 자사 하드웨어와 함께 쓸 경우 예상대로 제대로 작동했다.
다만 구글 나우는 안드로이드 기기, 코타나는 윈도 10 폰, 아마존은 에코 등을 쓰지 않으면 제대로 작동하지 않는 경우가 있었다. 시리는 아이폰·아이패드 등 애플 기기에서만 사용 가능하다.
◇ 맥락 파악에 강한 구글 나우
"'2001 스페이스 오디세이는 누가 감독했는가?"라는 질문에 시리, 나우, 코타나는 '스탠리 큐브릭'이라는 정답을 댔으나, 곧이어 "그가 언제 태어났지?"라는 질문을 던졌을 때는 성능 차이가 확연히 드러났다.
시리는 둘째 질문에 나오는 '그'가 대화 맥락상 큐브릭을 가리킨다는 점을 파악하지 못하고 "그가 언제 태어났지"라는 문구를 입력한 검색 결과를 나열하는 데 그쳤으나, 나우와 코타나는 큐브릭 감독의 생년월일을 답으로 제시했다.
특히 구글 나우는 질문의 내용뿐만 아니라 구글 캘린더, 지메일, 지도 등 서비스에 포함된 각종 정보를 종합적으로 고려하고 맥락을 파악하는 능력이 탁월하다.
구글 나우 초기 화면에는 사용자가 궁금해할만한 집·직장·약속장소까지의 교통 정보와 최근에 받은 중요 이메일 내용이 자동으로 표시된다.
◇ 쇼핑에 강한 아마존 알렉사
아마존 알렉사는 일반 질문에 답하는 능력은 나머지 3개 서비스에 비해 처졌으나, 쇼핑이나 음악 재생 등 아마존 서비스와의 연동 기능이 탁월했다.
"내 쇼핑 리스트에 건전지를 추가하라"고 말하면 아마존의 쇼핑 리스트에 해당 품목이 추가된다.
또 아마존이 알렉사를 외부 개발자들에게 공개한 덕택에 스마트홈, 사물인터넷(IoT) 등 다양한 분야의 서드 파티(제3자) 서비스와 알렉사가 연동된다는 점도 큰 강점이다.
현재 알렉사 정식 서비스는 아마존이 만드는 블루투스 스피커 '에코', '탭', '에코 닷'을 이용해야만 사용이 가능하다. 이 기기들은 아직 미국에서만 정식으로 구입할 수 있다.
아마존은 5월 말부터 '에코심'(echosim.io)이라는 웹사이트를 통해 알렉사의 기능을 쓸 수 있도록 공개했으나 정식 서비스가 아니어서 사용이 여러 모로 불편하다.
◇ 정확도와 인식속도 향상이 관건
알렉사 서비스 화면
지난달 말 실리콘밸리의 유명 벤처투자업체 클라이너 퍼킨스 코필드 앤드 바이어스(KPCB)의 메리 미커는 '인터넷 동향 2016'(Internet Trends 2016) 보고서에서 "인간 대 기계(P2M·Person to Machine) 음성 상호작용의 '의미·이해 정확성'이 95%이면 쓰는 사람이 별로 없겠지만, 만약 99%가 되면 사실상 모든 사람이 이를 쓸 것"이라고 내다봤다.
기계가 사람 말을 올바르게 이해하고 적절한 반응을 보이는 비율이 99%에 이르면 음성비서 서비스가 매우 널리 쓰일 것이라는 견해다.
이런 기준으로 볼 때 테스트 대상으로 삼은 4개 서비스는 모두 갈 길이 먼 것으로 보였다. 단어 자체를 제대로 알아듣지 못하는 경우가 종종 있었고, 고유명사나 전문 분야 용어가 들어가면 오류가 더 잦았다.
굳이 따지자면 시리, 나우, 코타나 등 3개 서비스는 음성 인식 성능이 대동소이했으나, 아마존 알렉사의 경우 문장이 길어지면 뒷부분을 자르고 앞부분만 표시한 후 엉뚱한 답을 하는 사례가 좀 더 흔했다.
전문가들의 추정에 따르면 이런 서비스들의 인식 정확성은 영어 단어 기준으로 약 90% 수준에 그치고 있다.
음성비서 서비스들이 대중화되기 위해 향상해야 할 또 다른 과제는 인식 속도다.
현재 기술 수준으로는 음성 입력 정보를 기기 자체에서만 처리할 경우 정확성이낮기 때문에 반드시 통신망을 통해 클라우드로 음성 입력 정보를 보낸 뒤 결과를 클라우드에서 받아 와 기기로 다시 전송해야 한다.
이 때문에 사람이 기기에 음성으로 질문을 던진 후 음성으로 답을 받는 데에 몇십 초가 걸리는 경우도 드물지 않다.
solatido@yna.co.kr
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
<실리콘밸리 리포트> 음성비서 체험기…시리·나우·코타나·알렉사
기사입력 2016-06-19 11:00
시리 화면
올들어 IT업계 음성비서 성능향상 각축…인식 정확도는 '아직'
(샌프란시스코=연합뉴스) 임화섭 특파원 = 애플, 구글, 마이크로소프트(MS), 아마존, 페이스북 등 정보기술(IT) 기업들은 올해 들어 클라우드 기반 음성비서의 성능 향상을 위해 치열한 경쟁을 벌이고 있다.
이 분야 선발주자는 2011년 10월 아이폰 4S와 함께 음성비서 '시리'를 내놓은 애플이다. 이에 맞서 구글이 2012년 7월 '구글 나우'를 출시했고, 이어 MS가 2014년 4월 음성비서 '코타나'를 선보였다. 아마존은 2014년 11월 거치형 블루투스 스피커 '에코'의 내장 기능으로 음성비서 '알렉사'를 내놨다.
페이스북은 작년 8월 페이스북 메신저에 'M'이라는 이름의 대화형 비서 서비스를 만들었으나 이를 일반에 공개하지 않고 일부 사용자를 상대로 테스트중이다.
이 중 서비스가 일반에 공개된 애플 시리, 구글 나우, MS 코타나, 아마존 알렉사 등 4개 서비스를 연합뉴스 특파원이 테스트해 장단점을 비교해 봤다.
이 중 한국어를 지원하는 것은 시리와 구글 나우뿐이어서 테스트는 영어로 했으며, 위치정보는 미국 캘리포니아주 쿠퍼티노로 입력했다.
◇ 단답형 정답 최강자는 시리
명확히 정해진 답이 나오는 '단답형 질문'에 가장 강한 서비스는 애플 시리였다.
코타나 화면
"첫 100개의 양의 정수의 합을 계산하라", "달과 지구 사이의 거리는 얼마인가?" "'2001 스페이스 오디세이'는 누가 감독했는가?", "오늘 밤 샌프란시스코 자이언츠의 선발투수는 누구인가?" 등 질문에 시리는 깔끔하게 정리된 정답과 함께 일목요연한 관련 정보 요약을 내놓았다.
특히 "오늘 밤 샌프란시스코 자이언츠의 선발투수는 누구인가"라는 질문에 구글 나우, MS 코타나 등 다른 서비스들은 웹 검색 결과를 나열하기만 했다.
수학·과학 관련 질문에서는 '울프럼알파'(WolframAlpha)라는 유명 계산·지식 검색엔진의 도움을 받는 시리와 코타나의 성능이 구글 나우와 알렉사를 압도했다.
다만 날씨와 일기예보, 미국 프로야구·농구 등 인기 스포츠의 경기 결과나 일정 등 미국인들이 일상적으로 묻는 질문에 대해서는 4개 서비스 모두 잘 정리된 답을 내놨다.
"재즈를 틀어 봐"라며 음악 재생 명령을 내렸을 때도 4개 서비스 모두 자사 하드웨어와 함께 쓸 경우 예상대로 제대로 작동했다.
다만 구글 나우는 안드로이드 기기, 코타나는 윈도 10 폰, 아마존은 에코 등을 쓰지 않으면 제대로 작동하지 않는 경우가 있었다. 시리는 아이폰·아이패드 등 애플 기기에서만 사용 가능하다.
◇ 맥락 파악에 강한 구글 나우
"'2001 스페이스 오디세이는 누가 감독했는가?"라는 질문에 시리, 나우, 코타나는 '스탠리 큐브릭'이라는 정답을 댔으나, 곧이어 "그가 언제 태어났지?"라는 질문을 던졌을 때는 성능 차이가 확연히 드러났다.
시리는 둘째 질문에 나오는 '그'가 대화 맥락상 큐브릭을 가리킨다는 점을 파악하지 못하고 "그가 언제 태어났지"라는 문구를 입력한 검색 결과를 나열하는 데 그쳤으나, 나우와 코타나는 큐브릭 감독의 생년월일을 답으로 제시했다.
특히 구글 나우는 질문의 내용뿐만 아니라 구글 캘린더, 지메일, 지도 등 서비스에 포함된 각종 정보를 종합적으로 고려하고 맥락을 파악하는 능력이 탁월하다.
구글 나우 초기 화면에는 사용자가 궁금해할만한 집·직장·약속장소까지의 교통 정보와 최근에 받은 중요 이메일 내용이 자동으로 표시된다.
◇ 쇼핑에 강한 아마존 알렉사
아마존 알렉사는 일반 질문에 답하는 능력은 나머지 3개 서비스에 비해 처졌으나, 쇼핑이나 음악 재생 등 아마존 서비스와의 연동 기능이 탁월했다.
"내 쇼핑 리스트에 건전지를 추가하라"고 말하면 아마존의 쇼핑 리스트에 해당 품목이 추가된다.
또 아마존이 알렉사를 외부 개발자들에게 공개한 덕택에 스마트홈, 사물인터넷(IoT) 등 다양한 분야의 서드 파티(제3자) 서비스와 알렉사가 연동된다는 점도 큰 강점이다.
현재 알렉사 정식 서비스는 아마존이 만드는 블루투스 스피커 '에코', '탭', '에코 닷'을 이용해야만 사용이 가능하다. 이 기기들은 아직 미국에서만 정식으로 구입할 수 있다.
아마존은 5월 말부터 '에코심'(echosim.io)이라는 웹사이트를 통해 알렉사의 기능을 쓸 수 있도록 공개했으나 정식 서비스가 아니어서 사용이 여러 모로 불편하다.
◇ 정확도와 인식속도 향상이 관건
알렉사 서비스 화면
지난달 말 실리콘밸리의 유명 벤처투자업체 클라이너 퍼킨스 코필드 앤드 바이어스(KPCB)의 메리 미커는 '인터넷 동향 2016'(Internet Trends 2016) 보고서에서 "인간 대 기계(P2M·Person to Machine) 음성 상호작용의 '의미·이해 정확성'이 95%이면 쓰는 사람이 별로 없겠지만, 만약 99%가 되면 사실상 모든 사람이 이를 쓸 것"이라고 내다봤다.
기계가 사람 말을 올바르게 이해하고 적절한 반응을 보이는 비율이 99%에 이르면 음성비서 서비스가 매우 널리 쓰일 것이라는 견해다.
이런 기준으로 볼 때 테스트 대상으로 삼은 4개 서비스는 모두 갈 길이 먼 것으로 보였다. 단어 자체를 제대로 알아듣지 못하는 경우가 종종 있었고, 고유명사나 전문 분야 용어가 들어가면 오류가 더 잦았다.
굳이 따지자면 시리, 나우, 코타나 등 3개 서비스는 음성 인식 성능이 대동소이했으나, 아마존 알렉사의 경우 문장이 길어지면 뒷부분을 자르고 앞부분만 표시한 후 엉뚱한 답을 하는 사례가 좀 더 흔했다.
전문가들의 추정에 따르면 이런 서비스들의 인식 정확성은 영어 단어 기준으로 약 90% 수준에 그치고 있다.
음성비서 서비스들이 대중화되기 위해 향상해야 할 또 다른 과제는 인식 속도다.
현재 기술 수준으로는 음성 입력 정보를 기기 자체에서만 처리할 경우 정확성이낮기 때문에 반드시 통신망을 통해 클라우드로 음성 입력 정보를 보낸 뒤 결과를 클라우드에서 받아 와 기기로 다시 전송해야 한다.
이 때문에 사람이 기기에 음성으로 질문을 던진 후 음성으로 답을 받는 데에 몇십 초가 걸리는 경우도 드물지 않다.
solatido@yna.co.kr
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>