IIP Lab
Research

메뉴 건너뛰기

다중지능(멀티모달 / 시청각 정보처리)

멀티모달 신호처리는 컴퓨터(digital human)나 자동차처럼 사용자의 위치가 고정되어 관련 음성 및 영상 정보를 용이하게 얻을 수 있거나, 휴머노이드 로봇(humanoid robot)처럼 음성, 영상, 거리(range) 등 다양한 정보를 동시에 수집, 처리하는 미래형 기기/시스템에 적합한 신호처리 방법으로 각광받고 있다. 특히 시청각 정보처리는 인간의 직관성, 편리성을 극대화할 수 있는 인터랙션 방법으로서, 주변 잡음 등에 의한 음향 신호의 왜곡과 주변 조명 환경 등에 의한 영상 신호의 왜곡을 서로 보완하기 위해, 음향과 영상의 특징을 동시에 인식에 적용하여 주변 잡음 및 조명 환경에 보다 강건한 인식 결과를 얻을 수 있다.

립리딩을 사용한 시청각 음성인식

화자의 입술 영상 정보로부터 음성 인식을 수행하는 기술이다. 립리딩은 기존의 음향 기반 음성 인식 기술과의 결합 또는 융합을 통해 보다 정확한 인식 결과를 얻는 데 사용된다.

대표적인 멀티모달 인식 분야로, 음향 신호 외에 화자의 입술 영상 정보를 추가로 사용하여 음성 인식 성능을 높이는 시청각 음성인식이 있다. 음성과 영상 신호에 영향을 주는 요인은 서로 독립적이기 때문에 각 정보가 의사소통에 상호보완적인 기여를 하여 신호처리 성능을 개선하게 된다.

 
▼ 멀티모달 음성인식 시스템 (음성인식+입술인식)

실시간 대화가 가능한 Digital Human 개발

시청각 음성인식 외에도 대화 모델, 음성/영상 합성을 통한 표현 기술을 통합한 Digital Human을 구현한다.

IIP KIOSK

  • 음원 국지화를 이용한 사용자의 위치 파악
  • 얼굴 인식 및 tracking
  • 음성 인식을 통한 명령 수행

▼ IIP KIOSK 데모