본문 바로가기

내 목소리를 알아 듣는 인공지능, 원리가 뭘까? (feat.스피치 캐치)

내 목소리를 알아 듣는 인공지능, 원리가 뭘까? (feat.스피치 캐치)

 



소리를 눈으로 보는 시대가 찾아왔다고?! 

SK(주) C&C의 인공지능 AIBRIL 스피치 캐치가 있다면 가능합니다. 지난 10월 29일. 2019 SK ICT Tech Summit이 진행됐습니다. 그곳에 스피치 캐치의 특별한 이야기를 들을 수 있는 부스가 있다고 해서 에디터가 직접 찾아갔습니다. SK(주) C&C와 AIBRIL 스피치 캐치의 이야기! 지금 시작합니다. 


 SK Careers Editor 이예린

 


여러분은 AI 스피커와 대화해본 경험이 있나요? 한 번쯤 삼성전자의 ‘빅스비’ 또는 애플의 ‘시리’와 대화해 본 경험은 있지 않나요? 바로 여러분이 이러한 인공지능과 대화할 때 사용되는 기술이 STT입니다. STT는 Speech-to-Text의 줄임말로 음성을 텍스트로 변환하는 기술 뜻합니다. 즉, 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 것입니다.

 



스피치 캐치는 SK(주) C&C의 음성인식 기술입니다. 최근 SK(주) C&C는 AUD 사회적협동조합과 ‘디지털 동행 쉐어톡 얼라이언스’를 맺고 협력을 시작했습니다. 쉐어톡은 청각 장애인을 위한 인공지능 문자 통역 서비스입니다. 기존의 STT가 1:1 대화 및 자막 서비스에 한정되었다면, 쉐어톡은 일대 다수의 문자 및 대화 서비스를 지원합니다. 또한, 태블릿 PC, 스마트 TV 등 다양한 디바이스에서도 쉽게 구현이 가능하다고 합니다. 

 


SK(주) C&C의 스피치 캐치는 쉐어톡 이외에도 다양한 서비스에 사용되고 있습니다. 스피치 캐치에 대한 더 자세한 이야기는 스피치 캐치 담당자에게 직접 들어볼까요? 

 



안녕하세요. 저는 SK주식회사C&C 고객채널Unit에 권오경 수석입니다. 

 


스피치 캐치는 기본적으로 음성인식 엔진입니다. 음성인식이 시장에 나온 지는 꽤 오래됐어요. 최근의 음성인식은 장문의 음성을 스트리밍 처리할 수 있도록 진화 및 발전되고 있습니다. 스피치 캐치 역시 연속된 음성을 실시간 처리할 수 있는 음성인식 엔진이라고 보시면 됩니다. 

 


스피치 캐치가 STT(Speech To Text)입니다. SK(주) C&C의 STT 기술 상품명이 스피치 캐치입니다.


STT는 소리에 대한 글자를 변환해 줍니다. 그 과정에서 실제 소리에 특징을 판단하는 ‘음향 모델’과 문자에 특징을 판단하는 ‘언어 모델’을 기준으로 변환을 합니다. 즉, 소리 나는 대로 받아쓴 뒤에 그것을 앞뒤 문자열을 확인하면서 문맥 또는 표준어에 맞도록 고쳐주는 역할을 하는 것이 STT입니다. 


TTS는 이 기능을 반대로 수행합니다. 즉, 글자에 맞는 소리를 찾아냅니다. 한글에는 ‘연음’ 등 복잡한 발음이 있는데, 그러한 것들을 최대한 자연스럽게 만들어주는 것도 TTS의 역할입니다. 

 


스피치 캐치의 특징은 크게 두 가지 입니다. 


첫째는 기본 인식률이 높다는 것입니다. 스피치 캐치의 경우에는 실시간으로 처리하면서도 인식률을 높이기 위해 많은 노력을 하고 있습니다. 모든 AI가 그렇듯 학습을 해야하는데, 스피치 캐치의 경우 기본적으로 들어가 있는 데이터 양이 많습니다. 표현할 수 있는 어휘력이 풍부해진 거죠. 그러면 또 속도가 느려질 수 있는데, 실시간 처리를 위해 연산을 빨리하도록 만들고 있습니다. 


둘째는 상황에 맞는 다양한 모델이 있습니다. 콜센터, 교육, 주소, 숫자 등 특화도메인에 대한 모델을 각각 만들어놓고 있습니다. 모든 경우에 잘되는 모델을 가지고 있는 것도 좋겠지만, 특정 경우에만 사용되는 음성인식은 좁은 범위에서만 더 잘되도록 만들어 놓는거죠.

 


용어를 구분해서 말씀드리면, 쉐어톡은 서비스명 입니다. 쉐어톡은 청각장애인에게 소리를 글자로 보여주는 화면 기능 서비스를 지칭하는 것이고, 입력되는 음성을 인식하는 것은 스피치 캐치를 통해 이루어집니다. 스피치 캐치의 음성인식 결과를 쉐어톡이 다시 화면을 통해 보여주는 것 입니다. 

 


음성이 존재하는 모든 환경에 활용될 수 있는데, 요즘 진행중인 분야는 청각장애인, 난청인 또는 어린이들이 인터넷 강의를 보고 싶은데 소리가 잘 안 들리거나, 소리가 너무 빨라서 이해하는 데 어려울 경우 스피치 캐치를 통해 자막을 만들어줄 수 있어요. 


인터넷 강의를 플레이 하고, 스피치 캐치를 실행시키면 PC에서 소리를 빼낼 수 있습니다. 그것을 저희 클라우드로 보내면 음성인식 결과를 보여줄 수 있습니다. 즉, 모든 동영상에 대해 사람이 이야기하는 것을 자막으로 보여줄 수 있는 거죠. 



 

대화/커뮤니케이션 이라고 생각해요. STT 기술이 더 발전한다면, 다양한 화자들 간의 대화를 스스로 타이핑 하고, 누가 이야기 했는지까지 알려줄 거에요. 현재 그런 연구가 진행되고 있어요. 소리까지 구분해서 인식 되도록. 그게 마지막 목표인 것 같고요. 이렇게 발전된다면 기계와 편하게 대화를 잘할 수 있는 세상이 되겠죠. 


 

SK (주) C&C와 스피치 캐치의 이야기 어떠셨나요? 스피치 캐치가 청각 장애인을 위한 쉐어톡을 넘어 더 많은 사람에게 도움이 되기를 바랍니다. 스피치 캐치를 통해 기계와 편하게 대화 나눌 날도 곧 찾아올 것 같습니다. 앞으로 스피치 캐치의 무한한 발전을 기대해주세요!