본문 바로가기

AI 스피커와 대화의 비밀, STT 기술-SK㈜ C&C의 ‘Speech Catch’

AI 스피커와 대화의 비밀, STT 기술-SK㈜ C&C의 ‘Speech Catch’ 



SK Careers Editor 권하은



“아리야, 오늘 날씨 어때?” 다른 일을 하는 동시에 AI 스피커에게 말로 오늘의 날씨를 물어보는 상황은 더 이상 공상과학 영화 속에서만 존재하는 상황이 아닙니다. 어떻게 AI 스피커는 우리의 음성을 인식하고, 인식된 음성을 바탕으로 우리가 원하는 답변을 제공하는 걸까요? 그 비밀의 해답은 바로 STT 기술! 그 기술을 선도하는 SK㈜C&C의 STT인 ‘Speech Catch’에 대해 알아보겠습니다.


#1. STT가 무엇인가요?

STT는 'Speech-to-Text'의 약자로, 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 것을 의미합니다.



음성인식 기술이 최근에 활발히 상용되고 있지만 음성인식의 역사의 시작은 1950년대까지 거슬러 올라가게 됩니다. 당시 미국에서는 사람이 말하는 모습을 X레이로 촬영하고 목소리의 구조를 조사하는 연구를 활발히 진행하며 소리를 낼 때 일어나는 변화를 확인하죠. 이후, 이를 수학적으로 기록하고 서술했습니다. 소리를 낼 때 나온 수식 모델에 소리를 합성하면 음성 합성이 되고, 입력된 음성이 어떤 모델에 가까운가를 살펴보면 음성인식이 가능하다고 믿었기 때문이죠. 


1963년에 IBM이 개발한 음성인식 기기인 ‘슈박스(Shoebox)’는 음성으로 영단어 16개를 인식하는 것은 물론 간단한 숫자 계산까지 진행할 수 있었습니다. 그 이후에도 음성인식의 대한 연구는 계속 되어 오늘날에는 스마트폰, AI 스피커, 스마트 가전 등 우리의 일상생활과 밀접한 다양한 기기들에 음성인식 기술을 접목함으로써 음성인식 기술이 빠르게 발전 및 대중화 되고 있습니다. 그렇다면 SK㈜ C&C의 STT인 ‘Speech Catch’에 대해 알아볼까요?


#2. SK㈜ C&C의 STT, ‘Speech Catch’




SK㈜ C&C의 STT, ‘Speech Catch’는 휘발성인 음성 데이터를 영구 보존 가능한 텍스트 데이터로 정보 자산화하여 활용 가능 용도를 도출하는 음성인식 기술입니다.


(1) Speech Catch의 특징이 무엇인가요?



 

SK㈜ C&C Speech Catch 음성인식의 특징은 크게 4개로 나뉘는데요, 첫 번째 특징은 지속적인 음성인식 성능을 개선한다는 점입니다. 다양한 학습 기법 변경을 통한 음향 모델링을 구현하고 대용량 Corpus 확보 및 활용으로 General한 언어 모델링을 구현시킵니다. 두 번째 특징은 연속된 음성 신호에 대해 파일 단위가 처리가 아닌 Socket 통신으로 실시간 인식처리가 가능하다는 점입니다. 세 번째 특징은 고객센터용 실시간 화자분리, 주소인식 등의 특화서비스에 적용 가능하다는 점입니다. 마지막으로 사용자 중심의 솔루션 기능을 강화한다는 특징을 가지고 있습니다. 


(2) Speech Catch의 운영 원리가 어떻게 되나요?

SK㈜ C&C Speech Catch 음성인식은 연속 입력되는 음성신호에 대해 특징 정보를 추출하고, 학습된 언어/음향모델을 기반으로 연산하여 가장 유사한 텍스트를 추출하는 프로세스로 진행됩니다. 

 


(3) Speech Catch만의 강점은 무엇인가요?

AI 스피커를 이용할 때 사용자의 음성을 제대로 인식하지 못해 결국 직접 검색하는 문제를 경험한 적이 한 번쯤 있으실 텐데요, SK㈜ C&C Speech Catch의 'General Model(일상대화 모델)’을 통해 이러한 문제를 해결 할 수 있습니다! 모델링 강화 기법의 변화를 통해 일상 대화에 높은 인식률을 제공하고 적은 'Domain Training(도메인 트레이닝)'으로 효과를 극대화 할 수 있을 뿐만 아니라 Domain Training 전 다양한 Case의 선행학습모델로 기존 모델보다 인식 성능 향상이 월등합니다. 이를 통해 기본 인식률에서 뛰어난 경쟁력을 자랑하고 있습니다.


또한, SK㈜ C&C Speech Catch 음성인식은 주소인식과 같은 특화서비스 적용이 가능합니다. 도메인 특성이 없는 주소 인식은 행정안전부 기준 ‘표준 주소 Model’ 제작으로 도로명・지번 주소에 대해 별도 Training 없이 기능 제공이 가능합니다. 이러한 서비스를 바탕으로 수작업 영역의 자동화를 이룰 수 있고, 단순 주소 변경과 같은 단순 업무는 ARS에서 스스로 처리가 가능해집니다. 


(4) Speech Catch는 어떻게 활용되고 있나요? 앞으로의 전망은?

Speech Catch의 활용 영역은 음성을 매개체로 제어하는 영역과 음성 정보를 기록하는 영역으로 구분할 수 있습니다. '음성제어' 영역으로는 이제는 쉽게 접할 수 있는 'AI 스피커', '모바일 비서', 'Voice Bot' 이 있고, '음성기록' 영역으로는 '콜센터녹취', '자동 회의록', 'Diary' 등이 있습니다. 음성이 사용되는 모든 영역이 대상영역이 될 수 있고, 한글을 사용하는 모든 사람이 고객이 될 수 있습니다. 


앞으로는 더욱 광범위한 영역, 그리고 일상의 영역에서 대화의 주제와 상관없이 항상 인식률이 높아야 하는 서비스들을 STT에 요구합니다. 이를 위해 Speech Catch는 'General Model (일상대화 모델)'을 만들어서 지속적으로, 성능향상을 이어나갈 예정입니다.  또 최근에는, 이 모델로 청각장애인 분들의 '비장애인과의 통합교육' / '직업훈련과정' 등 교육지원 서비스 개발로 Social Value 창출 활동도 계획하고 있다고 합니다.


STT 기술과 SK㈜ C&C의 Speech Catch에 대해서 알게 되셨나요? 그렇다면 다양한 분야에서 우리의 삶을 더욱 편리하게 해줄 SK㈜ C&C의 Speech Catch의 행보를 놓치지 말고 Catch-up!