AI는 이미지 부터 텍스트 , 인공 단백질 까지 모든 것을 생성하는 데 사용되고 있으며 이제 목록에 또 다른 항목인 음성이 추가되었습니다. 지난 주 Microsoft 연구원들은 단 3초 길이의 샘플을 기반으로 모든 사람의 목소리를 정확하게 시뮬레이션할 수 있는 VALL-E라는 새로운 AI에 대한 논문을 발표했습니다 . VALL-E는 처음으로 만들어진 음성 시뮬레이터는 아니지만 이전 제품과 다른 방식으로 구축되어 오용 가능성이 더 커질 수 있습니다.
대부분의 기존 텍스트 음성 변환 모델은 파형(시간이 지남에 따라 매체를 통해 이동하는 음파의 그래픽 표현)을 사용하여 가짜 음성을 생성하고 톤이나 피치와 같은 특성을 조정하여 주어진 음성에 가깝습니다. 하지만 VALL-E는 누군가의 음성 샘플을 가져와 토큰이라는 구성 요소로 나눈 다음 해당 토큰을 사용하여 이 음성에 대해 이미 학습한 “규칙”을 기반으로 새로운 사운드를 생성합니다. 목소리가 유난히 깊거나 화자가 A를 콧소리로 발음하거나 평균보다 단조로운 경우 이러한 모든 특성을 AI가 포착하고 복제할 수 있습니다.
이 모델은 10월에 막 출시된 Meta의 EnCodec 이라는 기술을 기반으로 합니다 . 이 도구는 세 부분으로 구성된 시스템을 사용하여 품질 저하 없이 오디오를 MP3보다 10배 더 작게 압축합니다. 제작자는 낮은 대역폭 연결을 통해 이루어진 통화에서 음성 및 음악의 품질을 향상시키는 용도 중 하나를 의미했습니다.
VALL-E를 훈련시키기 위해 제작자는 LibriLight 라는 오디오 라이브러리를 사용했습니다 . LibriLight의 60,000시간 분량의 영어 연설은 주로 오디오북 내레이션으로 구성되어 있습니다. 모델은 합성되는 음성이 훈련 라이브러리의 음성 중 하나와 유사할 때 최상의 결과를 산출합니다(이 중 7,000개가 넘으므로 순서가 너무 높지는 않습니다).
VALL-E는 누군가의 목소리를 재현하는 것 외에도 3초 샘플에서 오디오 환경을 시뮬레이션합니다. 전화로 녹음한 클립은 직접 만든 클립과 소리가 다를 수 있으며, 걷거나 운전하면서 이야기하는 경우 해당 시나리오의 고유한 음향이 고려됩니다.
샘플 중 일부는 상당히 사실적으로 들리지만 다른 샘플은 여전히 컴퓨터로 생성된 것이 분명합니다. 그러나 목소리 사이에는 눈에 띄는 차이가 있습니다. 서로 다른 말하기 스타일, 음조, 억양 패턴을 가진 사람들을 기반으로 하고 있다는 것을 알 수 있습니다.
VALL-E를 만든 팀은 악의적인 행위자가 이를 매우 쉽게 사용할 수 있다는 것을 알고 있습니다. 정치인이나 유명인의 목소리를 속이는 것부터 친숙한 목소리를 사용하여 전화로 돈이나 정보를 요청하는 것까지 기술을 활용할 수 있는 방법은 무수히 많습니다. 그들은 VALL-E의 코드를 공개적으로 공개하는 것을 현명하게 자제했으며 논문 끝에 윤리 성명을 포함했습니다(이는 AI를 사악한 목적으로 사용하려는 사람을 단념하는 데 큰 도움이 되지 않습니다).
유사한 도구가 등장하여 잘못된 사람의 손에 들어가는 것은 시간 문제일 것입니다. 연구원들은 오디오 클립이 실제인지 합성인지를 측정하는 감지 모델을 구축함으로써 VALL-E와 같은 모델이 제시하는 위험을 완화할 수 있다고 제안합니다. AI로부터 우리를 보호하기 위해 AI가 필요한 경우 이러한 기술이 순 긍정적인 영향을 미치는지 어떻게 알 수 있습니까? 시간이 말해 줄 것이다.
이미지 출처 : Shutterstock.com/Tancha