Microsoft의 새로운 AI는 단 3초 만에 음성을 복제할 수 있습니다.

Photo of author

By Valentina J Researcher

speakers bubbles textvector cartoons background design shutterstock 139612457 768x432 1

AI는 이미지 부터 텍스트 , 인공 단백질 까지 모든 것을 생성하는 데 사용되고 있으며 이제 목록에 또 다른 항목인 음성이 추가되었습니다. 지난 주 Microsoft 연구원들은 단 3초 길이의 샘플을 기반으로 모든 사람의 목소리를 정확하게 시뮬레이션할 수 있는 VALL-E라는 새로운 AI에 대한 논문을 발표했습니다 . VALL-E는 처음으로 만들어진 음성 시뮬레이터는 아니지만 이전 제품과 다른 방식으로 구축되어 오용 가능성이 더 커질 수 있습니다.

대부분의 기존 텍스트 음성 변환 모델은 파형(시간이 지남에 따라 매체를 통해 이동하는 음파의 그래픽 표현)을 사용하여 가짜 음성을 생성하고 톤이나 피치와 같은 특성을 조정하여 주어진 음성에 가깝습니다. 하지만 VALL-E는 누군가의 음성 샘플을 가져와 토큰이라는 구성 요소로 나눈 다음 해당 토큰을 사용하여 이 음성에 대해 이미 학습한 “규칙”을 기반으로 새로운 사운드를 생성합니다. 목소리가 유난히 깊거나 화자가 A를 콧소리로 발음하거나 평균보다 단조로운 경우 이러한 모든 특성을 AI가 포착하고 복제할 수 있습니다.

이 모델은 10월에 막 출시된 Meta의 EnCodec 이라는 기술을 기반으로 합니다 . 이 도구는 세 부분으로 구성된 시스템을 사용하여 품질 저하 없이 오디오를 MP3보다 10배 더 작게 압축합니다. 제작자는 낮은 대역폭 연결을 통해 이루어진 통화에서 음성 및 음악의 품질을 향상시키는 용도 중 하나를 의미했습니다.

VALL-E를 훈련시키기 위해 제작자는 LibriLight 라는 오디오 라이브러리를 사용했습니다 . LibriLight의 60,000시간 분량의 영어 연설은 주로 오디오북 내레이션으로 구성되어 있습니다. 모델은 합성되는 음성이 훈련 라이브러리의 음성 중 하나와 유사할 때 최상의 결과를 산출합니다(이 중 7,000개가 넘으므로 순서가 너무 높지는 않습니다).

VALL-E는 누군가의 목소리를 재현하는 것 외에도 3초 샘플에서 오디오 환경을 시뮬레이션합니다. 전화로 녹음한 클립은 직접 만든 클립과 소리가 다를 수 있으며, 걷거나 운전하면서 이야기하는 경우 해당 시나리오의 고유한 음향이 고려됩니다.

샘플 중 일부는 상당히 사실적으로 들리지만 다른 샘플은 여전히 ​​컴퓨터로 생성된 것이 분명합니다. 그러나 목소리 사이에는 눈에 띄는 차이가 있습니다. 서로 다른 말하기 스타일, 음조, 억양 패턴을 가진 사람들을 기반으로 하고 있다는 것을 알 수 있습니다.

VALL-E를 만든 팀은 악의적인 행위자가 이를 매우 쉽게 사용할 수 있다는 것을 알고 있습니다. 정치인이나 유명인의 목소리를 속이는 것부터 친숙한 목소리를 사용하여 전화로 돈이나 정보를 요청하는 것까지 기술을 활용할 수 있는 방법은 무수히 많습니다. 그들은 VALL-E의 코드를 공개적으로 공개하는 것을 현명하게 자제했으며 논문 끝에 윤리 성명을 포함했습니다(이는 AI를 사악한 목적으로 사용하려는 사람을 단념하는 데 큰 도움이 되지 않습니다).

유사한 도구가 등장하여 잘못된 사람의 손에 들어가는 것은 시간 문제일 것입니다. 연구원들은 오디오 클립이 실제인지 합성인지를 측정하는 감지 모델을 구축함으로써 VALL-E와 같은 모델이 제시하는 위험을 완화할 수 있다고 제안합니다. AI로부터 우리를 보호하기 위해 AI가 필요한 경우 이러한 기술이 순 긍정적인 영향을 미치는지 어떻게 알 수 있습니까? 시간이 말해 줄 것이다.

이미지 출처 Shutterstock.com/Tancha

Leave a Comment