AI 기반 뇌 이식으로 생각을 텍스트로 전환하는 속도 기록 경신

Photo of author

By Valentina J Researcher

conversation ge708fdf11 1280 speech to text brain implant 768x432 1

우리는 매분 대략 160단어의 속도로 말합니다. 그 속도는 언어 뇌 임플란트의 경우 달성하기가 엄청나게 어렵습니다.

수십 년에 걸쳐 제작된 음성 임플란트는 생각을 텍스트나 소리로 변환하는 것을 목표로 뇌에 삽입된 작은 전극 배열을 사용하여 신경 활동을 측정합니다. 마비, 질병 또는 기타 부상으로 인해 말하는 능력을 잃은 사람들에게 매우 귀중한 제품입니다. 하지만 속도가 엄청나게 느리기 때문에 분당 단어 수가 거의 10배나 줄어듭니다. 느리게 로드되는 웹페이지나 오디오 파일처럼 지연으로 인해 일상적인 대화가 불편해질 수 있습니다.

Drs가 이끄는 팀. Stanford University의 Krishna Shenoy와 Jaimie Henderson은 이러한 속도 격차를 줄이고 있습니다.

사전 인쇄 서버인 bioRxiv 에 게시 된 그들의 연구는 67세 여성이 기록적인 속도로 뇌 임플란트를 사용하여 외부 세계와 의사소통하는 능력을 회복하는 데 도움이 되었습니다. ‘T12’로 알려진 이 여성은 근위축성측색경화증(ALS), 즉 신체의 근육을 조절하는 뇌의 능력을 점진적으로 빼앗아가는 루게릭병으로 인해 점차 말을 잃었습니다. T12는 말하려고 할 때 여전히 소리를 낼 수 있었지만 단어는 이해할 수 없게 나왔습니다.

임플란트를 통해 T12의 말 시도는 이제 화면의 텍스트로 실시간으로 해독되고 “그냥 힘들어요” 또는 “오는 게 즐겁습니다”와 같은 문구를 포함하여 컴퓨터 음성으로 큰 소리로 말합니다. 그 말은 분당 62번의 속도로 빠르고 격렬하게 흘러나왔는데, 이는 이전 기록의 3배가 넘는 속도였습니다.

속도만 필요한 것이 아닙니다. 또한 이 연구는 해당 규모의 첫 번째 시연에서 임플란트를 사용하여 음성 디코딩에 사용되는 가장 큰 어휘 라이브러리(약 125,000단어)를 활용했습니다.

확실히 말하자면, 이는 ” 큰 돌파구 “였으며 전문가에 따르면 “인상적인 새로운 성과 벤치마크”에 도달했지만 아직 동료 검토를 거치지 않았으며 결과는 한 명의 참가자에게만 국한되었습니다.

즉, 기본 기술은 ALS에만 국한되지 않습니다. 음성 인식의 향상은 이전에 신경 신호를 디코딩하는 데 효과적이었던 기계 학습 알고리즘인 순환 신경망인 RNN과 언어 모델 간의 결합에서 비롯됩니다. 추가 테스트를 통해 이 설정은 중증 마비, 뇌졸중 또는 감금 증후군을 앓고 있는 사람들이 자신의 생각만으로 사랑하는 사람과 부담 없이 대화할 수 있는 길을 열어줄 수 있습니다.

우리는 “자연스러운 대화의 속도에 접근”하기 시작했다고 저자는 말했습니다.

단어 손실

팀은 사람들에게 발언권을 돌려주는 데 익숙합니다.

뇌 임플란트를 사용하여 통신을 복원하기 위한 선구적인 글로벌 협력인 BrainGate 의 일환으로 팀은 뇌의 신경 신호를 사용하여 통신을 복원하는 능력을 구상하고 실현했습니다.

2021년에는 척수 손상 및 마비 유형을 가진 사람의 정신을 돕는 뇌-컴퓨터 인터페이스(BCI)를 설계했습니다 . 환자 뇌의 운동 영역에 96개의 마이크로 전극 어레이를 삽입한 후, 팀은 환자가 각 문자를 쓰는 동작을 상상하면서 다양한 문자에 대한 뇌 신호를 해독할 수 있었고 94% 이상의 정확도로 일종의 “마인드 텍스팅”을 달성했습니다.

문제? 속도는 최대 분당 90자 정도였습니다. 이전 설정에 비해 크게 개선되었지만 일상적인 사용에는 여전히 고통스러울 정도로 느렸습니다.

그렇다면 뇌의 언어 중추를 직접 활용해 보는 것은 어떨까요?

언어에 관계없이 음성을 해독하는 것은 악몽입니다. 혀와 주변 근육의 작고 종종 무의식적인 움직임은 음소라고도 알려진 매우 다양한 소리 클러스터를 유발할 수 있습니다. 안면 근육의 모든 단일 경련이나 혀의 깜박임의 뇌 활동을 소리와 연결시키려는 노력은 엄청난 작업입니다.

해킹 연설

BrainGate2 신경 인터페이스 시스템 시험의 일부인 새로운 연구에서는 영리한 해결 방법을 사용했습니다.

팀은 먼저 전략적으로 위치한 4개의 전극 마이크로어레이를 T12 뇌의 바깥층에 배치했습니다. 두 개는 입 주변의 안면 근육 주변의 움직임을 제어하는 ​​부위에 삽입되었습니다. 나머지 두 개는 브로카 영역(Broca’s Area) 이라고 불리는 뇌의 “언어 센터”에 곧바로 접근했습니다 .

이론적으로 배치는 천재적인 투인원(two-in-one)이었습니다. 이는 사람이 말하고 싶은 것과 근육 움직임을 통한 실제 연설 실행을 모두 포착했습니다.

그러나 이는 또한 위험한 제안이기도 했습니다. 언어가 입과 얼굴 주위의 근육을 제어하는 ​​작은 뇌 영역에만 국한되어 있는지, 아니면 언어가 뇌 내부의 보다 세계적인 규모로 인코딩되어 있는지 아직 알 수 없습니다.

RNN을 입력하세요. 딥러닝의 일종인 이 알고리즘은 이전에 뇌 운동 영역의 신경 신호를 텍스트로 변환했습니다. 첫 번째 테스트에서 팀은 신경 신호만을 기반으로 눈썹을 찌푸리거나 입술을 오므리거나 혀를 튕기는 등 언어를 위한 다양한 유형의 얼굴 움직임을 92% 이상의 정확도로 쉽게 분리한다는 사실을 발견했습니다.

그런 다음 RNN은 “huh”, “ah”, “tze”와 같은 음소를 실시간으로 제안하도록 학습되었습니다. 현상은 한 단어를 다른 단어와 구별하는 데 도움이 됩니다. 본질적으로 그것은 말의 기본 요소입니다.

훈련은 효과가 있었습니다. T12는 매일 자신의 속도에 맞춰 260~480개의 문장을 말하려고 시도하여 자신의 음성 패턴에 기초한 특정 신경 활동을 알고리즘에 가르쳤습니다. 전체적으로 RNN은 거의 11,000개의 문장에 대해 훈련되었습니다.

팀은 디코더를 염두에 두고 RNN 인터페이스를 두 가지 언어 모델과 연결했습니다. 한 사람은 특히 125,000단어에 달하는 방대한 어휘력을 갖고 있었습니다. 다른 하나는 일상 생활에서 간단한 문장에 사용되는 50개의 단어가 있는 작은 라이브러리였습니다.

5일간 말하기를 시도한 후 두 언어 모델 모두 T12의 단어를 해독할 수 있었습니다. 시스템에 오류가 있었습니다. 작은 도서관의 경우 약 10%, 큰 도서관의 경우 거의 24%였습니다. 그러나 화면에서 문장 프롬프트를 반복하라는 요청을 받았을 때 시스템은 이전 모델보다 3배 빠르게 그녀의 신경 활동을 문장으로 즉시 번역했습니다.

임플란트는 그녀가 말을 시도하든, 아니면 조용히 문장을 입으로 말하든 상관없이 작동했습니다(그녀는 에너지가 덜 필요하기 때문에 후자를 선호했습니다).

T12의 신경 신호를 분석한 결과, 팀은 뇌의 특정 영역이 모음 및 기타 음소를 인코딩하는 신경 신호 패턴을 유지한다는 사실을 발견했습니다. 즉, 수년간 언어 마비가 발생한 후에도 뇌는 뇌 임플란트를 사용하여 해독할 수 있는 “상세한 조음 코드”, 즉 신경 신호에 내장된 음소 사전을 유지하고 있습니다.

당신의 마음을 말하다

이 연구는 심각한 부상을 입었거나 신경퇴행성 장애로 인해 서서히 퍼지는 마비가 발생한 지 수십 년이 지난 후 뇌 임플란트를 사용하여 언어를 복원하는 많은 다른 연구를 기반으로 합니다. 하드웨어는 잘 알려져 있습니다. Blackrock 미세 전극 배열은 뇌의 전기 신호를 수신하는 64개 채널로 구성됩니다.

다른 점은 작동 방식입니다. 즉, 소프트웨어가 시끄러운 신경 대화를 응집력 있는 의미나 의도로 변환하는 방법입니다. 이전 모델은 대부분 뇌의 신경 기록에서 직접 얻은 디코딩 데이터에 의존했습니다.

여기에서 팀은 이제 Gmail이나 문자 메시지에 널리 사용되는 자동 완성 기능과 유사한 언어 모델 또는 AI 알고리즘이라는 새로운 리소스를 활용했습니다. 기술 태그 팀은 GPT-3 및 기타 신흥 대규모 언어 모델 의 등장으로 특히 유망합니다 . 간단한 프롬프트에서 음성 패턴을 생성하는 데 뛰어난 이 기술은 환자의 신경 신호와 결합되면 몇 시간의 훈련 없이도 생각을 “자동 완성”할 수 있습니다.

이 전망은 매력적이기는 하지만 한편으로는 주의가 필요합니다. GPT-3 및 유사한 AI 모델은 이전 훈련 데이터를 기반으로 스스로 설득력 있는 음성을 생성할 수 있습니다. 말을 할 수 없는 마비 환자의 경우 AI가 환자가 말하려는 내용을 생성하므로 가드레일이 필요합니다.

저자들은 현재로서는 자신들의 작업이 개념 증명이라는 점에 동의합니다. 유망하긴 하지만 음성 해독을 위한 “아직 완전하고 임상적으로 실행 가능한 시스템은 아닙니다”. 우선, 그들은 더 짧은 시간에 디코더를 훈련시키고 더 유연하게 만들어 끊임없이 변화하는 뇌 활동에 적응할 수 있도록 해야 한다고 말했습니다. 또 다른 예로, 약 24%의 오류율은 일상적인 사용에 비해 너무 높습니다. 하지만 임플란트 채널 수를 늘리면 정확도가 향상될 수 있습니다.

그러나 현재로서는 “더 이상 말을 할 수 없는 마비 환자의 신속한 의사소통을 회복”한다는 궁극적인 목표에 더 가까이 다가갈 수 있다고 저자는 말했습니다.

이미지 크레디트: Miguel Á. Pixabay 로부터 입수된 Padriñán

Leave a Comment