Sam이 처음으로 가벼운 카메라를 이마에 묶었을 때는 생후 6개월이었습니다.
그 후 1년 반 동안 카메라는 그의 삶의 일부를 포착했습니다. 그는 가족의 애완동물 주위를 기어 다니고, 부모님이 요리하는 것을 지켜보고, 할머니와 함께 현관에서 울었습니다. 그러는 동안 카메라는 그가 듣는 모든 것을 녹음했습니다.
귀여운 유아용 홈 비디오처럼 들리는 것은 실제로는 대담한 개념입니다. AI가 어린이처럼 언어를 배울 수 있습니까? 결과는 또한 아이들이 어떻게 어린 나이에 언어와 개념을 빠르게 습득하는지를 밝힐 수 있습니다.
사이언스 (Science) 의 새로운 연구 에서는 연구자들이 샘의 녹음을 사용하여 AI가 언어를 이해하도록 훈련시키는 방법을 설명합니다. 1년 동안 한 아이의 삶의 경험 중 아주 작은 부분만으로 AI는 공, 나비, 양동이 등의 기본 개념을 파악할 수 있었습니다.
CVCL(Child’s View for Contrastive Learning)이라고 불리는 AI는 시각과 오디오를 일치시켜 유아기 학습 방식을 대략적으로 모방합니다. 이는 ChatGPT 또는 Bard 와 같은 대규모 언어 모델에서 사용하는 것과는 매우 다른 접근 방식입니다 . 에세이, 시, 심지어 팟캐스트 대본까지 작성하는 이들 모델의 놀라운 능력은 전 세계를 감동시켰습니다. 그러나 이러한 기술을 개발하려면 다양한 뉴스 기사, 각본, 책에 나오는 수조 개의 단어를 소화해야 합니다.
대조적으로, 아이들은 훨씬 적은 양의 입력으로도 학습하고 성장함에 따라 학습 내용을 빠르게 일반화합니다. 과학자들은 AI가 일상적인 경험만으로 이러한 능력을 포착할 수 있는지 오랫동안 궁금해해 왔습니다.
NYU 데이터 과학 센터의 와이 킨 봉(Wai Keen Vong) 박사는 “우리는 한 아이의 발달상 현실적인 입력으로 훈련된 신경망이 단어를 시각적 대응물에 연결하는 방법을 배울 수 있다는 것을 처음으로 보여주었습니다.” 라고 말했습니다. 연구에 대한 보도 자료 .
어린이 놀이
아이들은 일상의 경험을 통해 단어와 그 의미를 쉽게 흡수합니다.
생후 6개월만 되면 아이들은 자신이 보고 있는 것에 단어를 연결하기 시작합니다. 예를 들어 둥글고 탄력 있는 것은 ‘공’입니다. 2세가 되면 대략 300개의 단어와 그 개념을 알게 됩니다.
과학자들은 이것이 어떻게 일어나는지 오랫동안 토론해 왔습니다. 한 이론에 따르면 아이들은 자신이 보고 있는 것과 듣는 것을 일치시키는 법을 배운다고 합니다. 또 다른 사람은 언어 학습에는 사회적 상호 작용 및 추론 능력과 같은 세상에 대한 더 넓은 경험이 필요하다고 제안합니다.
유아를 대상으로 한 전통적인 인지 테스트로는 이러한 아이디어를 구분하기가 어렵습니다. 하지만 아이의 눈과 귀를 통해 AI를 훈련시키면 답을 얻을 수 있습니다.
M3GAN?
새로운 연구에서는 SAYCam 이라는 풍부한 비디오 리소스를 활용했습니다 . 이 리소스에는 GoPro와 같은 카메라를 이마에 고정한 6~32개월 사이의 어린이 3명으로부터 수집한 데이터가 포함되어 있습니다.
매주 두 번씩, 카메라는 간호하고, 기어가고, 노는 동안 약 한 시간 분량의 영상과 오디오를 녹음했습니다. 들을 수 있는 모든 대화는 화자나 대화가 바뀌기 전에 말한 단어나 문장인 ‘발화’로 기록되었습니다. 그 결과, 영유아의 관점에서 본 풍부한 멀티미디어 데이터가 탄생했습니다.
새로운 시스템을 위해 팀은 이를 조정하기 위한 “판단”을 갖춘 두 개의 신경망을 설계했습니다. 한 명은 1인칭 영상을 장면의 누가 그리고 무엇인지로 번역했습니다. 요리하는 엄마인가요? 기타 오디오 녹음에서 해독된 단어와 의미.
두 시스템은 시간에 따라 상호 연관되어 AI는 올바른 시각적 요소를 단어와 연관시키는 방법을 학습했습니다. 예를 들어, AI는 아기 이미지를 “보세요, 아기가 있어요”라는 단어와 연결하거나 요가 공 이미지를 “와, 저거 큰 공이군요”와 연결하는 방법을 학습했습니다. 훈련을 통해 점차적으로 요가볼의 개념을 아기와 분리하는 방법을 배웠습니다.
Vong은 “이는 어떤 단어가 어떤 개체와 연관되어야 하는지에 대한 단서를 모델에 제공합니다.”라고 말했습니다.
그런 다음 팀은 Sam의 삶 중 약 1년 반 동안 촬영한 비디오로 AI를 훈련시켰습니다. 이를 합치면 600,000개가 넘는 비디오 프레임과 37,500개의 녹음된 발언이 결합됩니다. 숫자가 큰 것처럼 들리지만, 이는 대규모 언어 모델을 훈련하는 데 사용되는 데이터 양에 비하면 Sam의 일상 생활의 대략 1%에 불과하며 땅콩입니다.
아기 AI 증가
시스템을 테스트하기 위해 팀은 어린이의 언어 능력을 측정하는 데 사용되는 일반적인 인지 테스트를 채택했습니다. 그들은 AI에 고양이, 유아용 침대, 공, 잔디밭 등 4개의 새로운 이미지를 보여주고 어느 것이 공인지 물었습니다.
전체적으로 AI는 약 62%의 시간 동안 올바른 이미지를 선택했습니다. 성능은 웹의 4억 개의 이미지 및 텍스트 쌍에 대해 훈련된 최첨단 알고리즘과 거의 일치했습니다. 이는 연구에서 AI를 훈련하는 데 사용된 것보다 훨씬 더 많은 데이터입니다. 그들은 비디오 이미지를 오디오와 연결하는 것이 중요하다는 것을 발견했습니다. 팀이 비디오 프레임과 관련 발화를 섞었을 때 모델이 완전히 무너졌습니다.
AI는 고정관념에서 벗어나 “생각”하고 새로운 상황에 일반화할 수도 있습니다.
또 다른 테스트에서는 샘의 부모가 “오리와 나비다”라고 말하면서 그림책을 바라보는 샘의 관점에 대해 훈련시켰습니다. 나중에 그는 “나비를 할 수 있나요?”라는 질문에 장난감 나비를 들고 있었습니다. AI가 이전에 본 적이 없는 다양한 색상의 나비 이미지에 도전했을 때 AI는 80% 이상의 정확도로 “나비”에 대한 4개 중 3개를 감지했습니다.
모든 단어 개념의 점수가 동일하지는 않습니다. 예를 들어 ‘숟가락’은 어려움을 겪었습니다. 하지만 reCAPTCHA 와 마찬가지로 훈련 이미지도 인간이 해독하기 어려웠다는 점을 지적할 가치가 있습니다 .
성장통
AI 는 텍스트, 이미지, 오디오 또는 비디오를 결합하여 기계 두뇌를 훈련시키는 다중 모드 기계 학습의 최근 발전을 기반으로 합니다 .
단 한 명의 어린이의 경험을 바탕으로 알고리즘은 단어가 서로 어떻게 연관되어 있는지 파악하고 단어를 이미지 및 개념에 연결할 수 있었습니다. 이는 유아가 단어를 듣고 보고 있는 것과 일치시키는 것이 어휘력을 키우는 데 도움이 된다는 것을 시사합니다.
그렇다고 사회적 단서나 추론과 같은 다른 두뇌 과정이 작동하지 않는다는 말은 아닙니다. 알고리즘에 이러한 구성 요소를 추가하면 알고리즘이 잠재적으로 향상될 수 있다고 저자는 썼습니다.
연구팀은 실험을 계속할 계획이다. 현재 “아기” AI는 정지 이미지 프레임에서만 학습하며 대부분 명사로 구성된 어휘를 가지고 있습니다. 비디오 세그먼트를 교육에 통합하면 비디오에 움직임이 포함되므로 AI가 동사를 학습하는 데 도움이 될 수 있습니다.
음성 데이터에 억양을 추가하는 것도 도움이 될 수 있습니다. 아이들은 엄마의 “흠”이 어조에 따라 매우 다른 의미를 가질 수 있다는 것을 일찍부터 배웁니다.
그러나 전반적으로 AI와 생활 경험을 결합하는 것은 기계와 인간의 두뇌를 모두 연구하는 강력하고 새로운 방법입니다. 이는 어린이처럼 학습하는 새로운 AI 모델을 개발하는 데 도움이 될 수 있으며 잠재적으로 우리 뇌가 언어와 개념을 학습하는 방식에 대한 이해를 재구성할 수 있습니다.
이미지 출처: Wai Keen Vong