인간을 모방하는 알고리즘을 가르치려면 일반적으로 수백 또는 수천 개의 예제가 필요합니다. 하지만 Google DeepMind의 새로운 AI는 인간 시연자로부터 즉석에서 새로운 기술을 습득할 수 있습니다.
인류의 가장 큰 비결 중 하나는 서로에게서 빠르고 효율적으로 지식을 얻는 능력입니다. 종종 문화 전달이라고도 불리는 이러한 종류의 사회적 학습을 통해 동료에게 새로운 도구를 사용하는 방법을 보여주거나 아이들에게 동요를 가르칠 수 있습니다.
연구자들이 기계에서 프로세스를 복제하려고 시도한 것은 놀라운 일이 아닙니다. AI가 인간이 작업을 완료하는 것을 지켜본 다음 인간의 행동을 모방하는 모방 학습은 오랫동안 로봇 훈련에 널리 사용되어 왔습니다. 그러나 오늘날 가장 발전된 딥 러닝 알고리즘이라도 일반적으로 트레이너를 성공적으로 복사하려면 많은 예를 확인해야 합니다.
인간은 모방을 통해 학습할 때 몇 번의 시연 후에 새로운 작업을 선택할 수 있는 경우가 많습니다. 이제 Google DeepMind 연구자들은 실시간으로 인간으로부터 가상 세계를 탐색하는 방법을 학습하는 에이전트를 통해 AI의 신속한 사회적 학습을 향한 한 걸음을 내디뎠습니다.
연구원들은 Nature Communications 에 게재한 논문에서 “우리 에이전트는 사전 수집된 인간 데이터를 사용하지 않고도 새로운 맥락에서 인간을 실시간으로 모방하는 데 성공했습니다.”라고 썼습니다 . “ 우리는 문화적 전달을 생성하는 데 충분한 놀랍도록 간단한 요소 세트를 식별합니다.”
연구원들은 GoalCycle3D라는 특별히 설계된 시뮬레이터에서 에이전트를 교육했습니다. 시뮬레이터는 알고리즘을 사용하여 시뮬레이션 작동 방식과 시뮬레이션의 어떤 측면이 달라야 하는지에 대한 규칙을 기반으로 거의 끝없이 다양한 환경을 생성합니다.
각 환경에서 작은 덩어리 같은 AI 에이전트는 고르지 않은 지형과 다양한 장애물을 탐색하여 특정 순서로 일련의 색상이 지정된 구체를 통과해야 합니다. 지형의 울퉁불퉁함, 장애물의 밀도, 구의 구성은 환경에 따라 다릅니다.
에이전트는 강화 학습을 사용하여 탐색하도록 훈련되었습니다 . 그들은 올바른 순서로 구체를 통과함으로써 보상을 받고 이 신호를 사용하여 많은 시험에서 성과를 향상시킵니다. 그러나 또한 환경에는 이미 코스의 올바른 경로를 알고 있는 하드 코딩되거나 인간이 제어하는 전문 에이전트가 있습니다.
여러 번의 훈련을 통해 AI 에이전트는 환경이 어떻게 작동하는지에 대한 기본 사항뿐만 아니라 각 문제를 해결하는 가장 빠른 방법은 전문가를 모방하는 것임을 학습합니다. 에이전트가 과정을 단순히 암기하는 것이 아니라 모방하는 방법을 학습할 수 있도록 팀에서는 한 환경 세트에서 에이전트를 교육한 다음 다른 환경에서 테스트했습니다. 결정적으로, 훈련 후 팀은 에이전트가 전문가를 모방하고 전문가 없이도 계속해서 경로를 따를 수 있음을 보여주었습니다.
이를 위해서는 표준 강화 학습 접근 방식에 대한 몇 가지 조정이 필요했습니다.
연구진은 알고리즘이 다른 에이전트의 위치를 예측하도록 하여 전문가에게 초점을 맞추도록 했습니다. 그들은 또한 메모리 모듈을 제공했습니다. 훈련 중에 전문가는 환경에 드나들고 에이전트가 더 이상 존재하지 않을 때의 작업을 기억하도록 강요했습니다. AI는 또한 광범위한 환경에서 교육을 받았기 때문에 가능한 다양한 작업을 확인할 수 있었습니다.
하지만 이 접근 방식을 보다 실용적인 영역으로 변환하는 것은 어려울 수 있습니다. 주요 제한 사항은 연구원들이 AI가 인간 시연으로부터 학습할 수 있는지 테스트할 때 모든 훈련 실행 중에 전문 에이전트가 한 사람에 의해 제어된다는 것입니다. 따라서 에이전트가 다양한 사람들로부터 배울 수 있는지 여부를 알기가 어렵습니다.
더욱 시급한 점은 훈련 환경을 무작위로 변경하는 능력을 현실 세계에서 재현하기가 어렵다는 것입니다. 그리고 기본 작업은 단순하여 미세한 모터 제어가 필요하지 않고 고도로 제어된 가상 환경에서 발생했습니다.
그래도 AI의 사회적 학습 진전은 환영할 만하다. 우리가 지능형 기계가 있는 세상에 살고 싶다면 우리의 경험과 전문 지식을 기계와 공유할 수 있는 효율적이고 직관적인 방법을 찾는 것이 중요할 것입니다.
이미지 출처: Juliana e Mariana Amorim / Unsplash