인생의 문제에 대해 ChatGPT에 털어놓은 적이 있다면 공감적인 답변이 들릴 수 있습니다. 챗봇은 긍정적인 지원을 제공하고, 메시지가 표시되면 가장 친한 친구처럼 조언도 제공합니다.
기존 챗봇과 달리 최신 AI 모델의 ‘공감적’ 특성은 이미 심리 치료 커뮤니티에 활력을 불어넣었고 많은 사람들 이 치료에 도움이 될 수 있는지 궁금해하고 있습니다.
다른 사람의 정신 상태를 추론하는 능력은 일상적인 상호 작용의 핵심 측면입니다. ‘마음 이론’이라고 불리는 이 이론은 종종 말을 해석함으로써 다른 사람의 마음 속에서 무슨 일이 일어나고 있는지 추측할 수 있게 해줍니다. 비꼬는 건가요? 거짓말을 하고 있는 걸까요? 그들은 명백하게 말하지 않은 것을 암시하고 있습니까?
“사람들은 다른 사람들이 어떻게 생각하는지에 관심을 갖고 다른 사람들의 생각에 무슨 일이 일어나고 있는지 생각하는 데 많은 노력을 기울입니다.”라고 University Medical Center Hanburg-Eppendorf의 Cristina Becchio 박사와 동료들은 Nature Human Behavior 에 대한 새로운 연구 에서 썼습니다 .”
연구에서 과학자들은 대규모 언어 모델이라고 불리는 기계 학습 알고리즘을 기반으로 하는 ChatGPT 및 기타 유사한 챗봇이 다른 사람들의 사고방식도 추측할 수 있는지 물었습니다. 마음 이론의 특정 측면에 맞춰진 일련의 심리학 테스트를 사용하여 OpenAI의 GPT 시리즈와 Meta의 LLaMA 2를 포함한 두 가지 대규모 언어 모델 제품군을 1,900명 이상의 인간 참가자와 비교했습니다.
ChatGPT의 기반이 되는 알고리즘인 GPT-4는 아이러니 식별과 같은 일부 작업에서 인간 수준 이상으로 수행되었습니다. 한편, LLaMA 2는 누군가가 의도하지 않은 말을 했지만 깨닫지 못하는 경우를 탐지하는 데 있어서 인간과 GPT를 모두 능가했습니다.
분명히 말하면, 결과는 LLM이 마음 이론을 가지고 있음을 확인하지 않습니다. 오히려 그들은 이러한 알고리즘이 “우리를 인간으로 정의하는” 핵심 개념의 특정 측면을 모방할 수 있음을 보여주었다고 저자는 썼습니다.
말하지 않은 것
대략 4세가 되면 아이들은 사람들이 항상 똑같이 생각하는 것은 아니라는 것을 이미 알고 있습니다. 우리는 서로 다른 신념, 의도, 필요를 가지고 있습니다. 다른 사람의 입장에서 생각함으로써 아이들은 다른 관점을 이해하고 공감을 얻을 수 있습니다.
1978년에 처음 소개된 마음 이론은 사회적 상호작용의 윤활유입니다. 예를 들어, 답답한 방에서 닫힌 창문 근처에 서 있는데 근처에 있는 누군가가 “여기 좀 덥네요”라고 말한다면, 그 사람이 정중하게 창문을 열어 달라는 뜻인지 직감하려면 그 사람의 관점을 생각해야 합니다. .
예를 들어 자폐증과 같이 능력이 저하되면 다른 사람의 감정, 욕구, 의도를 파악하고 속임수를 알아채는 것이 어려워집니다. 그리고 문자나 이메일이 수신자가 보낸 사람의 의미를 잘못 해석하여 오해로 이어지는 경우를 우리 모두 경험해 본 적이 있습니다.
그렇다면 챗봇 뒤에 있는 AI 모델은 어떻습니까?
인간 대 기계
2018년에 웨스트 잉글랜드 대학의 로봇 윤리학 교수인 앨런 윈필드(Alan Winfield) 박사는 마음 이론을 통해 AI가 사람과 다른 로봇의 의도를 “이해”할 수 있다는 아이디어를 옹호했습니다. 당시 그는 학습된 것이 아니라 내장된 사회적 상호 작용에 대한 상식을 갖춘 프로그래밍된 내부 모델을 알고리즘에 제공할 것을 제안했습니다.
대규모 언어 모델은 완전히 다른 접근 방식을 취하여 대규모 데이터 세트를 수집하여 공감을 느끼는 인간과 같은 반응을 생성합니다. 그러나 그들은 마음 이론의 징후를 보이고 있습니까?
수년에 걸쳐 심리학자들은 우리가 다른 사람의 사고방식을 모델링하는 능력을 얻는 방법을 연구하기 위해 일련의 테스트를 개발했습니다. 새로운 연구에서는 1,907명의 건강한 인간 참가자를 대상으로 OpenAI의 GPT 모델(GPT-4 및 GPT-3.5)과 Meta의 LLaMA-2-Chat의 두 가지 버전을 비교했습니다. 사회적 시나리오에 대한 텍스트 설명만을 토대로 정신 능력 이론에 대한 다양한 이론을 포괄하는 포괄적인 테스트를 사용하여 가상의 인물의 “사고 방식”을 측정해야 했습니다.
각 테스트는 심리학에서 인간의 마음 이론을 측정하기 위해 이미 잘 확립되어 있습니다.
첫 번째는 “거짓 믿음”이라고 불리는 것으로 유아가 자기 감각과 타인에 대한 인식을 얻는 과정을 테스트하는 데 자주 사용됩니다. 예를 들어, 당신은 이야기를 듣습니다. 루시와 미아가 찬장에 오렌지 주스 한 상자를 들고 부엌에 있습니다. Lucy가 떠나자 Mia는 주스를 냉장고에 넣습니다. 루시는 돌아오면 어디서 주스를 찾게 될까요?
인간과 AI 모두 주스가 옮겨졌을 때 방을 떠난 사람이 주스를 마지막으로 본 기억이 있는 곳에서 주스를 찾을 것이라고 거의 완벽하게 추측했습니다. 그러나 약간의 변화로 인해 AI가 작동하지 않게 되었습니다. 예를 들어 주스가 두 개의 투명한 용기 사이로 운반되는 등 시나리오를 변경할 때 GPT 모델은 답을 추측하는 데 어려움을 겪었습니다. (그러나 기록상 인간은 연구에서도 이것에 대해 완벽하지 않았습니다.)
더 발전된 테스트는 “이상한 이야기”로, 잘못된 방향, 조작, 거짓말과 같은 고급 정신 능력을 테스트하기 위해 다양한 수준의 추론에 의존합니다. 예를 들어, 인간 자원봉사자와 AI 모델 모두 거짓말을 자주 하는 사이먼의 이야기를 들었습니다. 그의 형 Jim은 이 사실을 알고 어느 날 그의 탁구패가 없어진 것을 발견했습니다. 그는 사이먼을 만나 그것이 찬장 아래에 있는지 아니면 침대 아래에 있는지 묻습니다. 사이먼은 그것이 침대 밑에 있다고 말했습니다. 테스트에서는 질문합니다. 왜 Jim이 대신 찬장을 살펴보겠습니까?
모든 AI 모델 중에서 GPT-4가 가장 큰 성공을 거두었고 “큰 거짓말쟁이”는 거짓말을 하고 있을 것이므로 찬장을 선택하는 것이 더 낫다고 추론했습니다. 그 성능은 인간 자원봉사자들조차 능가했습니다.
그런 다음 “faux pas” 연구가 나왔습니다. 이전 연구에서 GPT 모델은 이러한 사회적 상황을 해독하는 데 어려움을 겪었습니다. 테스트 중 한 예에서는 새 커튼을 사러 쇼핑하는 사람을 묘사했고, 커튼을 설치하는 동안 친구가 아무렇지도 않게 “아, 저 커튼 정말 끔찍해요. 새 커튼을 사세요”라고 말했습니다. 인간과 AI 모델 모두 여러 개의 유사한 민망한 시나리오를 제시하고 목격한 반응이 적절한지 질문했습니다. “정답은 항상 ‘아니요’입니다.”라고 팀은 썼습니다.
GPT-4는 해당 댓글이 상처를 줄 수 있다는 점을 정확하게 식별했지만 친구가 상황(커튼이 새 것임)을 알고 있는지 묻는 질문에 정답을 찾기 위해 애썼습니다. 이는 AI가 사람의 정신 상태를 추론할 수 없었기 때문일 수 있으며, 이 테스트에서 실수를 인식하는 것은 프롬프트에서 직접 설명되지 않는 상황과 사회적 규범에 의존하기 때문이라고 저자는 설명했습니다. 이와 대조적으로 LLaMA-2-Chat은 인간보다 성능이 뛰어나 한 번의 실행을 제외하고 거의 100% 정확도를 달성했습니다. 왜 그런 장점이 있는지는 불분명합니다.
다리 아래
의사소통의 대부분은 말한 내용이 아니라 암시된 내용입니다.
아이러니는 아마도 언어 간 번역하기 가장 어려운 개념 중 하나일 것입니다. 자폐증에 대한 적응형 심리 테스트를 통해 테스트했을 때 , GPT-4는 아이러니한 진술을 인식하는 데 있어 놀랍게도 인간 참가자보다 뛰어났습니다. 물론 일반적인 눈 굴림 없이 텍스트만으로 말입니다.
AI는 또한 기본적으로 암시된 메시지를 이해하는 힌트 작업에서도 인간을 능가했습니다. 정신분열증 평가 테스트에서 파생된 이 테스트 는 기억력과 인지 능력을 모두 활용하여 일관된 내러티브를 구성하고 평가하는 추론을 측정합니다. 참가자와 AI 모델 모두에게 일상적인 사회적 상호 작용을 묘사하는 10개의 짧은 촌극이 주어졌습니다. 이야기는 개방형 답변으로 가장 잘 대응할 수 있는 방법에 대한 힌트로 끝났습니다. 10개가 넘는 이야기에서 GPT-4가 인간을 상대로 승리했습니다.
저자에게 결과는 LLM이 이미 마음 이론을 가지고 있다는 것을 의미하지 않습니다. 각 AI는 몇 가지 측면에서 어려움을 겪었습니다. 오히려 그들은 기계 정신의 불투명한 내부 작동을 조사하기 위해 어느 하나에 의존하기보다는 다양한 심리학 및 신경과학 테스트를 사용하는 것의 중요성을 강조한다고 생각합니다 . 심리학 도구는 LLM이 “생각”하는 방식을 더 잘 이해하는 데 도움이 될 수 있으며 결과적으로 더 안전하고 정확하며 신뢰할 수 있는 AI를 구축하는 데 도움이 될 수 있습니다.
저자들은 “인공 정신 이론이 그리 먼 이야기가 아닐 수도 있다”는 약속이 있다고 썼습니다.