많은 사람들이 어느 정도 직관적인 수준에서 편견의 개념을 이해하고 있습니다. 사회와 인공 지능 시스템에서 인종 및 성별 편견은 잘 문서화되어 있습니다.
사회가 어떻게든 편견을 제거할 수 있다면 모든 문제가 사라질까요? 행동경제학 분야의 핵심 인물이었던 고(故) 노벨상 수상자 다니엘 카너먼(Daniel Kahneman) 은 그의 마지막 저서 에서 편견은 동전의 한 면일 뿐이라고 주장했다. 판단 오류는 편향과 잡음이라는 두 가지 원인으로 인해 발생할 수 있습니다.
편견과 잡음은 둘 다 인간의 판단이 핵심인 법률 , 의학 , 재무 예측 과 같은 분야에서 중요한 역할을 합니다 . 컴퓨터 및 정보 과학자로서 저와 동료들은 AI 에서 소음도 중요한 역할을 한다는 사실을 발견했습니다 .
통계적 노이즈
이러한 맥락에서 소음은 사람들이 동일한 문제나 상황에 대해 판단을 내리는 방식의 차이를 의미합니다. 소음 문제는 처음에 눈에 보이는 것보다 더 널리 퍼져 있습니다. 대공황까지 거슬러 올라가는 중요한 연구에서는 비슷한 사건에 대해 판사마다 다른 형을 선고했다는 사실이 밝혀졌습니다.
걱정스럽게도 법원 판결은 기온 , 지역 축구팀의 승리 여부 등에 따라 달라질 수 있습니다 . 이러한 요인은 적어도 부분적으로 사법 제도가 편파적일 뿐만 아니라 때로는 자의적이라는 인식에 기여합니다.
기타 예: 보험사정인은 판단에 잡음을 반영하여 유사한 청구에 대해 서로 다른 추정치를 제공할 수 있습니다 . 와인 시음부터 지역 미인 대회, 대학 입학에 이르기까지 모든 형태의 콘테스트에서 소음이 발생할 가능성이 높습니다.https://www.youtube.com/embed/cAZpLF5qG8M?wmode=transparent&start=0
데이터의 노이즈
표면적으로는 소음이 AI 시스템의 성능에 영향을 미칠 가능성은 없어 보입니다. 결국 기계는 날씨나 축구팀의 영향을 받지 않는데 왜 상황에 따라 달라지는 판단을 내릴까요? 반면, 연구자들은 편견이 AI에 영향을 미친다는 것을 알고 있습니다. 왜냐하면 편견 은 AI가 훈련되는 데이터에 반영 되기 때문입니다 .
ChatGPT와 같은 새로운 AI 모델의 경우, 황금 표준은 상식 과 같은 일반 지능 문제에 대한 인간의 성과입니다 . ChatGPT와 그 동료들은 사람이 라벨을 붙인 상식 데이터 세트를 기준으로 측정됩니다.
간단히 말해서, 연구원과 개발자는 기계에 상식적인 질문을 하고 이를 인간의 답변과 비교할 수 있습니다. “종이 테이블 위에 무거운 돌을 올려놓으면 무너질까요? 예 혹은 아니오.” 테스트에 따르면 둘 사이에 높은 합의가 있는 경우(최상의 경우 완벽한 합의) 기계가 인간 수준의 상식에 접근하고 있는 것으로 나타났습니다.
그러면 소음은 어디서 들어올까요? 위의 상식적인 질문은 단순해 보이며 대부분의 인간은 그 대답에 동의할 것입니다. 그러나 불일치나 불확실성이 더 많은 질문이 많이 있습니다. “다음 문장은 타당합니까, 아니면 타당하지 않습니까? 내 개는 배구를 해요.” 즉, 소음이 발생할 가능성이 있습니다. 흥미로운 상식 질문에 약간의 잡음이 있다는 것은 놀라운 일이 아닙니다.
그러나 문제는 대부분의 AI 테스트가 실험에서 이러한 소음을 설명하지 않는다는 것입니다. 직관적으로 서로 동의하는 경향이 있는 인간 답변을 생성하는 질문은 답변이 서로 다른 경우, 즉 잡음이 있는 경우보다 더 높은 가중치를 부여해야 합니다. 연구자들은 여전히 그러한 상황에서 AI의 답변을 평가할지 여부와 방법을 알지 못하지만 첫 번째 단계는 문제가 존재한다는 것을 인정하는 것입니다.
기계의 소음 추적
이론은 제쳐두고, 위의 모든 내용이 가설인지, 아니면 실제 상식 테스트에 잡음이 있는지에 대한 의문은 여전히 남아 있습니다. 소음의 존재를 증명하거나 반증하는 가장 좋은 방법은 기존 테스트를 수행하고 답변을 제거한 후 여러 사람이 독립적으로 라벨을 지정하도록 하는 것입니다. 즉, 답변을 제공한다는 의미입니다. 연구자들은 사람들 사이의 불일치를 측정함으로써 테스트에 얼마나 많은 소음이 있는지 알 수 있습니다.
이러한 불일치를 측정하는 세부 사항은 중요한 통계와 수학을 포함하여 복잡합니다. 게다가 상식이 어떻게 정의되어야 한다고 누가 말하겠는가? 인간 심사위원들이 질문에 대해 충분히 생각할 만큼 동기가 부여되어 있는지 어떻게 알 수 있나요? 이러한 문제는 좋은 실험 설계와 통계의 교차점에 있습니다. 견고성이 핵심입니다. 하나의 결과, 테스트 또는 인간 라벨러 세트로는 누구도 설득할 수 없습니다. 실용적인 문제로서 인간의 노동은 비용이 많이 듭니다. 아마도 이런 이유 때문에 AI 테스트에서 발생할 수 있는 소음에 대한 연구는 없었을 것입니다.
이러한 격차를 해소하기 위해 동료들과 저는 그러한 연구를 설계하고 연구 결과를 Nature Scientific Reports 에 발표했습니다 . 이는 상식 영역에서도 소음이 불가피하다는 것을 보여줍니다. 판단이 도출되는 환경이 중요할 수 있기 때문에 우리는 두 가지 종류의 연구를 수행했습니다. 한 가지 유형의 연구에는 Amazon Mechanical Turk 의 유급 근로자가 참여했으며 , 다른 연구에는 University of Southern California와 Rensselaer Polytechnic Institute의 두 실험실에서 소규모 라벨링 작업이 포함되었습니다.
전자는 교육 및 평가를 위해 출시되기 전에 실제로 얼마나 많은 AI 테스트에 라벨이 지정되는지를 반영하여 보다 현실적인 온라인 설정으로 생각할 수 있습니다. 후자는 더 극단적이며 고품질을 보장하지만 규모는 훨씬 작습니다. 우리가 대답하기로 한 질문은 소음이 얼마나 불가피한가, 그리고 그것이 단지 품질 관리의 문제인가 하는 것이었습니다.
결과는 경각심을 불러일으켰습니다. 두 가지 상황 모두에서, 심지어 보편적인 동의를 이끌어낼 것으로 예상되는 상식적인 질문에 대해서도 우리는 적지 않은 수준의 소음을 발견했습니다. 소음은 시스템 성능의 4~10%가 소음에 기인한다고 추론할 만큼 충분히 높았습니다.
이것이 의미하는 바를 강조하기 위해 제가 테스트에서 85%를 달성한 AI 시스템을 구축했고 귀하가 91%를 달성한 AI 시스템을 구축했다고 가정해 보겠습니다. 당신의 시스템은 나보다 훨씬 나은 것 같습니다. 그러나 답변을 채점하는 데 사용된 인간 레이블에 노이즈가 있는 경우 6% 개선이 큰 의미가 있는지 더 이상 확신할 수 없습니다. 우리가 아는 한, 실질적인 개선은 없을 수도 있습니다.
ChatGPT를 지원하는 것과 같은 대규모 언어 모델을 비교하는 AI 순위표에서 경쟁 시스템 간의 성능 차이는 일반적으로 1% 미만으로 훨씬 더 좁습니다. 논문에서 볼 수 있듯이 일반적인 통계는 실제 성능 향상과 노이즈의 영향을 분리하는 데 실제로 도움이 되지 않습니다.
소음 감사
앞으로 나아갈 길은 무엇입니까? Kahneman의 책으로 돌아가서 그는 소음을 정량화하고 궁극적으로 완화하기 위한 “소음 감사” 개념을 제안했습니다. 최소한 AI 연구자들은 소음이 어떤 영향을 미칠 수 있는지 추정해야 합니다.
AI 시스템의 편견을 감사하는 것은 다소 흔한 일이므로 소음 감사의 개념이 자연스럽게 따라야 한다고 믿습니다. 우리는 이 연구가 다른 유사한 연구와 마찬가지로 채택으로 이어지기를 바랍니다.
이 기사는 크리에이티브 커먼즈 라이센스에 따라 The Conversation 에서 재출판되었습니다. 원본 기사를 읽어보세요 .
이미지 출처: Michael Dziedzic / Unsplash