OpenAI와 Microsoft를 상대로 한 New York Times(NYT)의 법적 절차는 생성 AI를 “훈련”하거나 개선하기 위해 저작권이 있는 데이터를 사용함으로써 발생하는 지속적인 법적 문제에 새로운 지평을 열었습니다.
Stable Diffusion 온라인 텍스트-이미지 생성기를 만드는 Stability AI를 상대로 Getty Images 가 제기한 소송을 포함하여 AI 회사를 상대로 이미 다양한 소송이 진행 중입니다 . 저자인 George RR Martin과 John Grisham도 저작권 주장에 대해 ChatGPT 소유자인 OpenAI를 상대로 법적 소송을 제기했습니다. 그러나 NYT 사례는 흥미롭고 새로운 주장을 혼합하기 때문에 “더 이상 동일”하지 않습니다.
법적 조치는 훈련 데이터의 가치와 명예 훼손과 관련된 새로운 질문에 중점을 둡니다. 이는 상표와 저작권의 강력한 혼합이며 일반적으로 의존하는 공정 사용 방어를 테스트할 수 있습니다.
훈련 데이터에 대한 일반적인 “허가가 아닌 용서를 구하자”라는 접근 방식에 도전하려는 미디어 조직에서는 의심할 여지 없이 이를 면밀히 관찰할 것입니다. 훈련 데이터는 AI 시스템의 성능을 향상시키는 데 사용되며 일반적으로 인터넷에서 가져온 실제 정보로 구성됩니다.
소송은 또한 AI 시스템이 허위 또는 오해의 소지가 있는 정보를 생성하지만 이를 사실로 제시하는 “환각” 과 관련된 다른 유사한 사례에서 제시되지 않은 새로운 주장을 제시합니다 . 실제로 이 주장은 이 사건에서 가장 강력한 주장 중 하나일 수 있습니다.
특히 NYT 사례는 일반적인 접근 방식에 대해 세 가지 흥미로운 견해를 제시합니다. 첫째, NYT 콘텐츠는 신뢰할 수 있는 뉴스와 정보라는 평판으로 인해 AI 학습 데이터로서의 가치와 선호도가 높아졌습니다.
둘째, NYT의 유료화로 인해 요청에 따라 기사를 복제하는 것은 상업적으로 피해를 줍니다. 셋째, ChatGPT 환각은 사실상 허위 귀속을 통해 New York Times의 평판에 손상을 입히고 있습니다.
이것은 또 다른 생성적 AI 저작권 분쟁이 아닙니다. NYT가 제시한 첫 번째 주장은 OpenAI가 사용하는 훈련 데이터는 저작권으로 보호되므로 ChatGPT의 훈련 단계가 저작권을 침해했다고 주장합니다. 우리는 이전 에 다른 분쟁에서 이러한 유형의 논쟁이 진행되는 것을 보았습니다 .
공정한 사용?
이러한 유형의 공격에 대한 과제는 공정 사용 방패 입니다 . 미국에서 공정 사용은 뉴스 보도, 학술 작업, 논평 등 특정 상황에서 저작권이 있는 자료의 사용을 허용하는 법적 원칙입니다.
OpenAI의 반응은 지금까지 매우 신중했지만 회사가 발표한 성명의 핵심 원칙은 OpenAI의 온라인 데이터 사용이 실제로 “공정한 사용” 원칙에 속한다는 것입니다.
그러한 공정 사용 방어가 잠재적으로 야기할 수 있는 몇 가지 어려움을 예상하고 NYT는 약간 다른 각도를 채택했습니다. 특히 표준 데이터와 데이터의 차별화를 추구합니다. NYT는 보도의 정확성, 신뢰성, 명성을 주장하는 바를 활용할 계획입니다. 이는 특히 바람직한 데이터 세트를 생성한다고 주장합니다.
평판이 좋고 신뢰할 수 있는 출처로서 해당 기사는 생성 AI 훈련에 추가적인 가중치와 신뢰성을 가지며 해당 훈련에서 추가적인 가중치가 부여되는 데이터 하위 집합의 일부라고 주장합니다.
메시지에 따라 기사를 크게 재생산함으로써 ChatGPT는 유료화되어 있는 NYT, 방문자 및 수익을 거부할 수 있다고 주장합니다. 상업적 경쟁과 상업적 이점의 일부 측면을 소개하는 것은 이러한 주장에 공통적으로 적용되는 일반적인 공정 사용 방어를 막기 위한 것으로 보입니다.
훈련 데이터에 특별한 가중치를 부여하는 것이 영향을 미치는지 여부를 확인하는 것은 흥미로울 것입니다. 만약 그렇다면, 다른 미디어 조직이 허가 없이 교육 데이터에 보도 내용을 사용하는 것에 대해 이의를 제기할 수 있는 경로를 설정합니다.
NYT 주장의 마지막 요소는 도전에 대한 새로운 각도를 제시합니다. ChatGPT가 생산하는 자료를 통해 NYT 브랜드에 피해가 가해지고 있음을 암시합니다. 불만 사항에서는 거의 사후 고려 사항으로 제시되었지만 아직 OpenAI를 가장 어렵게 만드는 주장일 수 있습니다.
AI 환각과 관련된 주장이다. NYT는 ChatGPT가 정보를 NYT에서 나온 것으로 제시하기 때문에 이것이 더욱 복잡하다고 주장합니다.
신문은 또한 소비자가 정보가 NYT에서 나온 것이며 신뢰할 수 있다고 생각하면서 ChatGPT가 제공한 요약을 기반으로 행동할 수 있다고 제안합니다. 신문사는 ChatGPT가 생산하는 내용을 통제할 수 없기 때문에 평판 손상이 발생합니다.
이는 결론적으로 흥미로운 도전입니다. 환각은 AI가 생성한 대응에서 인식된 문제이며, NYT는 평판 손상을 바로잡기가 쉽지 않을 수 있다고 주장하고 있습니다.
NYT 주장은 저작권에서 ChatGPT가 저작권이 있는 데이터를 사용자에게 표시하는 방법과 신문에 대한 해당 데이터의 가치로 초점을 이동시키는 여러 가지 새로운 공격 라인을 엽니다. 이는 OpenAI가 방어하기가 훨씬 까다롭습니다.
이 사례는 다른 미디어 게시자, 특히 유료화를 사용하는 게시자에 의해 면밀히 관찰될 것이며, 특히 일반적인 공정 사용 변호와 상호 작용하는 방식에 대해 주의 깊게 관찰할 것입니다.
NYT 데이터 세트가 주장하는 “향상된 가치”를 갖고 있는 것으로 인식되면 오늘날 널리 퍼진 “허가가 아닌 용서” 접근 방식이 아닌 AI 훈련에서 해당 데이터 세트를 수익화할 수 있는 길을 열 수 있습니다.
이 기사는 크리에이티브 커먼즈 라이센스에 따라 The Conversation 에서 재출판되었습니다. 원본 기사를 읽어보세요 .
이미지 출처: AbsolutVision / Unsplash