레딧의 정전사태가 시작된 것은 회사가 애플리케이션 프로그래밍 인터페이스(API)를 유료화하겠다고 선언했기 때문입니다. API 유료화가 왜 정전사태로 이어졌을까요. 모든 것은 ‘챗GPT’ 때문이라고 볼 수 있겠네요. 챗GPT나 ‘바드’와 같은 생성형AI가 뉴스나 커뮤니티 글 등 인터넷에 있는 수많은 정보를 학습했다는 건 이미 널리 알려진 사실이죠. 이 때문에 일론 머스크도 트위터 데이터를 학습하려면 돈을 내고 하라며 API 유료화를 선언했죠. 레딧도 지난 4월에 트위터처럼 API를 유료화하겠다고 이미 선언한 바 있었는데요.
헌데 왜 사용자들이 화가 나서 게시판들을 닫고 있을까요. 그건 API 유료 가격이 너무 비싸기 때문이랍니다. 챗GPT나 바드 처럼 돈 많은 빅테크의 인공지능(AI)만 레딧의 API를 쓰는 게 아니라 수많은 파트너들이 레딧의 API를 사용하고 있다는 게 문제인 거죠. 여러 업체가 레딧의 API를 이용해서 애플리케이션이나 서비스를 선보이고 있는데 API가 유료화하며 이 서비스들을 접게 생겼고, 그렇게 되면 레딧 사용자들도 불편해질 상황인 겁니다. 그동안 잘 이용하던 서비스들이 없어지게 생겼거든요. 그래서 레딧 사용자들은 API 유료화 정책을 개선하라고 정전 사태를 일으킨 겁니다.
한편에서는 레딧 커뮤니티에 게재된 글이나 사진, 정보 등 콘텐츠를 회사가 상업화해서 AI 학습에 제공하는 것이 가능한 것인지에 대한 의문도 제기됩니다. 전문가들에 따르면 이 부분은 참 복잡한 일이라고 합니다. 약관이 문제가 되는 경우도 있고, 또 게시물에 따라 저작권 인정 여부가 달라지는 경우도 있죠. 레딧의 약관이 어떻게 구성돼 있는지, 그간 어떻게 바뀌어왔는지부터 들여다볼 필요가 있다고 합니다.
마이크로소프트(MS)의 경우 오픈소스 사이트 ‘깃허브’ 사용자들과 커뮤니티 콘텐츠를 AI가 학습한 내용을 두고 소송을 진행 중입니다. 깃허브 사용자들은 MS의 소스코드 생성AI인 ‘깃허브 코파일럿’이 ‘깃허브’에 사용자들이 공유한 소스코드를 동의 없이 학습했다는 점을 문제 삼았죠. 깃허브 코파일럿은 MS가 지난 2018년 인수한 오픈소스 사이트 깃허브에 AI 기술을 접목해 만든 서비스인데 개발 코드 일부를 작성하면 이를 자동으로 완성해주는 것이 특징입니다.
전문가들은 깃허브는 약관에 사용자들이 게재한 소스코드, 즉 콘텐츠를 AI 학습에 활용하겠다는 내용을 담지 않았기 때문에 소송 결과가 MS에 불리할 수도 있다고 분석하고 있습니다.
네이버는 지난 2018년 AI 분야에 콘텐츠를 활용할 수 있다는 내용을 약관에 포함했습니다. 그래서 현재 네이버 약관에는 ‘사용자가 제공한 콘텐츠를 인공지능 분야 기술 연구 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용할 수 있다’는 내용이 담겨 있죠.
챗GPT만 해도 어떤 정보를 얼마나 학습했는지를 제대로 알리지 않고 있죠. 이미 언론사들도 AI가 뉴스를 무단으로 학습하지 않도록 하겠다고 나서기도 했는데요. 헌데 인터넷에 있는 정보를 웹스크래핑하는 방법도 있으니 데이터 전쟁은 앞으로 더 심화할 것 같습니다.