본문바로가기

김경환 법무법인 민후 변호사는 전자신문에 오픈AI와 유튜브의 데이터라는 제목으로 기고하였습니다.

 

20235, 오픈AI의 샘 올트먼은 인공지능(AI) 기업들이 인터넷에서 사용 가능한 모든 데이터를 소진할 것이라고 경고했습니다.

 

AI 기업들은 데이터 생성 속도보다 데이터 소진 속도가 더 빠르기 때문에 데이터 부족 현상을 겪고 있으며, 이로 인해 새로운 데이터 확보에 집중하고 있습니다.

 

AI 모델의 발전을 위해 필요한 데이터 양이 점점 늘어나고 있으며, 이전에는 주로 위키 페이지나 공개된 웹 페이지 등에서 데이터를 확보했으나, 이제는 그것만으로는 부족하다고 여겨집니다.

 

새로운 데이터 확보 방안으로는 자체 모델에서 생성된 데이터의 합성, 개념 간의 스마트한 연결 등이 논의되고 있지만, 아직 신뢰성이 입증되지 않았습니다.

 

대부분의 AI 기업들은 여전히 전통적인 데이터 확보 방식을 선호하고 있으며, 이 과정에서 저작권과 개인정보 보호 등 법적 문제가 발생하고 있습니다.

 

오픈AI는 유튜브 동영상의 음성 대본을 추출하는 음성 인식 도구 '위스퍼(Whisper)'를 개발하여 더 많은 학습 데이터를 확보하려 시도했으나, 유튜브 측은 이러한 행위를 서비스 약관 위반으로 보고 있어 법적 분쟁이 발생할 가능성이 있습니다.

 

법무법인 민후의 김경환 변호사는 기고를 통해 AI 기업들의 데이터 경쟁은 점점 치열해지고 있으며, 새로운 데이터 확보 방안의 개발이 미래의 성공을 좌우할 것으로 보입니다. 우리나라도 이러한 상황에 적극적으로 대처해야 할 필요가 있다고 강조하였습니다.

 

기고 전문은 우측 상단의 [기사바로보기]를 통해 만나보실 수 있습니다.