생성형 AI, AI끼리 학습하면 망가진다는 연구 결과
인공지능(AI)이 AI를 부수는 날은 올까요?
요즘 화제가 되지 않는 생성형 AI는, 인간이 만든 문장이나 일러스트 등을 본보기가 되는 정보를 바탕으로 해, 대량으로 학습하는 것으로 새로운 정보를 만들어 내는 구조로 되어 있습니다. 그러나 AI에 의해 생성된 정보를 본보기로 이용하면 불과 몇 세대의 학습만 해도 AI 모델이 붕괴된다는 연구 결과가 영국 과학지 네이처에 게재됐습니다.
◆ AI 모델이 망가지는 구조
AI 모델의 붕괴는 생성형 AI에 의해 만들어진 데이터의 학습량이 많으면 일어나는 것으로 알려졌습니다.
대규모 언어 모델과 같은 생성형 AI 도구는 많은 양의 데이터를 학습함으로써 정보를 이해하고 질문과 같은 프롬프트에 대해 정보를 생성합니다. 그러나 학습할 때 데이터를 놓치거나 선별하여 학습할 수 있는 정보의 폭이 좁아지고, 그것이 반복됨으로써 단기간에 모델이 붕괴한다는 것이 이번 논문에 정리되어 있습니다.
◆ 사례 : 교회와 토끼
연구자들은 시험 삼아 Chat GPT-3와 유사한 문장 생성 모델인 OPT-125m에 14세기 교회의 첨탑 디자인에 대해 학습시켰습니다.
처음에는 다양한 교황 아래 건설된 건물을 답하던 AI 모델이지만, 9세대 학습까지 되면 파란색이나 빨간색, 노란색 등 있을 수 없는 색깔의 잭토끼(토끼의 일종)를 설명하고 있었습니다. 첨탑의 화제는 까맣게 잊혀져 있습니다.
◆ AI 생성 콘텐츠가 확산되면서 모델 붕괴 위기
인터넷상에 많은 가짜 정보가 게시되는 것은 지금으로서는 당연하지만, 생성형 AI가 많은 콘텐츠를 작성하게 됨으로써 새로운 국면을 맞이하고 있습니다.
듀크대에서 사생활과 보안을 전문으로 하는 에밀리 웽거는 「붕괴된 모델은 학습데이터 속의 출현 빈도가 적은 정보를 간과하기 때문에 세계의 복잡성과 뉘앙스를 반영하지 못한다. 이에 의해서, 마이너리티의 그룹이나 소수파의 의견이 표시되기 어려워지거나 삭제되어 버릴 가능성이 있습니다」라고 말합니다.
생성형 AI에 의해 만들어진 컨텐츠에 대해서는, 기술 기업측도 대책을 내놓고 있습니다. 구글 News가 AI 생성 기사를 띄우고 있다고 보도된 구글은 지난 3월 검색 엔진용으로 만들어진 것으로 보이는 페이지의 순위를 낮추도록 알고리즘을 조정하겠다고 발표했습니다.
이번 논문을 정리한 연구자들은, 데이터는 인간이 쓴 오리지널의 것을 사용해, 필터링 하는 것으로 모델이 깨지지 않게 학습시키는 것이 가능하도록 합니다. 또 학습시킬 데이터의 출처를 기록하기 위해서 AI커뮤니티의 협력이 필요하다고 이야기를 하고 있습니다.
과연 AI로 인한 AI 콘텐츠로 인터넷이 묻히는 날은 올까요?
*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.
'시사, 경영' 카테고리의 다른 글
더운 여름, 하루에 마셔야 할 물의 양은 '소변과 그 빈도'로 알 수 있다 (62) | 2024.08.05 |
---|---|
우주인들의 거처가 될만한 '달의 동굴' 발견… 또 수백개의 동굴 존재 가능성 (60) | 2024.08.05 |
AI는 버블인가? (68) | 2024.08.05 |
삼성 4세대 고대역폭 메모리 'HBM3'칩 엔비디아 테스트 통과, 중국 시장용 'H20'에 탑재 예정 (87) | 2024.08.04 |
긍정적 '직장 라이벌(Work Rival)'이 있으면 더 빨리 승진할 수 있는 3가지 이유 (64) | 2024.08.04 |
댓글