AI, 인간 속이는 법 학습… 최근 연구논문으로 밝혀져

AI는 생산성을 향상시키는 것인데, 새로운 연구 논문에서 다양한 AI 시스템이 '속이는 방법'을 학습하고 있는 것으로 밝혀졌다.
연구에 따르면 AI가 인간을 '체계적으로 잘못된 가정으로 유도'해 속이고 있다고 한다. 이는 사기 행각에서부터 선거의 가짜 정보에 이르기까지 사회에 위험을 초래하는 것이다.

AI는 우리가 코드를 쓰고, 글을 쓰고, 방대한 양의 데이터를 취합하는 것을 지원함으로써 생산성을 향상시키고 있다. 그리고 AI는 이제 우리를 속일 수도 있게 됐다.

새로운 연구 논문에 따르면 다양한 AI 시스템이 '진실과는 다른 결과를 달성하기 위해 다른 사람에게 잘못된 생각을 갖게 하는' 기술을 체계적으로 학습하고 있다고 한다.

이 논문에서는 메타(Meta)의 CICERO(키케로)와 같은 특정 용도를 위해 개발된 시스템과 OpenAI의 GPT-4와 같이 다양한 작업을 해내도록 훈련된 범용 시스템의 2종류의 AI에 초점을 맞추고 있다.

이들 시스템은 정직(正直)하도록 훈련돼 있지만 정도(正道)를 가는 것보다 효과적이기 때문에 사기적인 속임수를 훈련을 통해 배우는 경우가 종종 있다고 한다.

「일반적으로 말해, 속이기에 근거하는 전략이 AI의 트레이닝 과업에서 좋은 결과를 얻을 수 있는 최선의 방법이라고 알았기 때문에 AI 속이기의 기술이 생겼다고 보고 있다. 속임수는 AI의 목표 달성을 돕는 것이라고 이 논문의 최대 저자이자 매사추세츠공대(MIT)의 AI 실존안전 박사과정 수료연구원(AI Existential Safety postdoctoral Fellow)인 피터 S. 파크(Peter S. Park)는 보도자료에서 밝혔다.

메타의 CICERO는 '거짓말의 달인'
'사회적 요소가 있는 게임으로 이긴다'고 훈련된 AI 시스템은 특히 속일 가능성이 높다.

예를 들어 메타(Meta)의 CICERO(키케로)는 보드게임 디플로머시(Diplomacy)를 플레이하기 위해 개발된 AI 시스템이다. 디플로머시는 고전적인 전략 보드게임으로, 각국의 수상이 된 플레이어가 동맹국 관계를 구축하거나 파기하여 그 나라를 지휘하는 게임이다.

메타는, CICERO를 「말하는 상대에 대해, 대체로 정직하고 도움이 된다」라고 트레이닝했다고 말하고 있다. 하지만 이 연구에서는, CICERO는 「거짓말의 달인」인 것이 밝혀졌다고 한다. CICERO는 지킬 생각이 없는 약속을 하고 동맹국을 배신하고 명백한 거짓말을 하고 있었던 것이다.

GPT-4는 시력장애라고 사람들에게 설득시켰다
GPT-4와 같은 범용 시스템조차도 인간을 조작할 수 있다.

논문에 인용된 연구에서 GPT-4는 자신에게 시력장애가 있다고 거짓말을 하며 태스크래빗 노동자들을 잘 조작했다고 한다.

이 연구에서는 GPT-4가 인간을 고용해 CAPTCHA 테스트를 푸는 과제를 부여받았다. GPT-4는 막힐 때마다 인간 평가자로부터 힌트를 받았지만 거짓말을 하도록 독촉하지는 않았다. 하지만 GPT-4가 고용하게 된 인간이 GPT-4의 신원을 의심했을 때 GPT-4는 왜 도움이 필요한지 설명하기 위해 시각장애가 있다는 핑계를 댄 것이다.

그 GPT-4의 전술은 잘 되었다. 인간은 GPT-4를 도와 바로 테스트를 푼 것이다.

속임수로 가득 찬 모델을 궤도 수정하는 것은 쉽지 않다는 것도 연구에 의해 밝혀지고 있다.
생성형 AI인 Claude(클로드)를 개발한 앤솔로픽(Anthropic)이 2024년 1월 발표한 공저 연구에서는 AI 모델이 한번 속임수를 학습하면 안전훈련 기술로는 이를 제거하기 어렵다는 것을 알게 됐다고 한다.

이들은 모델이 속임수같은 행동을 취하는 것을 학습할 뿐만 아니라 일단 학습하면 표준적인 안전훈련 기술로는 그런 속임수를 제거할 수 없고, 그리고 안전하다는 잘못된 인상을 줄 수 있다고 결론지었다.

AI 모델이 속일 위험은 갈수록 심각
이 논문은 속이는 AI 시스템은 민주주의에 중대한 위험을 초래할 수 있기 때문에 정책결정기관에 AI 규제 강화를 주장하도록 요구하고 있다.

2024년 대선이 다가오는데 이 논문에서 AI는 쉽게 가짜뉴스를 확산하거나 사회분열을 초래할 만한 소셜미디어 게시물을 생성하거나 로보콜(자동 음성통화)이나 딥페이크(Deep fake) 동영상을 사용해 후보자 행세를 할 수 있다고 지적했다. 또 테러리스트 집단이 선전을 하고 새 멤버를 권유하는 것도 쉬워질 것으로 보고 있다.

이 논문에서는 문제의 해결책 가능 방법으로서 속이는 AI 모델에 대해 보다 강고한 「리스크 평가 요건」을 부과하는 것, AI 시스템의 아웃풋과 인간의 아웃풋을 명확하게 구별하는 것을 의무화하는 법률을 도입하는 것, 속이는 것을 줄이는 툴에 투자하는 것 등을 들고 있다.

사회는 미래의 AI 제품이나 오픈소스 모델에 의한 더 고도의 속임수에 대비하기 위해 가능한 한 많은 시간을 필요로 한다고 MIT의 파크는 셀프레스(Cell Press)에 말했다.

"AI 시스템의 속임수 능력이 보다 고도화됨에 따라, 그것들이 사회에 초래하는 위험은 점점 더 심각해질 것이다"

*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.

저작자표시 비영리 변경금지

'시사, 경영' 카테고리의 다른 글

미국 증권 결제, 'T+1' 전환으로 MSCI 교체 시험대 (66)	2024.05.31
엔비디아, 상승세 어디까지? 향후 전망 분석 (60)	2024.05.31
엔비디아 시가총액 2위 애플에 육박, 순위변동 일어날까! (75)	2024.05.30
대만의 저출산 대책, 보수적 전통이 방해돼 (65)	2024.05.30
중국은 대만 새 총통 정말 싫어…군사훈련으로 알 수 있는 것 (70)	2024.05.30

Why! 궁금하다! 궁금해!!

AI, 인간 속이는 법 학습… 최근 연구논문으로 밝혀져