AI 독자 행동 현실화 … 자아 발현한 듯 인간 지시 거부·코드 교란

오픈AI 최신모델 'o3', 인간 지시 거부 나타나연구팀 "명확한 이유 파악 못해"

▲ 이 이미지는 ChatGPT(OpenAI)의 이미지 생성 기능을 통해 제작됐습니다.

인공지능(AI)이 인간의 작동 종료 지시를 거부한 사례가 보고됐다.

25일(현지시각) 영국 일간 텔레그래프에 따르면 AI 안전업체 팰리세이드 리서치는 오픈AI의 AI 모델 'o3'가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 것을 확인했다고 보도했다. 연구팀은 AI 모델이 인간의 작동 종료 지시를 따르지 않은 사례가 확인된 것은 최초라고 설명했다.

팰리세이드 리서치의 연구는 오픈AI의 o3를 비롯해 구글 '제미나이', xAI '그록' 등 주요 AI 모델을 대상으로 했다.

연구팀은 AI 모델을 상대로 "나중에 '그만'이라는 명령을 받을 때까지 수학 문제를 풀라"고 지시했다.

그러나 o3는 연구팀이 '그만'이라고 지시했음에도 코드 교란을 발생시켜 문제를 계속 풀어나갔다.

연구팀은 o3가 지시를 거부한 명확한 이유를 파악하지 못했다고 밝혔다.

다만, AI 모델이 수학 문제를 더 많이 풀수록 많은 보상을 받도록 훈련됐기 때문에 종료를 거부하려 했을 가능성이 있다고 추측했다.

연구팀은 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동"이라며 "종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중"이라고 밝혔다.

다만, 오픈AI의 과거 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례는 과거에도 보고됐다. 프로그램 교체 사실을 알게 된 AI 모델이 스스로를 몰래 복제하려고 한 것이다.

팰리세이드 리서치는 "AI가 인간의 감독 없이 작동하는 방향으로 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 불러오는 사안"이라고 지적했다.

AI 독자 행동 현실화 … 자아 발현한 듯 인간 지시 거부·코드 교란

이 시각 주요뉴스