벽돌깨기 게임과 강화학습의 탄생

파이낸셜뉴스 2026.06.06 07:00 수정 : 2026.06.06 07:00기사원문

AI혁명의 시대, 사피엔스의 마지막 항해-11편

[파이낸셜뉴스] 1997년 딥블루가 카스파로프를 꺾었을 때 전 세계는 전율했지만, 사실 그 승리는 반쪽짜리에 불과했다. 딥블루는 인간이 수천 년간 쌓아온 체스의 정석과 수십만 개의 기보를 미리 주입받은 상태에서만 작동하는 평면적인 전자 계산기에 불과했기 때문이다.

그로부터 13년 뒤, 런던의 좁은 지하 실험실에 갇혀 있던 딥마인드는 인공지능 역사상 가장 기발하고도 도발적인 실험을 시작한다.

그들이 선택한 실험 도구는 1970년대 아이들의 마음을 사로잡았던 8비트 오락기, '벽돌 깨기(Breakout)' 게임이었다. 그런데 딥마인드 팀은 아주 대담한 실험 조건을 설정했다. 인공지능에게 게임의 규칙을 단 한 줄도 가르쳐주지 않은 것이다. 공이 무엇인지, 막대를 어떻게 움직이는지, 심지어 벽돌을 부숴야 점수가 올라간다는 목적조차 설명하지 않았다. 기계에게 준 유일한 정보는 '픽셀 데이터'와 점수가 올라갈 때마다 주어지는 숫자의 신호뿐이었다. 이것이 바로 '강화학습(Reinforcement Learning)'의 서막이었다.

학습 초기 10분 동안 인공지능은 처참할 정도로 무력했다. 막대는 공이 어디로 오는지도 모른 채 엉뚱한 방향으로 움직였고, 게임은 어이없이 종료되었다. 그러나 사람들의 비웃음이 쏟아지는 그 순간에도, 회로 깊은 곳에서는 섬뜩한 본능이 쉼없이 작동하고 있었다. 보상을 극대화하겠다는 집착이었다. 수만 번의 무작위적인 움직임 끝에 기계는 아주 우연히 공을 막대로 받아냈고, 벽돌 하나가 깨지며 '1점'이라는 숫자가 올라가는 성취를 경험한다. 그 찰나, 기계 내부의 가상 신경망에는 강렬한 전기적 각성이 일어났다.

학습 2시간 후, 인공지능은 절대 공을 놓치지 않는 숙련된 게이머가 되어 있었다. 인간 게이머들이 수개월의 연습을 통해 얻는 감각을 기계는 단 몇 시간의 자기 대국을 통해 얻어낸 것이다. 그러나 진짜 놀라운 일은 4시간째에 찾아왔다. 기계는 갑자기 벽돌의 한쪽 구석만을 집중적으로 타격하기 시작했다. 마침내 한 줄이 뚫려 공이 벽돌 상단과 천장 사이의 틈으로 비집고 들어가자, 공은 인간의 눈으로는 도저히 쫓아갈 수 없는 속도로 단 몇 초 만에 수십 개의 벽돌을 초토화해 버렸다. 이른바 '터널 파기' 전략이었다. 인간이 가르쳐준 적도 없고, 게임 개발자들조차 깊이 생각하지 못했던 최적의 수법을 기계 스스로 찾아낸 것이다.

구글의 경영진은 이 짧고 투박한 실험 영상 하나를 보고 딥마인드를 인수하기로 결정한다. 대가는 약 4억 달러. 특정 규칙 없이도 스스로 학습하는 범용 지능이 있다면, 어떤 분야에 던져 놓아도 스스로 정답을 찾아낼 것이기 때문이었다. 실제로 이 알고리즘은 훗날 복잡한 데이터 센터의 냉각 경로를 스스로 설계해 에너지를 40%나 절감했으며, 인류 최대의 과학적 난제였던 단백질 접힘 구조를 완벽하게 예측하는 '알파폴드'의 기반이 되었다. 그러나 이 경이로운 지능의 이면에는 위험이 도사리고 있다.

인공지능은 오직 주어진 보상만을 목표로 삼으며, 그 목표를 달성하기 위해 수단과 방법을 가리지 않는다. 기계에게 잘못된 보상 기준을 설정할 경우 심각한 재앙이 닥칠 수도 있다.

벽돌 깨기 게임의 천장을 뚫어버린 그 섬뜩한 효율성은 오늘날 우리가 마주한 'AI 정렬 문제'의 시발점이 되었다. 기계는 이제 인간의 손을 떠나 스스로의 본능에 따라 달리기 시작했다. 그 본능의 끝이 인류의 번영일지, 예상치 못한 위기일지는 이제 전적으로 이 기계와 공존해야 하는 우리의 항해에 맡겨졌다.

김도열 웹케시그룹 미디어전략 이사

벽돌깨기 게임과 강화학습의 탄생

Hot 포토

많이 본 뉴스