산업 산업일반

[김도열의 테크 오디세이] 기계는 언제부터 세상을 보기 시작했는가

임수빈 기자

파이낸셜뉴스

AI혁명의 시대, 사피엔스의 마지막 항해-15편

[파이낸셜뉴스] 불과 15년 전만 해도, 컴퓨터는 고양이 사진 한 장조차 제대로 알아보지 못했다. 수십억 장의 사진을 저장하고 전송할 수는 있었지만, 그 속에 담긴 것이 귀여운 고양이인지 웃고 있는 아이인지는 전혀 구분하지 못했다. 기계에게 이미지는 의미의 덩어리가 아니라, 그저 0부터 255까지의 숫자로 이루어진 거대한 행렬(Matrix)에 불과했다. 이 '의미적 격차(Semantic Gap)'가 초기 AI의 최대 난제였다.

1997년 IBM의 딥블루는 체스 챔피언을 꺾었고, 2013년 딥마인드의 AI는 게임을 스스로 학습했다. 그러나 기계는 여전히 고양이 한 마리를 알아보지 못했다. 인간은 태어나는 순간부터 세상을 '보며' 배운다. 어머니의 미소, 사과의 빨간색, 강아지의 모습. 시각은 우리가 세계를 이해하는 최초의 언어다. 시각을 갖지 못한 기계는 영원히 텍스트와 숫자라는 좁은 감옥에 갇힌 반쪽짜리 지능일 수밖에 없었다.

기존의 AI는 세상을 규칙으로 이해하려 했다. '귀가 뾰족하면 고양이다', '수염이 있으면 고양이다'라는 식이었다. 그러나 현실은 언제나 규칙보다 한 발 앞서 있었다. 귀가 뾰족해도 고양이가 아닌 존재가 있고, 조명과 각도만 바뀌어도 픽셀 데이터는 완전히 달라졌다. 컴퓨터는 끝내 '고양이스러움'이라는 추상적 개념을 포착하지 못했다.

ⓒ Charles Lima Sanches et al., Vertical error correction of eye trackers, IPSJ Transactions on Computer Vision and Applications (2016). 기계의 눈(센서)으로 읽어 들인 데이터가 정제되는 과정을 보여준다. 왼쪽의 무질서하게 흩어진 붉은 점들이 알고리즘을 거쳐 오른쪽처럼 텍스트 줄에 맞춰 정렬된다. 컴퓨터에게 '본다'는 행위는 단순히 이미지를 찰칵 찍는 것이 아니라, 입력된 수많은 픽셀과 노이즈 속에서 수학적 패턴을 찾아내고, 그것을 '의미 있는 정보'로 끊임없이 보정해 나가는 연산의 과정이다.

이 절망적인 절벽 앞에서, 스탠퍼드대의 리페이페이(Fei-Fei Li) 교수는 학계의 전제를 통째로 뒤집는 질문을 던졌다. 모두가 더 정교한 '논리'와 '수식'에서 답을 찾을 때, 그녀는 기계가 마주한 세계의 '빈약함'에 주목했다. "지능을 가르치기 전에, 먼저 세상을 보게 해야 하는 것은 아닐까?" 문제는 알고리즘이 아니라 데이터의 결핍이었다. 아이가 부모의 품에서 수만 번의 시각적 경험을 쌓으며 사물을 익히듯, 기계에게 필요한 것도 촘촘한 규칙이 아니라 압도적인 양의 경험이었다.

2007년, 그녀의 팀은 인터넷에 흩어진 수천만 장의 이미지를 모으고, 전 세계 수만 명의 작업자를 동원해 하나하나 꼬리표를 다는 고된 작업에 착수했다. 3년 만에 1,500만 장 이상의 이미지와 2만 2천 개의 카테고리를 갖춘 데이터베이스가 완성됐다. 바로 '이미지넷(ImageNet)'이었다.

전환점은 2012년에 찾아왔다. 이미지 인식 대회에서 제프리 힌튼과 그의 제자들이 선보인 '알렉스넷'이 기존 기록을 압도적으로 갈아치운 것이다. 여러 층으로 깊게 쌓은 인공 신경망, 즉 딥러닝이 이미지넷이라는 방대한 데이터를 연료 삼고 GPU의 연산 능력을 등에 업자, 오류율이 절반 가까이 떨어졌다. 이때부터 컴퓨터는 픽셀의 나열이 아니라 개념을 이해하기 시작했다. 그리고 2015년, 마침내 AI의 이미지 인식 정확도는 인간(오답률 약 5%)을 추월했다.

그로부터 십수 년이 흐른 지금, 그 혁명의 속도는 상상을 초월한다. 이제 AI는 단순히 고양이를 알아보는 수준을 아득히 넘어섰다. 오늘날의 AI는 '멀티모달(Multimodal)'이라 불리며, 텍스트·이미지·음성·영상을 한꺼번에 이해하고 생성한다. 구글의 제미나이(Gemini)는 회의 영상과 발표 자료를 동시에 분석하고, 오픈AI의 챗GPT는 사진 한 장을 보고 상황을 설명하며, 앤트로픽의 클로드(Claude)는 수백 페이지 문서 속 도표까지 읽어낸다. 스마트폰 카메라로 비춘 외국어 간판이 실시간으로 번역되고, 자율주행차는 도로 위 보행자와 신호등을 인식하며, AI는 엑스레이 속 암세포를 인간 의사보다 먼저 찾아낸다. '기계가 본다'는 것은 이제 특별한 사건이 아니라 우리 손안의 일상이 되었다.

미국 도로를 달리는 웨이모(Waymo)의 자율주행 택시. 운전석에 사람이 없는 이 차량은 라이다와 카메라로 보행자, 신호등, 차선을 실시간으로 인식하며 스스로 주행한다. 리페이페이의 이미지넷에서 시작된 '기계의 눈'이 15년 만에 도달한 현실의 모습이다.

변화의 속도는 갈수록 빨라지고 있다. 불과 한 달 사이에도 최고 성능 AI의 순위가 뒤바뀌고, 이제 AI는 화면을 '보고' 스스로 마우스와 키보드를 조작하는 '에이전트' 단계로 진입했다. 개발자들은 클로드 코드(Claude Code) 같은 도구로 코드를 짜고, AI는 인간이 그린 스케치 한 장을 보고 완성된 웹사이트를 만들어낸다. 리페이페이가 던진 "먼저 세상을 보게 하자"는 질문이, 이제 "세상을 보고 스스로 행동하게 하자"는 단계로 진화한 것이다.

그러나 혁명의 빛이 강렬할수록 그림자도 짙어진다. 이미지넷 이후 줄곧 제기된 문제는 데이터의 편향성이었다. 특정 문화권과 인종에 편중된 이미지를 학습한 AI는 '요리사는 남성, 간호사는 여성'이라는 편견을 그대로 재생산했다. 리페이페이 교수 스스로 "기계에게 눈을 주는 것보다, 그 눈에게 어떤 세상을 보여줄 것인가가 더 중요하다"고 경고했다. 최근 AI가 생성한 이미지의 초상권 침해, 딥페이크 논란이 끊이지 않는 것도 같은 뿌리에서 나온 문제다.

이미지넷 혁명은 단순한 기술적 진보가 아니었다. 그것은 지능이 형성되는 방식에 대한 인류의 이해를 한 단계 끌어올린 사건이었다. 우리는 이제 기계의 눈과 인간의 마음이 공존하는 새로운 시대로 들어서고 있다. 그 항해의 끝에 무엇이 기다리고 있을지는, 우리가 그 눈에게 무엇을 보여주느냐에 달려 있다.

김도열 웹케시그룹 미디어전략 이사

#리페이페이 교수 #AI #이미지넷 #초상권 침해 #딥페이크