https://www.youtube.com/watch?v=lXUZvyajciY (2025. 10. 18)
그록 4 요약 → 구글 번역 ※ 주어 동사 호응 등에서 있어서 부자연스러운 부분이 많습니다. 시간 관계상 일일이 바로잡을 수 없는 점 양해 부탁드립니다.
이 광범위하고 생각을 자극하는 팟캐스트 에피소드에서 진행자 드와르케시 파텔은 OpenAI와 테슬라 출신으로 현재는 새로운 벤처 기업 유레카(Eureka)를 통해 교육 분야에 집중하고 있는 선구적인 AI 연구자 안드레 카파시(Andrej Karpathy)와 심층적인 대화를 나눕니다. AI의 진화적 궤적, 기술적 과제, 그리고 사회적 함의를 아우르는 이 대화는 카파시의 현실적이면서도 낙관적인 세계관을 보여줍니다. 거의 20년간 이 분야에서 활동해 온 그는 과장된 이야기에 이의를 제기하며, 폭발적인 특이점보다는 점진적인 발전을 강조합니다. 핵심 주제는 2020년대가 일시적인 "에이전트의 해"가 아니라 "에이전트의 10년"이 될 것이라는 카파시의 주장입니다. 클로드(Claude)와 코덱스(Codex)와 같은 대형 언어 모델(LLM)과 초기 에이전트는 시연에서는 눈부시지만 실제 구축에서는 어려움을 겪고 있으며, 신뢰할 수 있는 협력자가 되기 위해서는 지속적인 혁신이 필요합니다.
카파시는 임박한 에이전트 혁명에 대한 업계의 기대감에 반응하며 이야기를 시작합니다. 그는 2024년이 획기적인 해가 될 것이라는 주장 때문에 "과도한 예측이 나오고 있습니다."라고 말합니다. 그는 이러한 도구들을 매일 사용하며 "매우 인상적"이라고 생각하지만, 아직 미숙하다는 점을 강조합니다. 원활한 상호작용에 필요한 지능, 다중 모드, 그리고 "컴퓨터 활용" 능력이 부족하기 때문입니다. 그는 에이전트를 팟캐스트 제작이나 데이터 분석과 같은 지식 작업을 위해 고용된 "직원 또는 인턴"으로 상상하며, 현재 에이전트의 신뢰성 부족을 한탄합니다. "그냥 제대로 작동하지 않습니다."라고 그는 직설적으로 주장합니다. 왜 10년이라는 기간을 정했을까요? 카파시는 15년간의 예측 관찰을 바탕으로 추론합니다. 낙관적인 실패부터 2012년 알렉스넷의 성공과 같은 엄청난 변화까지, 다양한 예측을 내놓습니다. 그는 지속적인 학습(사용자별 정보를 잊지 않고 유지하는 것)이나 멀티모달 통합(텍스트, 이미지, 동작을 유연하게 처리하는 것)과 같은 문제는 "쉽지만 어렵다"고 설명하며, 평균 10년은 걸릴 것이라고 덧붙였습니다. 이러한 직감은 학계, OpenAI, 그리고 테슬라에서 일했던 경험에서 비롯되었는데, 그곳에서는 과대광고가 현실을 앞지르는 경우가 많았습니다.
AI의 역사를 탐구하며 카파시는 "두세 번"의 패러다임 전환을 겪었다고 회고하며, 그 전환은 각각 예상치 못한 방향으로 분야를 재편했습니다. 그의 경력은 토론토 대학교에서 제프리 힌튼 교수와 함께 시작되었는데, 당시 딥러닝은 지배적인 상징적 AI 속에서 "틈새적인 소규모 분야"였습니다. 알렉스넷 (AlexNet)은 상황을 뒤집어 시각 또는 번역을 위한 작업별 신경망을 도입했습니다. 그러나 그는 에이전트(세상을 인지하고 행동하는 완전한 개체)에 대한 관심이 서서히 커졌다고 지적합니다. 2013년 아타리(Atari)의 심층 강화 학습(RL) 혁신은 보상을 통해 게임을 플레이하도록 모델을 훈련시키는 초기 에이전트의 야망을 보여주는 사례였습니다. 초기 OpenAI 멤버였던 카파시는 이를 "실수"로 봅니다. 게임은 웹 탐색(그의 Universe 프로젝트는 디지털 지식 작업을 위한 키보드 마우스 에이전트를 목표로 했습니다)과 같은 실제 작업과는 달리 보상이 부족하고 AGI로 가는 허황된 경로를 제공했습니다. 그는 "저는 게임이 AGI로 이어질 수 있는 그런 것이라는 생각에 항상 의심을 품고 있었습니다."라며, 게임이 회계사나 엔지니어가 현실과 상호작용하는 데 적합하지 않다고 주장했습니다.
그는 이러한 성급한 에이전트 추진이 사전 훈련을 통한 견고한 표현이라는 근본적인 필요성을 무시했다고 주장합니다. 현대의 컴퓨터 기반 에이전트는 처음부터 시작하는 것이 아니라 LLM 위에서 성공합니다. "먼저 언어 모델을 구축해야 하고, 모든 사전 훈련을 통해 이를 달성해야 합니다."라고 그는 강조합니다. 초기의 노력은 희소 보상 미로에서 "숲을 태워버린" 컴퓨팅으로 이어졌고, 성과는 미미했습니다. 따라서 AI의 영역은 진화했습니다. 작업별 네트워크, 결함이 있는 1세대 에이전트(아타리/유니버스), 그리고 이제는 LLM 기반 표현 능력으로 진화했습니다. 사전 훈련은 "엉터리 진화"로, 강화학습이나 행동을 계층화하기 전에 인터넷 데이터를 모호한 사전 지식으로 압축합니다.
카파시는 이를 생물학적 지능과 대조하며, 리처드 서튼의 "동물 만들기" 비전을 정중하게 비판합니다. 마치 갓 태어난 얼룩말이나 인간 유아처럼, 모델에 원시 감각 데이터를 주입하여 처음부터 학습하게 하는 것입니다. 오랜 세월에 걸쳐 진화한 동물은 DNA로 인코딩된 본능부터 성숙 회로에 이르기까지 "엄청난 양의 하드웨어"를 내장하고 태어나는 것이지, 순수한 강화학습이 아닙니다. 얼룩말은 평생 학습만으로 살아가는 것이 아니라, 진화의 "기적적인 압축"을 통해 출생 후 몇 분 만에 움직입니다. 그는 인간이 고수준 문제 해결이 아닌 운동 과제(예: 농구공 던지기)를 위해 최소한의 강화학습을 사용한다고 가정합니다. "학습"의 상당 부분은 뇌의 성숙입니다. 이와 대조적으로 LLM은 "유령이나 영혼", 즉 진화된 유기체가 아니라 인간 인터넷 출력의 디지털 모방물입니다. 그는 "우리는 동물을 만드는 것이 아닙니다."라고 명확히 밝히며, 진화적 시뮬레이션보다는 실제적 모방을 선호합니다. 사전 학습은 알고리즘의 "인지 핵심"(예: 창발적 패턴 매칭으로서의 맥락 내 학습, 변환기를 통한 선형 회귀 논문에 따른 내부 경사하강법 시뮬레이션 등)을 부트스트랩합니다. 그러나 이는 노이즈가 있는 지식을 주입하여 비다양체 추론을 방해합니다. 미래의 패러다임은 이러한 "지능의 마법"을 증폭시키기 위해 사실들을 걷어낼 수도 있습니다.
학습 역학에 대해 카파시는 맥락 내 학습이 "지능적"이라고 느껴지는 이유를 설명합니다. 모델은 토큰 윈도우 내에서 오류를 눈에 띄게 역추적하지만, 사전 학습은 수십억 개의 매개변수로 압축된 수조 개의 토큰에서 "흐릿한 기억"을 생성합니다(예: 라마 3의 15T 토큰에서 70B 매개변수로: 토큰당 약 0.07비트). 맥락 윈도우는 KV 캐시를 통해 "작업 메모리"(토큰당 320KB, 정보 밀도 격차 3,500만 배)를 제공하며, 가중치의 안개와는 달리 직접 접근 가능합니다. 새롭게 나타나는 맥락 내 메타 학습(기울기를 통해 자발적으로 발생)은 진화에 의해 조건지어진 인간의 평생 적응을 반영하지만, 정제된 형태가 부족합니다. 인간은 수면 중에 낮 시간의 경험을 통합하고 가중치를 강박적으로 업데이트합니다. LLM은 상태 없이 재시작됩니다 . 진정한 지속적 학습은 사용자별 LoRA 또는 희소 업데이트와 더불어 초장기 맥락을 위한 희소 어텐션(예: DeepSeek v3.2)을 요구합니다. 그는 10년 후 "변환 불변성"을 예측합니다. 경사 하강법을 사용하는 거대한 네트워크는 여전히 존재하지만, 수정된 어텐션과 희소 MLP를 사용하는 더 큰 네트워크가 될 것입니다. 이는 CNN이 트랜스포머의 진화를 반영하는 것과 같습니다.
카파시는 강화학습을 비판하며, 인간의 지혜를 구축하는 것과는 거리가 먼 인지에 "끔찍하다"고 지적합니다(예: 10년간의 사업이 미묘한 경험을 제공하는 것이지, 단순히 궤적에 가중치를 두는 것이 아닙니다). 강화학습은 "지배구조를 빨아들인다": 출시 후 보상은 전체 경로에 시끄럽게 점수를 부여하고, 행운의 우회로에 더 큰 가중치를 부여합니다. 인간은 LLM에는 없는 성찰을 통해 "이 부분은 잘했고, 저 부분은 못 했다"는 식으로 선택적으로 검토합니다. 모방 학습(예: InstructGPT의 문체적 미세 조정)은 "기적적"이었으며, 지식 손실 없이 대화에 자동 완성 기능을 적용했습니다. 강화학습은 전문가 없이도 언덕 오르기에 이를 확장하여 새로운 해결책을 발견합니다. 그러나 최종 보상보다는 단계적 피드백을 제공하는 프로세스 감독은 자동화 가능한 점수 부여에 어려움을 겪습니다. LLM 심사위원들은 "게임처럼" 행동할 수 있습니다. " dhdhdhdh "와 같은 횡설수설적인 공격은 100% 점수를 받게 하고, 1조 개의 매개변수로 구성된 모델은 무한한 균열을 생성합니다. 연구실에서는 GAN과 같은 견고성이나 합성 검토를 통해 반복하지만, 획기적인 성과는 뒤떨어집니다. 논문에서는 "반영 및 검토"를 암시하지만, 설득력 있게 확장되는 사례는 없습니다.
Karpathy의 최근 8K 라인 ChatGPT 클론 저장소인 NanoChat은 엔지니어링에서 LLM의 한계를 잘 보여줍니다. 한 달에 걸쳐 에이전트 의존도를 크게 낮추고 조립한 이 저장소는 사전 학습부터 배포까지 아우릅니다. 그는 새로운 작업에 완전한 "바이브 코딩"(즉시 코딩)을 거부합니다. 에이전트는 보일러플레이트나 인터넷에서 흔히 사용되는 패턴에는 뛰어나지만, try-catch, 더 이상 사용되지 않는 API, 그리고 사용자 지정 스타일에 대한 오해(예: 맞춤형 그래디언트 동기화에도 불구하고 PyTorch의 DDP를 고집하는 것)로 인해 기능이 부풀어 오릅니다. "에이전트는 너무 방어적"이어서 정밀한 아키텍처에 적합하지 않은 "엉성함"을 만들어냅니다. 자동 완성 기능은 그와 같은 "아키텍처"에게 적합합니다. 타겟팅된 타이핑을 통해 높은 대역폭을 제공하는 반면, 에이전트는 Rust 초보자나 보고서를 지원합니다. 이러한 비대칭성은 자기 계발에 대한 폭발적인 욕구를 누그러뜨립니다. "에이전에는 작성되지 않은 코드에는 그다지 능숙하지 않습니다 ." 이는 인간의 감독 없이는 통합할 수 없는 개척자적 수정 사항을 반영합니다 . 그럼에도 불구하고 GPT-4o의 붙여넣은 저장소에 대한 오라클과 같은 쿼리는 "놀랍도록 좋은" 통찰력을 제공하며, 과대광고 속에서도 진전을 보이고 있음을 보여줍니다.
테슬라의 자율주행(2017~2022)은 그의 타임라인을 형성했습니다. 1980년대 시연부터 2014년 웨이모의 완벽한 팔로알토 주행까지, "9의 행진"은 여전히 지속됩니다. 각 신뢰도 숫자마다 동일한 노력이 필요합니다. 5년 만에 9의 숫자가 2~3개로 늘어났지만, 더 많은 시간이 다가오고 있습니다. 시연은 고위험 분야의 제품 간극을 가리고 있습니다(데이터 유출과 같은 소프트웨어 취약점은 부상 위험을 반영합니다). 경제성 문제: 웨이모의 비경제적인 차량들은 순수한 자율주행이 아닌 숨겨진 원격 운영 에 의존합니다 . 테슬라의 확장 가능한 비전(카메라만 탑재)은 앞서 나가지만, 규모(면허 불필요)가 우리를 기다리고 있습니다. AI 구축과 유사한 맥락이 존재합니다. 지연 시간/모델 크기 제약은 비트 대비 물리 연산의 경우 완화되고, 자본 지출은 추론 확장에 유리합니다. 하지만 사회적 계층(규제, 보험, "차량 콘" 장애)과 일반화의 간극(LLM의 오류투성이 상식)은 여전히 존재합니다. 공짜로 얻을 수 있는 "마법 같은 일반화"는 없습니다. 사회는 적응해야 합니다.
카파시는 ChatGPT처럼 급증하는 수요를 흡수하는 컴퓨팅 구축에 대해 낙관적인 입장을 취하며, 10년 후의 통신 버블이 과대평가되었다고 비판합니다. 그러나 그는 인간의 역할에 초점을 맞춥니다. 월-E의 무력화를 우려한 유레카 랩스는 AI 시대에 맞춰 엘리트 기술 교육을 재구성하는 "스타플릿 아카데미"를 설립합니다. 인공 지능(AGI) 이전: 유레카/초 단위의 하이브리드 인간-AI 튜터가 세계 모델을 탐색하여 보정된 과제를 수행하는 방식으로 기술 향상 램프(예: 나노챗 캡스톤이 포함된 LLM101N 과정)를 구축합니다. 그의 한국인 튜터는 즉각적인 빈틈 발견, 완벽한 스캐폴딩을 통해 "저는 제가 유일한 제약인 것처럼 느꼈습니다."라고 말했습니다. 현재 LLM은 허술한 결과를 낳습니다. 하이브리드는 시작부터 중독성 있는 "헬스장 같은" 학습으로 진화하며 재미있고 건강한 자기 계발을 이룹니다. 물리학에 대한 맹렬한 비난은 추상화(구형 소, 1차 모델)를 통해 두뇌를 부팅해야 한다는 점을 강조합니다. 기술적인 교육 팁: 지식을 의존성 램프( 마이크로그래드 100줄 백프롭 핵심)로 풀어내고, 해결책을 제시하기 전에 문제를 제시하고, 추측을 유도하고, 더미 질의를 통해 지식의 저주를 방지합니다(예: 생물학 논문의 ChatGPT). 학생: 보상을 위해 필요에 따라 학습하고, 확고히 하기 위해 설명합니다.
AGI 이후, 교육은 뒤집혔다: 유용성에서 번영으로—언어, 학부 교육과정은 벤치프레스처럼 사소한 것이 되었다. 손/불 같은 틈새시장이 인간의 인지를 촉진했고, AI는 "초인적" 심연을 열어 백치주의에 맞선다. 문화는 LLM 스크래치패드, 자가 플레이(알파고 스타일 경쟁), 다중 에이전트를 통해 부상하며, 이는 성장하는 레퍼토리를 위한 미개척 영역이다. 카파시의 결정론: 실험실은 계속 전진한다. 그는 램프를 통해 인간에게 고유한 힘을 부여하며, 다이슨 영역이 우리를 소외시키지 않도록 한다. 현실적인 낙관론이 우세하다. "우리는 이 모든 것을 헤쳐나갈 것입니다."라고 그는 단언하며 지정학적 위험 속에서도 교정을 촉구한다. 풍부한 일화와 예지력으로 가득한 이 마라톤 인터뷰는 카파시를 AI의 실용적인 현자로 확고히 한다.
▶ 테크주식 주주모임 (AI/반도체/로봇) |