상세 컨텐츠

본문 제목

지금의 인공지능은 왜 폰 노이만 아키텍처를 떠나지 못하는가

About AI

by miracleai 2026. 5. 15. 10:00

본문

반응형

지금의 인공지능은 왜 폰 노이만 아키텍처를 떠나지 못하는가

오늘날 우리가 인공지능이라 부르는 시스템의 거의 전부는 1945년 존 폰 노이만이 정리한 설계 원칙 위에서 돌아간다. 연산을 담당하는 장치와 데이터를 담는 기억장치를 물리적으로 분리하고, 그 사이를 버스로 연결해 명령과 데이터를 차례로 주고받는 구조다. 이 단순한 분리가 80년 가까이 컴퓨터 산업의 표준이 된 이유는 명확하다. 같은 하드웨어로 어떤 프로그램이든 실행할 수 있는 범용성, 그리고 메모리와 연산기를 독립적으로 개량할 수 있다는 모듈성 때문이다. 그러나 바로 이 구조가 거대언어모델과 심층신경망의 시대에 들어와 결정적인 족쇄로 작용하기 시작했다. IBM 연구진의 표현을 빌리면, 인공지능 연산에서 폰 노이만 병목은 "옮겨야 할 모델 가중치의 양과 그것이 이동해야 하는 거리"라는 두 가지 문제로 나타난다(IBM Research, 2025). 모델이 커질수록 더 멀리 떨어진 메모리에 가중치를 두어야 하고, 한 번에 다 들고 있을 수 없으니 끊임없이 버리고 다시 불러와야 한다. 추론 과정에서 실제로 소비되는 에너지의 대부분은 행렬 곱셈 자체가 아니라 이 데이터 이동에 쓰인다.

 

수치는 이 비효율이 얼마나 극단적인지 보여준다. DRAM에서 CPU로 데이터 한 조각을 옮기는 데 드는 에너지는 그 데이터에 부동소수점 연산을 한 번 수행하는 에너지보다 수백 배에서 많게는 500배까지 크다는 측정 결과가 보고되어 있다(IEEE 자료 인용, All About Circuits, 2020). 즉 칩이 "계산하는 시간"보다 "기다리는 시간"이 훨씬 길고, 전력의 대부분이 실제 사고가 아니라 사고에 필요한 재료를 나르는 데 소모된다. 이 현상에 학계는 일찌감치 "메모리 월(memory wall)"이라는 이름을 붙였다. 무어의 법칙으로 연산 속도는 빠르게 향상되었으나 메모리 대역폭은 같은 속도로 따라오지 못했고, 그 격차가 시간이 갈수록 벌어졌기 때문이다. 트랜스포머 기반의 현대 거대언어모델은 이 격차가 가장 잔혹하게 드러나는 작업 부하다. 토큰 하나를 생성하기 위해 수십억에서 수천억 개에 이르는 가중치를 메모리에서 연산기로 끌어와야 하기 때문이다.

AI활용

반응형

그렇다면 GPU와 TPU 같은 "AI 전용 칩"은 폰 노이만 구조를 벗어난 것 아닌가, 라는 질문이 자연스럽게 떠오른다. 결론부터 말하면 그렇지 않다. 이들은 폰 노이만 아키텍처의 "개량형"일 뿐 그 본질에서 벗어난 것은 아니다. 엔비디아의 최신 GPU는 1만 개에 이르는 코어를 병렬로 묶고 HBM3e 같은 고대역폭 메모리를 적층해 초당 4TB에 가까운 데이터 이동 능력을 확보한다. 구글의 TPU v7(Ironwood)은 시스톨릭 어레이(systolic array)라는 특수한 구조를 통해 가중치를 한 번 적재하면 메모리로 되돌리지 않고 연산기들 사이로 직접 흘려보내는 방식을 택했다(Google Cloud TPU 공식 문서). 이 모든 설계는 결국 "메모리와 연산기 사이의 거리를 줄이고 그 사이의 이동량을 최소화하라"는 하나의 명령에 답하기 위한 정교한 회피책이다. 캐시 계층, HBM의 3D 적층, 텐서 코어, 시스톨릭 어레이는 폰 노이만 병목을 "우회"하는 기술이지 "해체"하는 기술이 아니다. 메모리와 연산이 분리되어 있다는 근본 전제는 그대로 남아 있다.

 

이 전제를 정말로 깨려는 시도가 없는 것은 아니다. 인메모리 컴퓨팅(In-Memory Computing)은 메모리 셀 안에서 직접 곱셈과 덧셈을 수행하게 함으로써 데이터 이동 자체를 없애려는 접근이다. IBM은 상변화 메모리(PCM)를 이용한 아날로그 인공지능 가속기를 수년간 개발해 왔으며, 기존 시스템 대비 천 배 수준의 에너지 효율을 목표로 삼고 있다고 밝힌 바 있다(Datacenter Dynamics, 2026). 인텔의 로이히(Loihi)와 IBM의 트루노스(TrueNorth), 노스폴(NorthPole)로 대표되는 뉴로모픽 칩은 한 걸음 더 나아가 뇌의 스파이킹 뉴런 구조를 모방해 연산과 기억을 같은 회로 안에 두려 한다. 트루노스는 100만 개의 프로그래머블 뉴런을 단 70밀리와트로 구동하는 데 성공했고, 이는 같은 작업을 수행하는 일반 마이크로프로세서 전력 밀도의 1만분의 1 수준으로 알려져 있다(IBM/Wikipedia 정리). 그러나 트루노스의 상업적 개발은 이미 중단되었고, 로이히 역시 여전히 "연구용 플랫폼"의 위치를 벗어나지 못하고 있다. 네이처 커뮤니케이션즈 2025년 리뷰는 "퀄컴, IBM 등 대부분의 기업이 뉴로모픽 연산 아키텍처에서 한 발 물러섰다"라고 현황을 정리한다(Nature Communications, 2025).

 

왜 이 우아한 대안들이 산업 현장의 주류가 되지 못하는가. 이유는 기술적인 동시에 생태계적이다. 첫째, 현대 인공지능을 떠받치는 알고리즘, 즉 역전파에 기반한 경사하강법과 어텐션 메커니즘은 명확히 폰 노이만식 "가중치를 읽고, 곱하고, 다시 쓴다"라는 패턴 위에 설계되었다. 스파이킹 뉴런이 다루는 이산적 시간 신호로 트랜스포머를 옮기는 일은 단순한 포팅 문제가 아니라 학습 이론 자체를 다시 쓰는 일에 가깝다. 둘째, 산업이 축적해 온 소프트웨어 스택, 즉 CUDA, PyTorch, JAX, 컴파일러, 라이브러리, 디버깅 도구의 총량이 폰 노이만 모델을 전제하고 있다. 셋째, 아날로그 인메모리 연산은 정밀도와 노이즈 문제에서 자유롭지 못하며, 학습된 가중치를 메모리 소자에 옮길 때 분류 정확도를 어떻게 유지할 것인가라는 "가중치 전사" 문제가 여전히 해결 중에 있다(IBM Research 인터뷰, DCD, 2026).국 지금의 인공지능이 폰 노이만 아키텍처에서 "구동될 수밖에 없다"라는 진술은 물리법칙의 단언이 아니라 알고리즘, 소프트웨어, 산업적 관성, 그리고 대안 기술의 성숙도가 만들어낸 현실적 합의에 가깝다.

 

이 합의가 영원하지는 않을 것이다. 메모리 월이 가속될수록 인메모리 컴퓨팅과 뉴로모픽 연산에 투입되는 자원도 늘어나고 있고, 일부 분야에서는 이미 상용 단계에 가까이 다가가 있다. 그러나 적어도 현재의 거대 모델, 그것을 학습시키는 데이터센터, 그것을 추론에 활용하는 엣지 장치까지의 전 계층은 여전히 분리된 메모리와 연산기 사이에서 데이터를 옮기는 일에 그 운명을 걸고 있다. 폰 노이만 아키텍처는 인공지능에게 가장 효율적인 무대여서가 아니라, 인공지능이 그 무대 위에서 자라났기 때문에 여전히 떠날 수 없는 집이다. 우리가 다음 시대를 준비한다는 것은 이 집의 구조를 정확히 이해하는 일에서 시작될 수밖에 없다.



반응형

관련글 더보기