지난 18일(현지시간)캘리포니아주 새너제이 SAP센터에서 열린 엔비디아 ‘GTC(GPU Technologh Conference) 2024’에 대한 국내 소프트웨어 전문가 평가다.
그는 “클라우드 플랫폼에서 아마존이 1위라면, AI플랫폼에선 엔비디아가 1위가 되겠다는 약간 선언적인 의미로 보였다”고 했다. 실제로 젠슨 황 엔비디아 최고경영자(CEO)는 이 행사에서 “블랙웰은 칩이 아니라 플랫폼 이름”이라고 언급하기도 했다.
|
이날 공개된 신작 AI 칩은 ‘B(블랙웰·Blackwell)100’과 ‘B200’ 두 종류다. 블랙웰은 2022년에 공개된 엔비디아의 ‘호퍼’ 아키텍처를 대체할 차세대 기술로, 게임 이론과 통계학을 전공한 수학자이자 미국 국립과학원에 최초로 입회한 흑인인 데이비드 헤롤드 블랙웰의 이름을 따서 지어졌다.
B시리즈는 GPU 2개를 연결해 하나의 칩처럼 작동하는 구조로, 기존의 H100(800억개)보다 2.5배 많은 2080억개 트랜지스터로 구성됐다. B200은 B100에 고대역폭메모리(HBM)를 강화하여 성능을 높였다. ‘GB200’이란 파생상품도 선보였는데, 이는 B200 2개와 엔비디아 그레이스 CPU를 연결한 슈퍼칩으로, 기존 H100에 비해 최대 30배 성능이 향상됐다고 한다. 가격은 두 배 정도 인상될 것으로 전해진다.
이처럼 엔비디아의 차세대 AI 반도체에 대한 관심이 뜨거운 가운데, 젠슨 황은 왜 플랫폼을 언급한 것일까. 또, 그 전략은 무엇일까.
전문가들은 엔비디아의 행보가 아마존웹서비스(AWS)의 클라우드 전략과 유사하다고 평했다.
AWS가 초기에는 IaaS(서비스형 인프라)에 집중하다가 차츰 PaaS(서비스형 플랫폼)와 서비스형 소프트웨어(SaaS)로 사업 영역을 확대하는 것처럼, 엔비디아도 유사한 행보를 보일 것이라는 예상이다.
특히 ①가상화 전략 ②학습용 칩에서 로봇 등 서비스용(추론용)칩과 플랫폼으로의 확대 ③ 독점을 가능하게 하는 프레임워크 ‘쿠다(CUDA)’의 지배력 유지 등을 중요하게 꼽았다.
|
이스라엘 매체 캘캐리스트는 엔비디아가 이스라엘 스타트업 런콜론AI(Run:ai)를 인수하기 위한 협상을 진행 중이라고 보도했다. 인수 규모는 최대 10억 달러(약 1조3000억원)에 달할 수 있다고 한다.
런콜론AI는 GPU에서 실행되는 AI 워크로드에 필요한 컴퓨팅 용량을 자동으로 할당하고, GPU 자원을 효과적으로 공유할 수 있도록 지원하는 쿠버네티스 기반의 컨테이너 플랫폼을 개발한다. GPU 클러스터 리소스를 여러 AI 워크로드에 공유하기 위해 AI 가상화 인프라를 구축하며, 이는 가상 레이어를 구축해 적은 리소스를 사용하면서도 빠르게 GPU에서 AI 모델을 학습할 수 있게 돕는다.
소프트웨어 전문가는 이를 두고 “AI 학습 데이터 양이 급증함에 따라 단일 GPU 내에서 처리하기 어려워 엔비디아가 이번에 GPU 2개를 연동하는 방식을 도입한 것 같다”면서 “이는 클라우드에서 클러스터를 연결하는 것과 유사하다. 그런데 이러한 작업을 효율적으로 하려면 가상 레이어가 필요하다. 엔비디아의 가상화 전략은 칩 벤더가 아닌 소프트웨어 플랫폼 회사로 나가기 위해 반드시 필요하다”고 설명했다.
|
②로봇 등 서비스용(추론용)플랫폼으로 확대
젠슨 황은 GTC 2024에서 로봇 ‘오렌지’와 ‘그레이’를 공개했으며, 로봇 훈련을 가능케 하는 플랫폼 구축을 위한 ‘그루트(GR00T)’와 블랙웰이 탑재된 로봇용 시스템온칩 ‘토르’도 함께 선보였다.
그루트는 다양한 작업이 가능한 ‘범용로봇기술(Generalist Robot Tech)’을 뜻하며, 앱트로닉스, 어질리티로보틱스, 유니트리 같은 로봇 개발 기업이 협력하고 있는 것으로 전해졌다.
반도체 업계에서는 학습용 뿐 아니라 서비스용 칩 개발 경쟁이 가열될 것으로 보고 있다.
김양팽 산업연구원 전문연구원은 “이세돌 9단과 싸워 이긴 알파고에는 2만개의 반도체가 들어갔는데 이건 중앙처리장치(CPU)로 한 것”이라면서 “하지만 엔비디아의 그래픽처리장치(GPU)가 대량 연산을 빨리 할 수 있는 AI 가속기로 자리잡으면서 독점하기 시작했고, 이제는 사람의 신경망처럼 똑똑하고 다양한 작업을 수행할 수 있는 신경망처리장치(NPU)개발 경쟁이 본격화되고 있다”고 설명했다.
이어 “메모리반도체들과 달리 NPU에는 표준이 없다. 테슬라가 자율주행용 반도체를 직접 개발하듯 서비스별로 나뉜 시스템반도체 시장이 부상할 것”이라고 예상했다. 점차 하드웨어는 범용화되고, 소프트웨어 기술력, 다른 말로 플랫폼 기술력이 더욱 중요해질 것이라는 의미로 들린다.
|
③프레임워크 ‘쿠다(CUDA)’의 지배력 유지
엔비디아의 새로운 제품인 ‘블랙웰’은 최대 10조 개의 파라미터를 지원하며 AI 훈련과 거대 언어 모델(LLM) 추론을 가능하게 한다.
이에 따라 젠슨 황의 발표 이후 아마존, 델 테크놀로지스, 구글, 메타, 마이크로소프트, 오픈AI, 오라클, 테슬라 등 빅테크 기업들은 엔비디아와의 협력을 강화하는 내용을 연이어 발표했다.
오픈AI나 메타 등은 자체 AI 칩도 개발 중이나, 최소 5년간은 엔비디아의 지배력이 유지될 것으로 예상된다. 특히 핵심 프레임워크인 ‘쿠다(CUDA)’의 지배력이 유지되는 한, 엔비디아 GPU의 경쟁력은 계속해서 유지될 것으로 보인다.
‘쿠다’는 GPU에서 수행하는 병렬 처리 알고리즘을 표준 프로그래밍 언어를 사용해 만들 수 있도록 돕는데, 이는 엔비디아 GPU와 특별한 스트림 처리 드라이버가 필요하다는 한계를 갖고 있다. 즉, ‘쿠다’는 엔비디아 칩에서만 작동한다.
소프트웨어 업계 관계자는 “엔비디아는 GPU 프로세서를 개발하는 데만 만족하지 않고 ‘쿠다’를 통해 소프트웨어 생태계도 수직 계열화하고 있다”며 “단기간 내에 다른 기업들이 엔비디아를 대체하기에는 어려울 것 같다. 서비스용(추론)쪽에서 비중이 남아 있을 것”이라고했다.