본문 바로가기
  • 한.중.일 - 문서 통역 , 반도체 뉴스
Semiconductor

NVIDIA의 최신 GPU 및 연결 로드맵

by shenminghu456 2024. 6. 3.
728x90
반응형

Nvidia는 컴퓨팅, 네트워킹 및 그래픽의 역사에서 많은 고유한 기능을 가지고 있습니다. 그러나 그 중 하나는 현재 수중에 많은 자금이 있고 아키텍처, 엔지니어링 및 공급망으로 인해 생성형 AI 시장의 선두 주자이기 때문에 진전이 있을 것으로 생각되는 로드맵을 자유롭게 구현할 수 있다는 것입니다.

 

21세기에 이르러 Nvidia는 매우 성공적인 혁신 기업이 되었으며 실제로 데이터 센터 컴퓨팅 공간으로 확장할 필요가 없습니다. 하지만 HPC 연구원들은 엔비디아를 가속 컴퓨팅에 도입했고, AI 연구원들은 GPU 컴퓨팅을 사용하여 40년 동안 기다렸던 완전히 새로운 시장을 창출했고, 합리적인 가격에 방대한 양의 컴퓨팅을 가능하게 하고, 방대한 양의 데이터와 충돌하여 점점 더 생각하는 기계와 같은 것을 현실로 만들었습니다.

 

80년대에 기존의 HPC 시뮬레이션 및 모델링 애플리케이션 대신 AI 처리를 추진하기 위해 Thinking Machines를 설립했을 때 이러한 기계를 만들려고 시도한 Danny Hillis, Marvin Minksy, Sheryl Handler와 당시 AT&T Bell Labs에서 컨볼루션 신경망을 만든 Yann LeCun에게 경의를 표합니다. 그들은 현재 우리가 알고 있는 AI를 만들 수 있는 데이터나 컴퓨팅 파워가 없었습니다. 당시 Jensen Huang은 메모리 칩을 제조하는 회사인 LSI Logic의 이사였으며 나중에 AMD의 CPU 디자이너가 되었습니다. 90년대 초반 씽킹 머신(Thinking Machines)이 어려움을 겪고 있을 때(결국 파산했을 때) 젠슨 황은 엔비디아를 설립한 새너제이 동쪽의 데니스(Denny's)에서 크리스 말라초프스키(Chris Malachowsky)와 커티스 프림(Curtis Priem)을 만났습니다. NVIDIA는 연구 및 하이퍼스케일 커뮤니티에서 떠오르는 AI 기회를 보고 시스템 소프트웨어와 기본 대규모 병렬 하드웨어를 구축하여 첫날부터 컴퓨팅의 일부였던 AI 혁명의 꿈을 실현하기 시작했습니다.

 

이것은 항상 컴퓨팅의 최종 상태였으며 우리가 걸어온 특이점, 또는 극점이었습니다. 만약 다른 행성에 생명체가 존재한다면, 생명체는 항상 대량살상무기를 보유할 수 있을 정도로 진화할 것이고, 항상 인공지능을 만들어낼 것이다. 그리고 동시에 일어날 가능성이 큽니다. 그 순간 이후, 세계가 이 두 가지 기술을 어떻게 다루느냐에 따라 대멸종 사건에서 살아남을 수 있을지 여부가 결정됩니다.

 

이것은 칩 제조업체의 로드맵을 논의하기 위한 일반적인 오프닝 라인처럼 들리지 않을 수 있습니다. 우리는 흥미로운 시대에 살고 있기 때문에 그렇지 않습니다.

 

엔비디아의 공동 창립자이자 CEO인 엔비디아의 공동 창립자 겸 CEO는 타이베이에서 열린 연례 컴퓨텍스(Computex) 무역 박람회의 기조연설에서 제너레이티브 AI 혁명(그가 2차 산업혁명이라고 부르는)을 다시 한 번 맥락에 놓고 AI, 특히 엔비디아 하드웨어의 미래를 엿볼 수 있도록 노력했습니다. GPU 및 인터커넥트 로드맵을 미리 볼 수 있었는데, 우리가 아는 한, 이는 젠슨 황과 그의 기조연설이 일반적으로 그렇듯이 마지막 순간까지 포함되지 않은 계획의 일부였습니다.

 

 

혁명은 불가피하다

 

 

생성형 AI의 핵심은 규모이며, 젠슨 황은 2022년 말 챗GPT의 순간이 기술적, 경제적 이유로만 발생했다고 언급하며 이를 상기시킵니다.

 

ChatGPT의 돌파구를 마련하려면 GPU의 성능을 획기적으로 개선한 다음 그 위에 많은 수의 GPU를 추가해야 합니다. Nvidia는 AI 훈련과 추론 모두에 중요한 성능을 달성하며, 중요한 것은 대규모 언어 모델 응답에서 토큰을 생성하는 데 필요한 에너지의 양을 크게 줄인다는 것입니다. 보세요:

 

 

"Pascal" P100 GPU 세대에서 "Blackwell" B100 GPU 세대에 이르기까지 GPU 성능은 8년 동안 1053배 향상되었으며, 후자는 올해 말에 출시를 시작하여 2025년까지 계속될 예정입니다. (차트에 1000x라고 표시되어 있지만 정확하지 않습니다.) )

 

성능의 일부는 Pascal P100, Volta V100 및 Ampere A100 GPU의 FP16 형식에서 Blackwell B100에 사용되는 FP4 형식으로 부동 소수점 정밀도를 4배 줄임으로써 달성되었습니다. 이러한 정확도 감소가 없었다면 성능 향상은 263배에 불과했을 것이며, 데이터 포맷, 소프트웨어 프로세싱, 하드웨어에 엄청난 수학적 마법이 있었기 때문에 LLM 퍼포먼스에 큰 영향을 미치지 않을 것입니다. 이것은 CPU 시장에서 이미 8년 동안 꽤 좋은 수준이며, 클럭당 코어 성능이 10-15% 증가하고 코어 수가 25-30% 증가하는 것이 정상입니다. 업그레이드 주기가 2년인 경우 동일한 8년 동안 CPU 처리량이 4배에서 5배로 증가합니다.

 

위에서 볼 수 있듯이 작업 단위당 전력 소비 감소는 시스템에 전원을 공급할 수 없으면 사용할 수 없기 때문에 핵심 메트릭입니다. 토큰의 에너지 비용을 줄여야 하며, 이는 LLM에 의해 생성된 토큰당 에너지가 성능 향상보다 더 빠르게 감소해야 함을 의미합니다.

 

그의 기조 연설에서 더 심층적인 배경 지식을 제공하기 위해 Pascal P100 GPU에서 토큰을 생성하는 데 17,000줄의 에너지가 필요하며, 이는 이틀 동안 두 개의 전구를 켜는 것과 거의 같으며 단어당 평균 약 3개의 토큰이 필요합니다. 따라서 많은 단어를 생성하려면 많은 전구가 필요합니다! 이제 8년 전만 해도 LLM을 작업을 잘 수행할 수 있는 규모로 실행하는 것이 불가능했던 이유를 이해하기 시작했습니다. 1조 8천억 개의 매개변수와 8조 개의 토큰 데이터 기반 모델을 사용하여 GPT-4 전문가 하이브리드 모델 LLM을 훈련하는 데 필요한 기능을 살펴보세요.

 

 

P100 클러스터는 1000기가와트시 이상을 소비하며 이는 엄청난 수치입니다.

 

젠슨 황은 블랙웰 GPU를 통해 약 10일 만에 약 10,000개의 GPU에서 GPT-4 1.8T MoE 모델을 훈련할 수 있을 것이라고 설명했습니다.

 

AI 연구자들과 NVIDIA가 정밀도를 낮추지 않았다면 8년 동안 성능 향상은 250배에 불과했을 것입니다.

 

에너지 비용을 줄이는 것과 시스템 비용을 줄이는 것은 별개입니다. 전통적인 무어의 법칙이 끝날 무렵에는 18개월에서 24개월마다 트랜지스터가 줄어들고 칩이 더 저렴하고 작아졌기 때문에 둘 다 매우 어려운 트릭이었습니다. 이제 컴퓨팅 복합체가 레티클의 한계에 도달했기 때문에 각 트랜지스터는 점점 더 비싸지고 그에 따라 트랜지스터로 만들어진 장치 자체도 비싸지고 있습니다. HBM 메모리는 첨단 패키징과 마찬가지로 비용의 상당 부분을 차지합니다.

 

SXM 시리즈 GPU 소켓(PCI-Express가 아닌 GPU 버전)에서 P100은 약 $5,000에 구입할 수 있습니다. V100의 출시 가격은 약 $10,000입니다. A100은 약 15,000달러에 출시되었습니다. H100의 출시 가격은 약 $25,000에서 $30,000입니다. B100은 35,000달러에서 40,000달러 사이에 판매될 것으로 예상되는데, 이는 후앙 자신이 올해 초 CNBC와의 인터뷰에서 말한 수치이다.

 

젠슨 황이 보여주지 않은 것은 각 세대가 GPT-4 1.8T MoE 벤치마크를 실행하는 데 얼마나 많은 GPU가 필요한지, 그리고 이러한 GPU 또는 전력이 실행되는 동안 얼마나 많은 비용이 드는지였습니다. 그래서 우리는 젠슨 황이 GPT-4 1.8T MoE를 약 10일 동안 훈련하는 데 약 10,000대의 B100이 필요하다고 말한 것을 기반으로 스프레드시트를 만들었습니다.

 

 

이 8년 동안 GPU 가격은 7.5배 올랐지만 성능은 1,000배 이상 증가했습니다. 그 결과, GPT-4와 같은 1조 8천억 개의 매개변수를 가진 대규모 모델을 블랙웰 시스템을 사용하여 약 10일 만에 훈련하는 것이 가능해졌으며, 2년 전 호퍼 세대가 처음 시작되었을 때는 수천억 개의 매개변수가 있는 모델을 몇 달 만에 훈련하는 것이 어려웠을 것입니다. 이제 시스템 비용은 시스템 2년 동안의 전기 요금과 비슷할 것입니다. (GPU는 AI 훈련 시스템 비용의 약 절반을 차지하므로 10,000개의 GPU 블랙웰 시스템을 구입하는 데 약 8억 달러가 들고, 10일 동안 실행하는 데 약 540,000달러가 듭니다.) 더 적은 수의 GPU를 구입하면 일일, 주간 또는 월간 전기 요금을 줄일 수 있지만 그에 따라 훈련 시간도 늘어나므로 비용이 다시 상승합니다. )

 

이길 수는 없지만 포기할 수도 없습니다.

 

뭔지 맞춰봐? 엔비디아도 할 수 없습니다. 그게 다야. Hopper H100 GPU 플랫폼이 "역사상 가장 성공적인 데이터센터 프로세서"일지라도, Nvidia는 Computerx 기조 연설에서 말했듯이 노력을 계속해야 합니다.

 

P.S. 우리는 호퍼/블랙웰의 이 투자 주기를 60년 전 IBM이 기업 역사상 가장 큰 베팅을 했던 IBM System/360의 출시와 비교하게 되어 기쁩니다. 1961년 IBM이 "차세대 제품 라인" R&D 프로젝트를 시작했을 때 IBM은 연간 매출이 22억 달러에 달하고 60년대 내내 50억 달러 이상을 지출하는 회사였습니다. 블루 자이언트는 월스트리트 최초의 우량 기업이었는데, 바로 2년간의 매출과 20년의 이익을 들여 시스템/360을 만들었기 때문이다. 예, 일부는 약간 늦고 성능이 좋지 않지만 엔터프라이즈 데이터 처리의 특성에 혁명을 일으켰습니다. IBM은 60년대 후반에 600억 달러의 매출을 올릴 수 있을 것으로 생각했지만(2019년 조정 금액 기준), 매출은 1,390억 달러, 이익은 약 520억 달러에 불과했습니다.

 

Nvidia는 의심할 여지 없이 데이터 센터 컴퓨팅의 두 번째 단계에서 더 큰 물결을 일으켰습니다. 그렇다면 진정한 승자는 이제 그린칩 기업이라고 불릴 수 있을까?

 

 

저항은 헛수고였다

 

 

엔비디아나 경쟁사, 고객 모두 미래의 중력과 우리 귀에 속삭이는 것이 아니라 지붕 위에서 외치는 생성형 AI의 수익과 생산성에 대한 약속에 저항할 수 없습니다.

 

결과적으로 Nvidia는 속도를 높이고 한계를 뛰어넘을 것입니다. 250억 달러의 은행 예금과 올해 1,000억 달러 이상의 예상 수익, 그리고 잠재적으로 500억 달러의 은행 예금을 통해 한계를 뛰어넘고 우리를 미래로 이끌 수 있는 힘을 가지고 있습니다.

 

"이 경이로운 성장의 기간 동안 우리는 지속적으로 성능을 개선하고, 교육 비용, 추론 비용 등의 비용을 지속적으로 절감하고, 모든 회사를 위해 AI 기능을 계속 확장하고자 합니다. 성능을 개선할수록 더 많은 비용이 절감됩니다. ”

 

위에 나열된 표에서 명확하게 알 수 있듯이 이것은 사실입니다.

 

업데이트된 NVIDIA 플랫폼 로드맵으로 이동합니다.

 

 

조금 읽기 어려우니 좀 자세히 살펴 보겠습니다.

 

Hopper 세대에서 오리지널 H100은 2022년에 6개의 HBM3 메모리 레이어로 출시되었으며 900GB/s 포트가 있는 NVSwitch와 400Gb/s 포트 및 ConnectX-7 네트워크 인터페이스 카드가 있는 Quantum X400(이전 Quantum-2) InfiniBand 스위치가 함께 제공되었습니다. 2023년에 H200은 더 높은 용량과 대역폭을 갖춘 6레이어 HBM3E 메모리로 업그레이드되어 H100 패키지에서 기본 H200 GPU의 효과적인 성능을 향상시킵니다. BlueField 3 NIC도 출시되어 NIC에 Arm 코어를 추가하여 추가 작업을 수행할 수 있습니다.

 

2024년에 블랙웰 GPU는 8개 레이어의 HBM3e 메모리로 출시되며, 1.8TB/s 포트, 800Gb/s ConnectX-8 NIC, 800GB/s 포트가 있는 Spectrum-X800 및 Quantum-X800 스위치가 있는 NVSwitch 5와 쌍을 이룰 예정입니다.

 

이제 2025년까지 B200(위 이미지에서 Blackwell Ultra라고 함)에는 8개의 HBM3e 메모리 스택이 있으며 각 스택은 12개의 다이 높이를 갖게 됩니다. B100의 스택은 대략 8개의 스택이므로 사용된 DRAM의 양에 따라 Blackwell Ultra에서 HBM 메모리 용량의 최소 50% 이상을 나타내야 합니다. HBM3E 메모리는 클럭 속도가 더 높을 수도 있습니다. Nvidia는 Blackwell 시리즈의 메모리 용량에 대해 모호했지만 3월 Blackwell 출시 행사에서 B100이 192GB의 메모리와 8TB/s의 대역폭을 가질 것으로 추정했습니다. 미래의 Blackwell Ultra가 출시됨에 따라 더 빠른 메모리를 기대할 수 있으며 288GB의 메모리와 9.6TB/s 대역폭을 보는 것은 놀라운 일이 아닙니다.

 

Nvidia는 또한 2025년에 6개의 ASIC가 장착된 더 높은 기반 Spectrum-X800 이더넷 스위치를 도입하여 다른 스위치가 일반적으로 하는 것처럼 총 대역폭을 두 배로 늘려 포트당 대역폭 또는 스위치의 포트 수를 두 배로 늘리는 비차단 아키텍처를 만들 예정입니다.

 

2026년에는 작년에 발표된 Nvidia 로드맵에서 한때 X100이라고 불렸던 "Rubin" R100 GPU를 보게 될 것이며, 당시 말했듯이 X는 어떤 것의 약어가 아니라 변수로 간주했습니다. 이것이 사실임이 밝혀졌습니다. Rubin GPU는 HBM4 메모리를 사용하며 각각 12개의 DRAM으로 추정되는 8개의 스택을 갖게 될 것이며, 2027 Rubin Ultra GPU에는 12개의 HBM4 메모리 스택과 더 높은 스택이 있을 것입니다(로드맵에는 이에 대해 언급하지 않음).

 

현재 "Grace" CPU의 후속 제품인 "Vera" CPU가 출시되고 Nvidia가 더 강력한 Arm 서버 CPU를 출시할 수 없는 2026년이 되어서야 가능합니다. NVSwitch 6 칩은 이러한 칩과 쌍을 이루며 포트 속도는 3.6TB/s이고 ConnectX-9의 포트 속도는 1.6Tb/s입니다. 흥미롭게도 X1600 IB/이더넷 스위치라는 제품도 있는데, 이는 Nvidia가 10년 전 Mellanox가 그랬던 것처럼 InfiniBand와 이더넷 ASIC를 병합한다는 것을 의미할 수 있습니다.

 

또는 Nvidia가 재미를 위해 우리 모두를 호기심으로 만들려고 한다는 의미일 수도 있습니다. 2027년에는 슈퍼 이더넷 얼라이언스(Super Ethernet Alliance)가 NIC와 스위치를 완벽하게 지원할 것이며, UALink 스위치를 사용하여 노드 및 랙 간에 GPU를 함께 연결할 수도 있다는 다른 징후가 있습니다.

 

그때 알 수 있을 것입니다.

반응형

댓글