본문 바로가기
  • 한.중.일 - 문서 통역 , 반도체 뉴스
Semiconductor

Chip 거물들 = Nvidia NVLink 와 전쟁 벌이기 위해 그룹 결성

by shenminghu456 2024. 5. 31.
728x90
반응형
SMALL

최신 뉴스에 따르면

AMD, 브로드컴, 시스코, 구글, 휴렛팩커드 엔터프라이즈(HPE), 인텔, 메타, 마이크로소프트

8개 기업이 AI 데이터센터 네트워크를 위한

새로운 상호 연결 기술인 UALink(Ultra Accelerator)를 개발했다고 발표했습니다. 

 

AI 가속기 간 통신에 대한 개방형 표준을 구축하여 시장 리더인 Nvidia의 독점을 깨뜨립니다.

 

우리 모두 알고 있듯이 Nvidia는 AI 칩 시장에서 가장 큰 업체이며

GPU에서 절대적인 선두 점유율을 차지하고 있습니다.

 

그러나 그 외에도 NVIDIA는 여러 GPU와 시스템에서

워크로드를 확장하는 데 사용할 수 있는 다양한 기술을 보유하고 있습니다.

 

여기에는 온칩 및 캡슐화된 상호 연결, 서버 또는 포드에서 GPU 간 통신을 위한

NVLink, 포드 이상으로 확장하기 위한 Infiniband, 더 넓은 인프라에 연결하기 위한 이더넷이 포함됩니다.

 

이제 업계의 다른 회사들은 이러한 부문에서 경쟁하기 위해 개방형 표준으로 반격을 시도하고 있습니다.

작년에 우리는 향상된 이더넷을 사용하여 GPU 가속 노드 연결을 위한

사실상의 표준이 된 Nvidia의 InfiniBand 고성능 인터커넥트를 대체하는 Ultra Ethernet을 보았습니다.

 

올해는 Nvidia의 NVLink 프로토콜 및 NVLink 스위치(NVSwitch라고도 함) 메모리 아키텍처를

대체하도록 설계된 새로운 표준인 UALink(Ultra Accelerator Link)를 제공합니다.

UALink의 세부 사항에 대해 알아보기 전에 Nvlink를 살펴보겠습니다.

 

* 엔비디아의 보이지 않는 해자

 

과거에 우리는 NVIDIA GPU와 CUDA 해자에 대한 많은 소개를 보았습니다.

수년간의 투자 끝에 그들은 극복할 수 없는 이점을 구축했습니다.

그러나 그 외에도 위에서 언급했듯이 Nvidia에는 보이지 않는 해자가 많이 있으며

NVLink는 GPU 간 연결을 위한 고속 연결을 제공하는 기술 중 하나입니다.

 

무어의 법칙이 점차 유효하지 않게 되고 있지만

컴퓨팅 성능에 대한 요구 사항이 점점 더 높아지고 있는 상황에서 이러한 상호 연결은 특히 필요합니다.

 

NVIDIA의 공식 웹사이트에 따르면 NVLink는 세계 최초의 고속 GPU 상호 연결 기술로,

기존 PCI-E 솔루션에 비해 속도가 크게 향상된 다중 GPU 시스템의 대안을 제공합니다.

두 개의 NVIDIA GPU를 NVLink와 연결하여 메모리와 성능을 유연하게 조정하여

전문 비전 컴퓨팅에서 가장 높은 워크로드 요구 사항을 충족할 수 있습니다.

 

 

NVLink는 Nvidia GPU 카드의 메모리를 결합하는 방법으로 시작되었으며

결국 Nvidia Research는 이러한 포트를 구동하는 스위치를 구현하여

Nvidia가 바벨 토폴로지에서 2개 이상의 GPU 또는 십자형 정사각형 토폴로지에서

4개 이상의 GPU를 연결할 수 있도록 했습니다.

이 토폴로지는 CPU 기반 2소켓 및 4소켓 서버를 만드는 데 수십 년 동안 일반적으로 사용되어 왔습니다.

 

몇 년 전만 해도 AI 시스템은 프로그래밍을 단순화하고

해당 GPU가 네트워크 속도가 아닌 메모리 속도로 데이터 세트에 액세스할 수 있도록

메모리를 공유하기 위해 8개 또는 16개의 GPU가 필요했습니다.

그 결과, NVSwitch in the lab은 2018년 "Volta" V2 GPU 가속기를 기반으로 하는

DGX-100 플랫폼에서 빠르게 상용화되었습니다.

 

현재 NVLink는 초당 1.8테라바이트의 속도로 GPU 간에 데이터를 전송할 수 있습니다.

또한 비차단 컴퓨팅 패브릭에서 최대 576개의 완전히 연결된 GPU를 지원할 수 있는

NVLink 랙 스케일 스위치가 있습니다.

NVLink를 통해 연결된 GPU를 "포드"라고 하며 자체 데이터 및 컴퓨팅 도메인이 있음을 나타냅니다.

 

실제로 Nvlink 외에도 GPU에 연결하는 두 가지 다른 방법,

즉 PCI 버스와 서버 간 상호 연결이 있습니다.

표준 서버는 일반적으로 PCI 버스에서 4-8개의 GPU를 지원할 수 있습니다.

GigaIO FabreX 메모리 구조와 같은 기술을 사용하면 이 숫자를 32로 늘릴 수 있습니다.

 

또한 이더넷 또는 InfiniBand는 GPU가 포함된 서버에 연결할 수 있습니다.

이러한 수준의 연결을 스케일 아웃이라고도 하며,

더 빠른 다중 GPU 도메인이 더 느린 네트워크에 연결되어 대규모 컴퓨팅 네트워크를 형성합니다.

 

사실, 이더넷은 비트가 기계 간에 이동하기 시작한 이래로 컴퓨터 네트워크의 핵심이었습니다.

최근에는 Super Ethernet Alliance의 도입으로 고성능을 제공하기 위해 사양을 높였습니다.

실제로 Intel Gaudi -2 AI 프로세서에는 칩에 24개의 100기가비트 이더넷 연결이 있기 때문에

Intel은 이더넷에 상호 연결 플래그를 심었습니다.

 

그러나 엔비디아는 2019년 3월 멜라녹스를 인수한 후

고성능 인피니밴드 인터커넥트 시장을 사실상 독점했기 때문에 슈퍼 이더넷 얼라이언스에 가입하지 않았다.

Super Ethernet Alliance는 다른 모든 사람들을 위한 "InfiniBand"가 되는 것을 목표로 합니다.

Intel이 한때 InfiniBand의 깃발을 높이 들었다는 점을 언급할 가치가 있습니다.

 

따라서 이 경우 다른 사람들에게는 MI300A APU를 연결하기 위한

AMD Infinity Fabric의 대안이 없습니다.

InfiniBand/Ethernet의 경우와 유사하게,

Nvidia가 아닌 "포드 갭"을 메우기 위해 일종의 "슈퍼" 경쟁사 동맹이 필요합니다.

이것이 바로 UALink가 출시된 이유입니다.

 

* UALink란 무엇입니까?

울트라 액셀러레이터 링크(Ultra Accelerator Link, UALink)는

차세대 AI/ML 클러스터의 성능을 향상시킬 수 있는 고속 가속기 인터커넥트 기술이기도 합니다.

 

슈퍼 이더넷 얼라이언스(Super Ethernet Alliance)와 같은

8개 스폰서(UAlink 얼라이언스에는 엔비디아가 포함되지 않음)는 데이터센터 가속기를 위한 개방형 에코시스템 개발을 지원하는 동시에 새로운 사용 모델에 필요한 획기적인 성능을 촉진하기 위한 기술 사양을 개발하기 위해 개방형 산업 표준 기구를 구성했습니다.

 

 

그들의 의견으로는이 표준을 시작하는 것이 필요합니다.

AI 컴퓨팅에 대한 요구가 증가함에 따라 단일 인스턴스에 컴퓨팅 리소스를 쉽게 추가할 수 있는

강력하고 지연 시간이 짧으며 효율적으로 확장된 네트워크를 갖추는 것이 중요하기 때문입니다.

스케일업 기능에 대한 개방형 업계 표준 사양을 갖추면 AI 워크로드를 위한

개방형 고성능 환경을 조성하여 가능한 최고의 성능을 제공할 수 있습니다.

 

 

이러한 이유로 UALink 및 산업 사양은 차세대 AI 데이터 센터를 위한

AI 및 머신 러닝, HPC 및 클라우드 애플리케이션을 위한 인터페이스를 표준화하고 구현하는 데 매우 중요합니다.

워킹 그룹은 AI 컴퓨팅 컨테이너 그룹에서 가속기와 스위치 간의 통신 확장에 필요한 고속, 저지연 상호 연결을 정의하는 사양을 개발할 것입니다.

 

관련 자료에서 알 수 있듯이 울트라 액셀러레이터 링크 얼라이언스의 핵심은 작년 12월 CPU 및 GPU 제조업체인 AMD와 PCI-Express 스위치 제조업체인 Broadcom이 Broadcom의 향후 PCI-Express 스위치가 Instinct GPU 메모리를 서로 연결하고 CPU NUMA를 사용하기 위해 xGMI 및 Infinity Fabric 프로토콜을 지원할 것이라고 말하면서 설립되었습니다 연결된 로드/저장 메모리 의미 체계는 해당 메모리를 CPU 호스트의 메모리에 연결합니다. 뉴스에 따르면 이것은 PCI-Express 4 사양을 따르고 7.0년에 출시될 미래의 "Atlas 2025" 스위치가 될 것입니다. Broadcom의 데이터 센터 솔루션 그룹 부사장 겸 총괄 책임자인 Jas Tremblay는 이 작업이 아직 진행 중이지만 성급하게 결론을 내리지는 말아야 한다고 밝혔습니다. 즉, PCI-Express가 유일한 UALink 전송이고 xGMI가 유일한 프로토콜이라고 가정하지 마십시오.

 

AMD는 더 광범위한 Infinity Fabric 공유 메모리 프로토콜과 보다 제한적인 GPU 전용 xGMI를 UALink 프로젝트에 기여했으며, 다른 모든 참가자는 Infinity Fabric을 가속기 상호 연결을 위한 표준 프로토콜로 사용하는 데 동의했습니다. 인텔의 네트워크 및 엣지 그룹 수석 부사장 겸 총괄 책임자인 사친 카티(Sachin Katti)는 AMD, 브로드컴, 시스코 시스템즈, 구글, HP 엔터프라이즈, 인텔, 메타 플랫폼스, 마이크로소프트의 울트라 액셀러레이터 링크 '인에이블러 그룹'이 인피니티 패브릭과 함께 이더넷 레이어 1 전송 레이어를 사용하여 GPU 메모리를 CPU와 유사한 NUMA에 결합하는 것을 고려하고 있다고 말했다 거대한 공유 공간에서.

 

아래 이미지에서 볼 수 있듯이 이더넷을 사용하여 Pod를 더 큰 클러스터에 연결하는 방법을 공유합니다.

 

thenextplatform이 말했듯이 아무도 여러 공급업체의 GPU가 단일 섀시, 심지어 여러 랙의 랙 또는 포드에 연결될 것이라고 기대하지 않습니다. 그러나 UALink 얼라이언스 회원들은 시스템 제조업체가 UALink를 사용하는 기계를 만들고 고객이 캐빈을 구축할 때 많은 참가자의 가속기를 해당 기계에 넣을 수 있다고 믿습니다. AMD GPU가 있는 포드, Intel GPU가 있는 포드, 다른 참가자의 사용자 지정 가속기 포드가 있는 포드를 가질 수 있습니다. Meta Platforms와 Microsoft에서 게시한 OAM(Open Accelerator Module) 사양에서 시스템 보드의 가속기 슬롯의 공통성을 허용하는 것처럼 상호 연결 수준에서 서버 설계의 공통성을 허용합니다.

 

대체로 UALink의 가장 큰 장점 중 하나는 업계의 다른 모든 사람들에게 NVIDIA를 따라잡을 수 있는 기회를 제공한다는 것입니다. NVIDIA는 이제 NVSwitch 박스를 만들고 이러한 NVSwitch 트레이를 NVIDIA DGX GB200 NVL72와 같은 제품에 넣을 수 있습니다.

 

인텔은 올해 수억 달러의 AI 가속기를 판매했는데, 이는 수만 개의 가속기만 판매한다는 것을 의미할 수 있습니다. AMD는 올해 수십억 달러의 MI300X를 판매할 예정이지만 여전히 NVIDIA의 AI 규모에는 미치지 못합니다. UALink를 사용하면 Broadcom과 같은 회사에서 UALink 스위치를 만들어 다른 회사의 확장을 지원한 다음 여러 회사의 가속기에서 해당 스위치를 사용할 수 있습니다.

 

우리는 이미 AMD Infinity Fabric AFL Scale Up과 경쟁할 계획인 Broadcom Atlas 스위치에 대해 보고했습니다 NVIDIA NVLink는 PCIe Gen7의 Broadcom 스위치에 곧 출시될 예정입니다. 브리핑에서 UALink용 V1.0을 구현할 수 있다고 들었습니다. 물론 UALink V1.0 사양은 아직 제공되지 않습니다.

 

이 사양의 버전 1.0은 AI 컨테이너 그룹에 최대 1,024개의 가속기를 연결할 수 있도록 하여 컨테이너 그룹의 가속기(예: GPU)에 장착된 메모리 간에 직접 로딩 및 저장이 가능하다고 말했습니다. UALink 발기인 워킹 그룹은 UALink Alliance를 설립했으며, 2024년 3분기에 공식적으로 설립될 예정입니다. 사양 버전 1.0은 2024년 3분기에 제공될 것으로 예상되며 UALink Alliance에 참여하는 회사에 열려 있습니다.

 

* CXL은 어떨까요?

실제로 지난 몇 년 동안 업계 관계자들은 PCI-Express 패브릭 위에서 실행되는 CXL(Compute Express Link) 프로토콜이 동일한 기능을 제공할 것이라고 약속했습니다. 예를 들어, CXLmem 하위 집합은 이미 CPU와 GPU 간에 메모리 공유를 제공합니까?

 

그러나 분석가의 눈에는 PCI-Express와 CXL이 더 광범위한 전송 및 프로토콜입니다.

 

카티는 AI 가속기 모듈의 메모리 도메인이 CPU 클러스터의 메모리 도메인보다 훨씬 크며, CPU 클러스터가 2개에서 4개로, 때로는 8개로, 드물게는 16개의 컴퓨팅 엔진으로 확장될 수 있다는 것을 알고 있다고 말합니다. 많은 사람들이 AI 가속기의 GPU 모듈이 수백 개의 컴퓨팅 엔진으로 확장되며 수천 개로 확장되어야 한다고 생각합니다. 또한 GPU 클러스터, 특히 AI 워크로드를 실행하는 클러스터는 CPU NUMA 클러스터보다 메모리 대기 시간에 더 관대합니다.

 

이를 위해 The Next Platform은 UALinks가 CPU를 함께 번들로 묶는 것을 기대해서는 안 된다고 말하지만, 미래의 CXL 연결이 CPU가 메모리를 공유하는 표준 방식이 되지 않을 것이라고 믿을 이유는 없습니다.

 

이것은 실제로 상호 연결 패브릭 메모리 의미론에 대한 NVLink의 독점을 깨기 위한 것입니다. 엔비디아가 NVLink와 NVSwitch를 어떻게 사용하든, 엔비디아의 몇몇 경쟁사들은 GPU 또는 다른 유형의 가속기 또는 전체 시스템을 판매하든 AI 서버 노드 및 랙 마운트 장치를 위한 엔비디아 인터커넥트에 대한 보다 개방적이고 저렴한 대안을 원하는 잠재 고객에게 확실한 대안을 제공해야 합니다.

 

AMD 데이터센터 솔루션 그룹 총괄 매니저 포레스트 노로드(Forrest Norrod)는 "데이터센터 전반에 걸쳐 AI 시스템의 필요성을 고려할 때 한 가지 분명한 사실은 AI 모델이 계속해서 크게 성장하고 있다는 것"이라고 말했습니다. "이는 최첨단 모델의 경우 추론 또는 훈련을 위해 많은 액셀러레이터가 함께 작동해야 한다는 것을 의미한다는 것을 누구나 알 수 있습니다. 이러한 가속기를 확장할 수 있는 능력은 미래의 대규모 시스템의 효율성, 성능 및 경제성을 높이는 데 매우 중요합니다. 확장에는 여러 가지 측면이 있지만 Ultra Accelerator Link의 모든 지지자들은 업계에 빠르게 발전할 수 있는 개방형 표준, 여러 회사가 전체 생태계에 가치를 더할 수 있는 개방형 표준이 필요하다고 매우 강하게 느낍니다. 또한 어느 한 회사에 얽매이지 않고 빠르게 혁신을 진행할 수 있습니다. ”

 

의심할 여지 없이 AMD Forrest Norrod가 말하는 회사는 InfiniBand에 투자하고 GPU용 NUMA 클러스터링을 수행하기 위해 절대적으로 방대한 네트워크 대역폭을 갖춘 NVSwitch를 만든 Nvidia입니다. 물론 처음에는 PCI-Express 스위치가 총 대역폭 측면에서 여전히 제한되어 있기 때문에 이 작업을 수행했습니다.

 

흥미롭게도 UALink 1.0 사양은 올해 3분기에 완성될 예정이며, 이 시점에서 Ultra Accelerator Consortium이 지적 재산을 소유하고 UALink 표준을 발전시키기 위해 참여할 것입니다. 올해 4분기에는 UALink 1.1 업데이트가 출시될 예정이며, 이를 통해 규모와 성능이 더욱 향상될 것입니다. 1.0 및 1.1 UALink 사양에서 어떤 전송을 지원하는지, 또는 PCI-Express 또는 이더넷 전송을 지원하는지는 명확하지 않습니다.

 

NVLink 3 포트가 있는 NVSwitch 4 아키텍처는 이론적으로 공유 메모리 포드에서 최대 256개의 GPU를 확장할 수 있지만 Nvidia의 상용 제품은 8개의 GPU만 지원합니다. NVSwitch 4 및 NVLink 5 포트를 통해 Nvidia는 이론적으로 최대 576개의 GPU에 걸쳐 있는 포드를 지원할 수 있지만 실제로는 DGX B72 NVL72 시스템에서 최대 200개의 GPU가 있는 시스템에서만 상용 지원이 가능합니다.

 

오늘날 많은 기업들이 표준 PCIe 스위치를 채택하고 PCIe 기반 패브릭을 구축하여 더 많은 가속기로 확장하려고 노력하고 있습니다. 업계의 거물들은 이를 임시방편으로 보는 것 같습니다. 대신 NVIDIA의 NVLink는 업계 확장을 위한 황금 표준에 가깝습니다.

 

이제 UAlink 팀은 독점 NVLink에 대한 공개 경쟁자를 출시할 준비를 하고 있습니다.

 

이 모든 일에는 시간이 걸립니다. 기자들은 브리핑에서 이것이 2026년쯤 시행 목표인지 물었다. 2024년은 너무 빠르고, 상품에 내장되어도 현재로서는 2025년 초반의 상품이 될 것 같지 않다. CXL이나 UCIe를 보면 이러한 표준이 최종적으로 제품이 되기까지 오랜 시간이 걸립니다. 2026년은 신속한 구현의 시기가 될 것입니다.

 

AMD 및 Intel과 같은 회사의 경우 NVLink 및 NVSwitch의 기능을 복제하고 다른 회사와 개발을 공유할 수 있는 방법을 제공합니다. Broadcom과 같은 회사는 스케일 업 또는 스케일 아웃을 위해 NVIDIA가 아닌 시스템을 위한 연결 제공업체로 포지셔닝되어 있기 때문에 가장 큰 승자가 될 가능성이 높습니다. AMD가 이기든 인텔이 이기든 Broadcom은 커넥티비티를 판매하고 있습니다. 하이퍼스케일러의 경우, 표준화된 구조에 투자할 수 있는 능력은 엔드포인트를 만드는 모든 사람에게 완벽하게 적합합니다.

 

그런데 2019-2020년 기간 동안 업계는 CXL 인박스와 Gen-Z를 확장 솔루션으로 간주했습니다. 당시 Z세대를 선보였던 많은 사람들이 현재 AMD에서 일하고 있으며, AMD는 수년 동안 팀을 구성해 확장 문제를 해결해 왔습니다.

 

곧 UALink가 작동하는 것을 볼 수 있기를 바랍니다. 그건 그렇고, 마벨은 보이지 않는 것 같습니다.

728x90
반응형
LIST

댓글