지난 2주 동안 DeepSeek는 전 세계적으로 핫스팟이 되었습니다. 특히 서구 세계에서는 중국의 이 생성형 AI 시스템이 많은 논의를 불러일으켰습니다.
DeepSeek는 출시 18일 만에 무려 1,600만 건의 다운로드를 달성했으며, 이는 같은 기간 라이벌 OpenAI의 ChatGPT 다운로드 수의 거의 두 배에 달하는 수치로 강력한 시장 매력과 사용자 기반을 입증했습니다.
시장조사업체 앱피규어스(Appfigures)의 권위 있는 데이터에 따르면, 딥시크(DeepSeek)의 앱은 지난 1월 26일 애플 앱스토어(Apple App Store)에 첫 선을 보인 이후 줄곧 글로벌 지배력을 유지하고 있다. 통계에 따르면 올해 초 출시 이후 140개국에서 Apple App Store 다운로드 차트 정상에 빠르게 올랐으며 미국 Android Play Store에서도 1위를 차지했습니다.
중국의 대형 AI 모델인 딥시크(Deesee)는 뛰어난 성능 외에도 저렴한 훈련 비용도 전 세계의 주목을 받는 열쇠로 주목받고 있다. 오늘 기사에서는 DeepSeek의 칩과 시스템을 살펴봅니다.
DeepSeek의 아키텍처 추가 정보
2024년 8월, DeepSeek 팀은 MoE(전문가 혼합) 기본 모델의 요소를 서로 연결하기 위해 만든 새로운 로드 밸런서를 설명하는 논문을 발표했습니다.
이 기사에서 DeepSeek는 MoE(Hybrid Expert) 모델의 경우 전문가 부하의 불균형으로 인해 라우팅이 중단되거나 컴퓨팅 오버헤드가 증가할 것이라고 말합니다. 기존 방법은 일반적으로 로드 밸런싱을 촉진하기 위해 보조 손실을 사용하지만, 보조 손실이 크면 훈련 시 무시할 수 없는 간섭 구배가 발생하여 모델 성능이 저하됩니다.
원치 않는 그래디언트를 생성하지 않고 훈련 중 로드 밸런싱을 제어하기 위해 DeepSeek 팀은 보조 손실 없는 로드 밸런싱 전략을 특징으로 하는 Loss-Free Balancing을 제안했습니다.
특히, Top-K 라우팅 결정을 내리기 전에 무손실 밸런싱은 먼저 각 전문가의 라우팅 점수에 전문가 측면의 바이어스를 적용합니다. 최근 부하를 기반으로 각 전문가의 편향을 동적으로 업데이트함으로써 무손실 밸런싱은 항상 전문가 부하의 균형 잡힌 분포를 유지할 수 있습니다.
또한 무손실 밸런싱은 간섭 그래디언트를 생성하지 않기 때문에 MoE 학습에서 얻은 모델 성능의 상한을 높입니다. DeepSeek 팀은 또한 최대 3B 매개변수와 최대 200B 토큰으로 훈련된 MoE 모델에서 무손실 밸런싱의 성능을 검증했습니다. 실험 결과에 따르면 기존의 보조 패킷 손실 제어 로드 밸런싱 전략과 비교할 때 무손실 밸런싱 전략은 더 나은 성능과 더 나은 로드 밸런싱을 모두 달성합니다.
그림 1: Lossless Balance는 각 교육 단계의 "편향된 게이팅 점수"를 기반으로 전문가를 선택하고 각 교육 단계 후에 이 전문가 편향을 업데이트합니다.
2024년 말에 발표된 "DeepSeek-V3 기술 보고서" 보고서에서 DeepSeek 팀은 DeepSeek-V3 모델의 기술 아키텍처에 대한 심층적인 해석을 제공했으며, 이는 회사의 기술을 이해하기 위한 더 많은 참고 자료를 제공합니다.
보고서에서 그들은 미래 지향적인 고려 사항에서 회사가 항상 강력한 모델 성능과 저렴한 비용을 추구해 왔다고 직설적으로 말했습니다. 따라서 아키텍처 측면에서 DeepSeek-V3는 효율적인 추론을 위해 MLA(Multi-head Latent Attention)를 사용하고 비용 효율적인 훈련을 위해 DeepSeekMoE를 사용합니다. 효율적인 훈련을 위해 DeepSeek 팀의 솔루션은 FP8 혼합 정밀도 훈련을 지원하고 훈련 프레임워크를 완전히 최적화합니다. 그들의 견해에 따르면 저정밀 교육은 효율적인 교육을 위한 유망한 솔루션이 되었으며 그 개발은 하드웨어 기능의 발전과 밀접한 관련이 있습니다.
그림 2: FP8 데이터 형식의 전체 혼합 정밀도 프레임워크. 명확성을 위해 선형 연산자만 설명됩니다.
FP8 컴퓨팅 및 스토리지에 대한 지원으로 DeepSeek 팀은 훈련을 가속화하고 GPU 메모리 사용량을 줄일 수 있었습니다. 훈련 프레임워크 측면에서, 그들은 효율적인 파이프라인 병렬 처리를 달성하기 위해 DualPipe 알고리즘을 설계했으며, 이는 파이프라인 버블이 더 적고 계산-통신 중복을 통해 훈련 중 대부분의 통신을 숨깁니다.
그림 3: DeepSeek-V3 기본 아키텍처 다이어그램. DeepSeek-V2에 이어 이 회사는 효율적인 추론과 비용 효율적인 교육을 위해 MLA와 DeepSeekMoE를 사용합니다.
DeepSeek 팀에 따르면, 이러한 중복을 통해 모델이 더 확장됨에 따라 회사는 컴퓨팅 대 통신 비율이 유지되는 한 거의 제로에 가까운 전체 대 전체 통신 오버헤드를 달성하면서 노드 전반에 걸쳐 세분화된 전문가를 계속 사용할 수 있습니다.
또한 DeepSeek 팀은 InfiniBand(IB) 및 NVLink 대역폭을 최대한 활용하기 위해 효율적인 크로스 노드 올-투-올 통신 코어를 개발했습니다. 또한 값비싼 텐서 병렬 처리 없이 DeepSeek-V3를 훈련할 수 있도록 메모리 사용량도 신중하게 최적화되었습니다.
이러한 노력을 결합함으로써 DeepSeek 팀은 높은 교육 효율성을 달성했습니다.
표 1: DeepSeek-V3의 교육 비용, H2의 GPU 시간당 대여 가격이 $800라고 가정합니다.
이 논문의 DeepSeek 팀에 따르면, 이는 알고리즘, 프레임워크 및 하드웨어의 공동 설계를 최적화함으로써 달성됩니다. 사전 훈련 단계에서 DeepSeek-V3는 훈련하는 데 1조 토큰당 180K H800 GPU 시간만 소요되며, 이는 2048 H800 GPU가 있는 클러스터에서 3.7일밖에 걸리지 않는다는 것을 의미합니다. 그 결과, 회사의 사전 교육 단계는 2개월도 채 되지 않아 완료되었으며 2664K GPU 시간이 소요되었습니다. 컨텍스트 길이 확장을 위한 119K GPU 시간과 사후 훈련을 위한 5K GPU 시간을 합치면 DeepSeek-V3 전체 훈련에는 278만 8,000개의 GPU 시간만 소요되었습니다.
H800 GPU를 시간당 2달러에 임대한다고 가정하면 총 교육 비용은 557만 6,000달러에 불과하며, DeepSeek 팀은 또한 위의 비용에는 DeepSeek-V3의 공식 교육만 포함되며 아키텍처, 알고리즘 또는 데이터와 관련된 이전 연구 및 절제 실험과 관련된 비용은 포함되지 않는다는 점을 강조했습니다. 이에 비해 오픈AI 사장 샘 알트만(Sam Altman)은 GPT-4를 훈련시키는 데 1억 달러 이상이 걸릴 것이라고 말했다.
1월 20일, DeepSeek는 모델의 추론 기능을 향상시키기 위해 2개의 강화 학습 단계와 2개의 지도 미세 조정 단계를 추가하는 DeepSeek-R1 모델을 출시했습니다. DeepSeek AI는 기본 V3 모델보다 R1 모델에 6.5배 더 많은 요금을 부과합니다. 그 후 DeepSeek는 멀티모달 모델인 Janus의 업데이트된 버전인 Janus-Pro를 출시했습니다. 새로운 모델은 학습 전략, 데이터 크기 조정 및 모델 크기를 개선하여 다중 모드 이해와 텍스트-이미지 생성을 향상시킵니다.
지금까지 DeepSeek는 전 세계적으로 인기를 얻었습니다.
DeepSeek 뒤에 숨어있는 칩
DeepSeek의 출시 이후 인터넷 전체, 특히 하드웨어 측면에서 시스템 및 기술 연구 프레임워크에 대한 많은 논의가 있었습니다. 이는 매우 저렴한 비용으로 인해 전체 AI 칩 시장에 충격을 일으켰으며 몇 일 전 Nvidia의 급락은 이러한 우려를 가장 직접적으로 반영합니다.
위에서 언급했듯이 DeepSeek는 V3 모델을 훈련하는 데 사용되는 클러스터에는 각각 8개의 H800 GPU 가속기가 있는 256개의 서버 노드만 있어 총 2,048개의 GPU가 있다고 말합니다. nextplatform의 분석가에 따르면 이러한 GPU 카드는 Nvidia H800 카드의 H800 SXM5 버전으로, FP64 부동 소수점 성능은 1조 부동 소수점 연산으로 제한되며, 그렇지 않으면 전 세계 대부분의 회사에서 구입할 수 있는 H100 카드의 80GB 버전과 동일합니다.
그 중 노드 내의 8개 GPU는 NVSwitch와 상호 연결되어 해당 GPU 메모리 간에 공유 메모리 도메인을 생성하고, 노드에는 클러스터의 다른 노드에 대한 고대역폭 링크를 생성하기 위해 여러 InfiniBand 카드(GPU당 1개일 수 있음)가 있습니다.
H800에 특화된 이 GPU는 미국 수출 제한의 요구에 부응하여 Nvidia에서 출시한 GPU입니다. 당시 미국의 GPU 수출 금지는 주로 컴퓨팅 파워와 대역폭을 제한했습니다. 그 중 컴퓨팅 파워의 상한은 4800 TOPS이고 대역폭의 상한은 600GB/s입니다. A800 및 H800의 컴퓨팅 성능은 원본과 비슷하지만 대역폭이 줄었습니다.
그림 4: H800의 세부 정보
위에서 언급했듯이 DeepSeek는 훈련에 H800 SXM 버전을 사용합니다. 소위 SXM 아키텍처는 NVIDIA Tensor Core 가속기를 독점 DGX 및 HGX 시스템에 연결하기 위한 고대역폭 소켓 솔루션으로 이해됩니다. NVIDIA Tensor Core GPU의 각 세대에 대해 DGX 시스템 HGX 보드에는 SXM 소켓 유형이 장착되어 있어 일치하는 GPU 부속 카드에 대해 높은 대역폭, 전력 공급 등을 가능하게 합니다.
데이터에 따르면 전용 HGX 시스템 보드는 NVLink를 통해 8개의 GPU를 상호 연결하여 GPU 간 고대역폭을 가능하게 합니다. NVLink의 기능을 사용하면 GPU 간에 데이터 흐름이 매우 빨라지므로 PCIe를 거치거나 데이터를 교환하기 위해 CPU와 통신할 필요 없이 단일 GPU 짐승처럼 작동할 수 있습니다. NVIDIA DGX H800은 4개의 NVLink 스위치와 GPU당 400GB/s 대역폭이 있는 8개의 SXM5 H800에 연결되어 총 3.2TB/s 이상의 양방향 대역폭을 제공합니다. 각 H800 SXM GPU는 PCI Express를 통해 CPU에도 연결되므로 8개의 GPU 중 하나에서 계산된 데이터를 CPU로 다시 전달할 수 있습니다.
그림 5: 기본 SGX/HGX to CPU 프레임워크 다이어그램
지난 몇 년 동안 대기업들은 SXM GPU가 대규모 배포에 더 적합하기 때문에 NVIDIA DGX에 더욱 열광하게 되었습니다. 위에서 언급했듯이 8개의 H800 GPU는 NVLink 및 NVSwitch 상호 연결 기술을 통해 완전히 상호 연결됩니다. DGX 및 HGX에서 8개의 SXM GPU는 PCIe와 다르게 연결됩니다. 각 GPU는 4개의 NVLink 스위치 칩에 연결되어 있으므로 기본적으로 모든 GPU가 하나의 큰 GPU로 실행됩니다. 이러한 확장성은 NVIDIA NVLink 스위치 시스템으로 더욱 확장되어 256개의 DGX H800을 배포 및 연결하여 GPU 가속 AI 팩토리를 생성할 수 있습니다.
그림 6: 기본 8 PCIe GPU-CPU 프레임워크 다이어그램
외국 애널리스트의 눈에 비친 DeepSeeK
이러한 GPU와 시스템을 기반으로 많은 서구 분석가들이 Deepseek 팀을 비판했지만, nextplatform 분석가들은 53페이지 분량의 논문을 주의 깊게 읽으면 DeepSeek가 V3 모델을 만들기 위해 다양한 영리한 최적화와 방법을 취했다는 것을 알게 될 것이며, 이것이 하드웨어에서 DeepSeek의 비효율성을 줄이고 훈련 및 추론 성능을 향상시킨다고 믿는다고 말했습니다.
그들은 V3 기본 모델을 훈련시키기 위해 DeepSeek 팀이 취한 접근 방식의 주요 혁신은 훈련 실행이 토큰을 면밀히 조사하고 매개 변수 깊이 집합에서 모델의 가중치를 생성하여 데이터가 클러스터를 통과할 때 Hopper GPU의 132개 스트리밍 다중 프로세서(SM) 중 20개를 데이터의 통신 가속기 및 스케줄러로 사용하는 것이라고 믿습니다. Nextplatform은 V3 논문에 설명된 대로 "계산과 통신 간의 중복은 계산 프로세스에서 통신 지연을 숨길 수 있다"고 추측하며, SM을 사용하여 실제로 동일한 노드에 있지 않은 GPU 간의 L3 캐시 컨트롤러 및 데이터 집계기인 것을 만듭니다.
nextplatform이 논문에서 공유한 바와 같이, DeepSeek는 GPU 클러스터에서 완전 대 전체 통신과 관련된 다양한 SHARP와 유사한 처리를 수행하기 위해 자체 GPU 가상 DPU를 만들었습니다.
위에서 언급했듯이 DeepSeek 팀은 효율적인 파이프라인 병렬 처리를 달성하기 위해 DualPipe 알고리즘을 설계했습니다. 이에 대한 응답으로 nextplatform은 DeepSeek가 2,048개의 GPU에서 계산 효율성을 100%에 가깝게 높일 수 있다면 클러스터는 8,192개의 GPU가 있고(물론 일부 SM이 누락됨) DualPipe가 없기 때문에 효율적으로 실행되지 않는다고 생각하기 시작할 것이라고 지적합니다. 비교를 위해 OpenAI의 GPT-4 기본 모델은 8,000개의 Nvidia의 "Ampere" A100 GPU에서 훈련되었으며, 이는 4,000개의 H100(거의 동일)에 해당합니다.
또한 보조 무손실 로드 밸런싱, FP8 저정밀 처리, 더 높은 정확도 표현을 유지하기 위해 텐서 코어의 중간 결과에 대한 고정밀 행렬 수학 연산을 CUDA 코어의 벡터 단위로 상승, 역전파 중 모든 RMSNorm 연산 재계산, 모든 MLA 상향 투영 재계산 등도 DeepSeek의 혁신 중 하나입니다.
잘 알려진 반도체 분석 회사인 세미애널리시스(SemiAnalysis)의 딜런 파텔(Dylan Patel)은 딥시크(DeepSeek) 팀이 공개한 비용에 대해 의구심을 가지고 있다. 그러나 그들은 또한 DeepSeek가 탁월하다는 것을 인정합니다.
SemiAnalysis는 DeepSeek-R1이 9월에만 출시된 OpenAI-o1과 유사한 결과를 달성할 수 있었다고 말합니다. DeepSeek가 그렇게 빨리 따라잡은 이유는 무엇입니까? 이는 주로 추론이 새로운 패러다임이 되었기 때문에 이제 반복이 더 빠르고 계산 집약도가 낮으며 이전보다 더 많은 보상을 받을 수 있기 때문입니다. 반면, 이전 모델은 사전 교육에 의존했는데, 이는 점점 더 비용이 많이 들고 강력한 이점을 달성하기가 어려워졌습니다.
그들은 새로운 패러다임이 기존 모델의 사후 훈련에서 합성 데이터 생성 및 RL을 통해 추론 기능을 활성화하여 더 낮은 가격으로 더 빠른 이익을 얻는 데 중점을 둔다고 지적합니다. 간단한 최적화와 결합된 낮은 진입 장벽은 DeepSeek가 그 어느 때보다 빠르게 o1 분석법을 복제할 수 있음을 의미합니다.
"R1은 매우 훌륭한 모델이고, 우리는 그것에 대해 아무런 문제가 없으며, 추론의 가장자리를 그렇게 빨리 따라잡은 것이 객관적으로 인상적입니다." SemiAnalysis가 강조되었습니다. 그들은 다음과 같은 결론을 내렸다.
한편, DeepSeek V3는 전례 없는 규모로 MTP(Multi-Token Prediction) 기술을 사용하며, 이러한 추가 주의 모듈은 단일 토큰 대신 다음 몇 개의 토큰을 예측할 수 있습니다. 이렇게 하면 학습 중에 모델의 성능이 향상되며 추론 중에 폐기할 수 있습니다. 이는 더 적은 양의 계산으로 성능을 향상시키는 알고리즘 혁신의 예입니다. 훈련에서 FP8의 정확도를 향상시키는 것과 같은 몇 가지 추가 고려 사항이 있습니다.
반면에 DeepSeek v3는 다양한 도메인을 전문으로 하는 다른 많은 소규모 모델로 구성된 대규모 모델인 전문가 모델의 하이브리드이기도 합니다. 하이브리드 전문가 모델이 직면한 과제 중 하나는 어떤 하위 모델 또는 "전문가"에게 어떤 토큰을 제공할지 결정하는 방법입니다. DeepSeek는 모델 성능에 영향을 미치지 않는 균형 잡힌 방식으로 올바른 전문가에게 토큰을 라우팅하는 "게이팅 네트워크"를 구현합니다. 이는 라우팅이 매우 효율적이며, 모델의 전체 크기를 기준으로 각 토큰에 대해 학습 프로세스 중에 변경할 수 있는 매개 변수가 몇 개만 있음을 의미합니다. 이렇게 하면 훈련 효율성이 향상될 뿐만 아니라 추론 비용도 절감됩니다.
또한 R1의 경우 강력한 기본 모델(v3)을 갖는 것이 큰 이점이 될 것입니다. 이는 부분적으로 강화 학습(RL) 때문입니다.
강화 학습에는 두 가지 초점이 있습니다: 형식화(일관된 출력이 제공되도록 보장)와 유용성 및 무해성(모델이
와 함께). 추론은 모델이 합성 데이터 세트에서 미세 조정될 때 작동합니다.
SemiAnalysis는 MLA가 추론 비용을 획기적으로 줄이기 위한 DeepSeek의 핵심 혁신이라고 강조합니다. 그 이유는 MLA가 표준 주의에 비해 쿼리당 필요한 KV 캐시의 양을 약 93.3% 줄이기 때문입니다. KV 캐싱은 대화의 컨텍스트를 나타내는 데이터를 저장하여 불필요한 계산을 줄이는 변환기 모델의 메모리 내 메커니즘입니다.
Nvidia 칩에 대한 잠재적 영향
기사 시작 부분에서 DeepSeek가 폭발한 후 Nvidia가 급락으로 대응했다고 언급했습니다. 미국의 빅테크 기업들이 딥시크(DeepSeek)에서 배우기 시작해 더 저렴한 AI 솔루션을 선택한다면 엔비디아에 압박이 될 수 있기 때문이다.
그 후 Nvidia는 DeepSeek의 진행 상황에 대해 긍정적인 평가를 내렸습니다. 성명서에서 회사는 DeepSeek의 진전이 AI 모델의 새로운 작동 방식을 보여주는 좋은 증거라고 말했습니다. 회사는 이러한 AI 모델을 사용자에게 제공하려면 많은 수의 NVIDIA 칩이 필요하다고 말합니다.
그러나 아크 인베스트먼트의 저명한 투자자이자 CEO인 케이시 우드(Casey Wood)는 한 인터뷰에서 딥시크가 AI 분야에서 성공하는 데 많은 돈이 필요하지 않다는 것을 증명했고 비용 붕괴를 가속화했다고 말했다.
카운터포인트 리서치(Counterpoint Research)의 쑨웨이(Sun Wei) 인공지능 수석 애널리스트도 엔비디아의 매각은 인공지능 개발에 대한 사람들의 인식 변화를 반영한다고 말했다. 그녀는 또한 "딥시크의 성공은 더 큰 모델과 더 많은 컴퓨팅 파워가 더 나은 성능으로 이어진다는 믿음에 도전하며, 이는 엔비디아의 GPU 기반 성장 전략에 위협이 되고 있다"고 지적했습니다. ”
SemiAnalysis는 알고리즘 개선 속도가 너무 빠르다는 점을 강조하며, 이는 Nvidia 및 GPU에도 좋지 않습니다.
미국 매체 '포춘(Fortune)'은 딥시크(DeepSeek)가 엔비디아의 AI 지배력을 위협하고 있다고 경고하기도 했다.
앞서 언급했듯이 DeepSeek는 성능이 낮고 저렴한 칩으로 최신 모델을 구축했으며, 이는 Nvidia에 압력을 가했으며 일부는 다른 대형 기술 회사가 Nvidia의 고급 제품에 대한 수요를 줄일 수 있다고 우려했습니다.
아바트레이드(AvaTrade)의 수석 시장 분석가인 케이트 리먼(Kate Leaman)은 포춘과의 인터뷰에서 "투자자들은 딥시크가 더 약한 AI 칩으로 작업할 수 있는 능력이 AI 하드웨어 분야에서 엔비디아의 지배력을 약화시킬 수 있다고 우려하고 있다"며 "특히 딥시크의 밸류에이션이 AI 수요에 크게 의존한다는 점을 감안할 때 그렇다"고 말했다. ”
tomshardware의 보고서에 따르면 DeepSeek의 AI 혁신은 Nvidia의 CUDA를 우회하고 대신 어셈블리와 같은 PTX 프로그래밍을 사용하여 Nvidia에 대한 모든 사람의 우려를 다소 높인다는 점을 언급할 가치가 있습니다.
보고서에 따르면 Nvidia의 PTX(Parallel Thread Execution)는 Nvidia가 GPU를 위해 설계한 중간 명령어 세트 아키텍처입니다. PTX는 CUDA C/C++ 또는 기타 언어 프론트엔드와 같은 고급 GPU 프로그래밍 언어와 저수준 기계코드(스트리밍 어셈블리 또는 SASS) 사이에 있습니다. PTX는 GPU를 데이터 병렬 컴퓨팅 장치로 노출하는 니어 메탈 ISA로, CUDA C/C++ 및 기타 언어에서는 불가능한 레지스터 할당 및 스레드/워프 레벨 튜닝과 같은 세분화된 최적화를 허용합니다. PTX가 SASS에 적용되면 특정 세대의 Nvidia GPU에 최적화됩니다.
V3 모델을 훈련할 때 DeepSeek는 Nvidia의 H800 GPU를 재구성하여 132개의 스트리밍 멀티프로세서 중 20개를 서버 간 통신에 할당했으며, 프로세서의 연결성 제한을 극복하고 트랜잭션 속도를 높이기 위해 데이터를 압축 및 압축 해제하는 데 할당했을 수 있습니다. 성능을 극대화하기 위해 DeepSeek는 초미세 스레드/워프 레벨 튜닝을 통해 고급 파이프라인 알고리즘도 구현합니다.
이 보고서는 이러한 수정 사항이 표준 CUDA 수준 개발을 훨씬 넘어서지만 유지 관리가 매우 어렵다고 지적합니다.
그러나 모닝스타의 전략가인 브라이언 콜렐로(Brian Colello)는 딥시크(DeepSeek)의 진입이 의심할 여지 없이 전체 AI 생태계에 불확실성을 가중시켰지만, 이러한 움직임의 배후에 있는 압도적인 추진력은 변하지 않았다고 직설적으로 말했다. 그는 메모에서 "AI GPU에 대한 수요가 계속해서 공급을 초과하고 있다고 믿는다"고 썼습니다. 따라서 더 얇고 가벼운 모델이 동일한 수의 칩으로 더 큰 성장을 달성할 수 있지만 기술 회사는 여전히 이 AI '골드 러시'의 일환으로 구매할 수 있는 모든 GPU를 계속 구매할 것이라고 생각합니다. ”
팻 겔싱어(Pat Gelsinger) 전 인텔 CEO와 같은 업계 베테랑들도 AI와 같은 애플리케이션이 액세스할 수 있는 모든 컴퓨팅 성능을 활용할 수 있다고 믿습니다. 딥시크(DeepSeek)의 돌파구에 대해 키신저는 이를 대중 시장에서 구할 수 있는 수많은 저렴한 장치에 AI를 추가하는 방법으로 보고 있다.
SemiAnalysis는 보고서에서 DeepSeek V3 및 R1 출시 이후 많은 지역에서 H100용 AWS GPU 가격이 인상되었다고 밝혔습니다. 유사한 H200도 찾기가 더 어렵습니다. "V3가 출시된 후 GPU의 수익 창출률이 크게 증가하기 시작하면서 H100의 가격이 급등했습니다. 더 낮은 가격으로 더 많은 인텔리전스를 제공한다는 것은 더 많은 수요를 의미합니다. 이는 지난 몇 달 동안 하락한 H100 현물 가격과 비교하면 상당한 변화를 나타냅니다. "SemiAnalysis가 말하길,
그렇다면 DeepSeek가 어디에서 발전할 것이라고 생각하십니까? Nvidia 칩이 계속해서 세계를 지배할 수 있습니까?
Over the past two weeks, DeepSeek has become a global hotspot. Especially in the Western world, this generative artificial intelligence system from China has sparked widespread discussion.
In the first 18 days of its release, DeepSeek achieved an astounding 16 million downloads, nearly double the number of downloads of its rival OpenAI's ChatGPT during the same period, fully demonstrating its strong market appeal and user base.
According to authoritative data from market analysis firm Appfigures, DeepSeek's app topped the Apple App Store for the first time on January 26th and has since maintained its leading position globally. Data statistics show that since its release at the beginning of this year, it has rapidly risen to the top of the download charts on Apple's App Store in 140 countries and also holds the top spot on the Android Play Store in the United States.
As a Chinese AI model, DeepSeek has garnered this attention not only due to its outstanding performance but also because of its low training costs. In today's article, we will take a look at the chips and systems behind DeepSeek.
DeepSeek's Architecture Overview
As early as August 2024, the DeepSeek team published a paper describing a new type of load balancer they had created to connect elements of their hybrid expert (MoE) foundational model.
DeepSeek notes in the article that for hybrid expert (MoE) models, uneven expert load will lead to routing crashes or increased computational overhead. Existing methods typically employ auxiliary losses to promote load balancing, but larger auxiliary losses introduce significant interference gradients during training, thereby compromising model performance.
To control load balancing during training without generating undesirable gradients, the DeepSeek team proposed loss-free balancing, which features an auxiliary-free load balancing strategy.
Specifically, before making a top-K routing decision, lossless balancing will first apply expert-wise bias to each expert's routing scores. By dynamically updating their biases based on each expert's recent load, lossless balancing can always maintain a balanced distribution of expert loads.
Additionally, since lossless balance does not produce any interference gradients, it also raises the upper limit of model performance obtained from MoE training. The DeepSeek team verified the performance of lossless balance on a MoE model trained on up to 200B tokens with up to 3B parameters. The experimental results show that lossless balancing strategies achieve both better performance and better load balancing compared to traditional auxiliary packet loss control load balancing strategies.
Figure 1: Lossless balance selects experts based on the "bias gating score" in each training step and updates this expert bias after each step.
In the report "DeepSeek-V3 Technical Report" released at the end of 2024, the DeepSeek team delved into the technical architecture of their DeepSeek-V3 model, providing us with additional insights into the company's technology.
They candidly stated in the report that, for forward-thinking reasons, the company consistently strives for strong model performance and low costs. Therefore, in terms of architecture, DeepSeek-V3 still employs Multi-head Latent Attention (MLA) for efficient inference and DeepSeekMoE to achieve cost-effective training. And to achieve efficient training, the DeepSeek team's solution supports FP8 hybrid precision training and comprehensively optimizes the training framework. In their view, low-precision training has become a promising solution for efficient training, closely related to advancements in hardware capabilities.
Figure 2: Overall mixed-precision framework using the FP8 data format. For clarity, only linear operators are explained.
By supporting FP8 computing and storage, the DeepSeek team achieved accelerated training and reduced GPU memory usage. In terms of training frameworks, they designed the DualPipe algorithm to achieve efficient pipeline parallelism with fewer pipeline bubbles and to conceal most communication during the training process through computation-communication overlap (overlap).
Figure 3: Basic Architecture Diagram of DeepSeek-V3. Following DeepSeek-V2, the company adopted MLA and DeepSeekMoE for efficient reasoning and economic training.
The DeepSeek team notes that this overlap ensures the company can still use fine-grained experts across nodes while achieving nearly zero all-to-all communication overhead as the model continues to expand.
In addition, the DeepSeek team developed an efficient cross-node full-pair communication kernel to fully leverage InfiniBand (IB) and NVLink bandwidth. The company has also carefully optimized memory usage so that DeepSeek-V3 can be trained without the need for expensive tensor parallelism.
By combining these efforts, the DeepSeek team achieved high training efficiency.
Table 1: Training costs for DeepSeek-V3, assuming a rental price of $2 per GPU hour for the H800.
According to the DeepSeek team's emphasis in the paper, this is achieved through the collaborative design of optimization algorithms, frameworks, and hardware. During the pre-training phase, training DeepSeek-V3 on every trillion tokens requires only 180K H800 GPU hours, which means it can be trained on a cluster with 2048 H800 GPUs in just 3.7 days. Therefore, the company's pre-training phase was completed in less than two months and took 2664K GPU hours. With context length extended to 119K GPU hours and post-training 5K GPU hours, the complete training of DeepSeek-V3 took only 2.788 million GPU hours.
Assuming the rental price of the H800 GPU is $2 per hour, the DeepSeek team specifically emphasizes that these costs include only official training for DeepSeek-V3, excluding expenses related to previous research and fusion experiments on architecture, algorithms, or data. In contrast, OpenAI boss Sam Altman stated that training GPT-4 requires more than $100 million.
On January 20, DeepSeek launched the DeepSeek-R1 model, which added two reinforcement learning stages and two supervised fine-tuning stages to enhance the model's inference capabilities. DeepSeek AI charges 6.5 times more for the R1 model compared to the basic V3 model. Subsequently, DeepSeek released Janus-Pro, an updated version of its multimodal model, Janus. The new model improves training strategies, data scaling, and model size, enhancing multimodal understanding and text-to-image generation.
By now, DeepSeek has become a global sensation.
Chips hiding behind DeepSeek
After DeepSeek emerged, discussions about its system and technological research framework spread across the web, specifically regarding hardware. Because of its extremely low cost, this has caused a shock in the entire AI chip market, with NVIDIA's sharp decline a few days ago being the most direct reflection of this concern.
As mentioned above, DeepSeek notes that the cluster used for training the V3 model consists of only 256 server nodes, each with 8 H800 GPU accelerators, totaling 2,048 GPUs.
过去两周,DeepSeek已经成为了全球的热点。尤其是在西方世界,这个来自于中国的生成式人工智能系统引发了广泛讨论。
在发布的前18天内,DeepSeek便实现了惊人的1600万次下载,这一数字几乎是竞争对手OpenAI的ChatGPT在同期下载量的两倍,充分展示了其强大的市场吸引力和用户基础。
据市场分析公司Appfigures的权威数据,DeepSeek的应用程序于1月26日首次登顶苹果App Store,并自此持续保持其全球领先的霸主地位。数据统计显示,自今年初发布以来,迅速攀升至140个国家的苹果App Store下载排行榜首位,并在美国的Android Play Store中同样占据榜首位置。
作为一个中国的AI大模型,DeepSeek能够获得这个关注度,除了其出色的性能表现以外,其低训练成本也是其吸引全球目光的关键。在今天的文章中,我们来看一下藏在DeepSeek背后的芯片和系统。
DeepSeek的架构自述
早在2024年8月,8 月,DeepSeek团队发表了一篇论文,描述了它创建的一种新型负载均衡器,用于将其混合专家 (MoE:mixture of experts) 基础模型的元素相互连接。
DeepSeek在文章中表示,对于混合专家 (MoE) 模型,专家负载( expert load)不均衡将导致路由崩溃(routing collapse)或计算开销( computational overhead)增加。现有方法通常采用辅助损失( auxiliary loss )来促进负载平衡,但较大的辅助损失会在训练中引入不可忽略的干扰梯度(interference gradients),从而损害模型性能。
为了在训练过程中控制负载平衡但不产生不良梯度(undesired gradients ),DeepSeek团队提出了无损平衡(Loss-Free Balancing),其特点是无辅助损失的(auxiliary-loss-free)负载平衡策略。
具体而言,在进行 top-K 路由决策(routing decision)之前,无损平衡将首先对每个专家的路由分数(routing scores)应用专家偏见(expert-wise bias )。通过根据每个专家的近期负载动态更新其偏见,无损平衡可以始终保持专家负载的均衡分布。
此外,由于无损平衡不会产生任何干扰梯度,它还提升了从 MoE 训练中获得的模型性能的上限。DeepSeek团队还在多达 3B 个参数、在多达 200B 个 token 上训练的 MoE 模型上验证了无损平衡的性能。实验结果表明,与传统的辅助丢包控制负载均衡策略相比,无损平衡策略既实现了更好的性能,也实现了更好的负载均衡。
图 1:无损平衡根据每个训练步骤中的“偏见门控分数”(biased gating score)选择专家,并在每个训练步骤之后更新此专家偏见。
在2024年年底发布的报告《DeepSeek-V3 Technical Report》中,DeepSeek团队对其DeepSeek-V3模型的技术架构进行了深入解读,这为我们了解这家公司的技术有了更多参考。
他们在报告中直言,出于前瞻性的考虑,公司始终追求模型性能强、成本低。因此,在架构方面,DeepSeek-V3 仍然采用多头潜在注意力(MLA:Multi-head Latent Attention) 进行高效推理和 DeepSeekMoE 以实现经济高效的训练。而为了实现高效训练,DeepSeek团队的解决方案支持 FP8 混合精度训练,并对训练框架进行了全面优化。在他们看来,低精度训练已成为高效训练的一种有前途的解决方案,其发展与硬件能力的进步密切相关。
图2:采用 FP8 数据格式的整体混合精度框架。为了清楚起见,仅说明了线性算子。
通过对FP8计算和存储的支持,DeepSeek团队实现了加速训练和减少GPU内存使用。在训练框架方面,他们设计了DualPipe算法来实现高效的流水线并行,该算法具有更少的流水线气泡,并通过计算-通信重叠(overlap)隐藏了训练过程中的大部分通信。
图 3:DeepSeek-V3 基本架构图。继 DeepSeek-V2 之后,该公司采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练。
DeepSeek团队表示,这种重叠确保了随着模型的进一步扩大,只要保持恒定的计算与通信比率,公司仍然可以跨节点使用细粒度的专家(fine-grained experts),同时实现接近于零的全对全通信开销(all-to-all communication overhead)。
此外,DeepSeek团队还开发了高效的跨节点全对全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。公司还对内存占用进行了精心优化,使得无需使用昂贵的张量并行即可训练DeepSeek-V3。
在将这些努力结合起来,DeepSeek团队实现了很高的训练效率。
表 1:DeepSeek-V3 的训练成本,假设 H800 的租赁价格为每 GPU 小时 2 美元。
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个 token 上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在其拥有 2048 个 H800 GPU 的集群上只需要 3.7 天。因此,公司的预训练阶段在不到两个月的时间内完成,花费了 2664K GPU 小时。加上上下文长度扩展的 119K GPU 小时和后训练的 5K GPU 小时,DeepSeek-V3 完整训练仅花费 278.8 万 GPU 小时。
假设 H800 GPU 的租赁价格为每小时 2 美元,则代表着其总训练成本仅为 557.6 万美元DeepSeek团队还特意强调,上述成本仅包括 DeepSeek-V3 的官方训练,不包括与架构、算法或数据的先前研究和消融实验相关的成本。作为对比,OpenAI 老板 Sam Altman 表示,训练 GPT-4 需要超过 1 亿美元。
在1 月 20 日,DeepSeek 推出了 DeepSeek-R1 模型,该模型增加了两个强化学习阶段和两个监督微调阶段,以增强模型的推理能力。DeepSeek AI 对 R1 模型的收费比基础 V3 模型高出 6.5 倍。随后,DeepSeek发布了Janus-Pro,这是其多模态模型 Janus 的更新版本。新模型改进了训练策略、数据扩展和模型大小,增强了多模态理解和文本到图像的生成。
至此,DeepSeek火爆全球。
躲在DeepSeek背后的芯片
在DeepSeek横空出世之后,一些围绕着其系统和技术研究框架的讨论,也遍布全网,具体到硬件方面。因为其极低的成本,这引致了整个AI芯片市场的震荡,早几天英伟达的大跌,正是这个担忧的最直接的反映。
如上所述,DeepSeek 表示,用于训练 V3 模型的集群只有 256 个服务器节点,每个节点有 8 个 H800 GPU 加速器,总共有 2,048 个 GPU。
'Semiconductor' 카테고리의 다른 글
DeepSeek R-1 = PC 설치 및 사용 방법 !!! (0) | 2025.02.04 |
---|---|
KLA - 칩 결함 발견 비법 !!! (0) | 2025.02.04 |
폭발! 미국은 칩뿐만 아니라 중국에서 생산되는 모든 제품에 대해 10%의 관세를 부과 (0) | 2025.02.03 |
Rapidus - 일본: EUV 리소그래피 기계 10대 이전, 2nm 칩 시범 생산임박 (0) | 2025.02.03 |
DeepSeek: 2025년 반도체 패키징 및 테스트에 대한 상위 10개 예측! (0) | 2025.02.03 |
댓글