본문 바로가기
  • 한.중.일 - 문서 통역 , 반도체 뉴스
Semiconductor

NVIDIA - GPU 칩 아키텍처 History

by shenminghu456 2025. 3. 5.
728x90
반응형
SMALL

GPU 성능을 위한 주요 매개 변수

  1. CUDA 코어 수: GPU의 병렬 처리 기능을 결정하며, CUDA 코어가 많을수록 AI와 같은 병렬 컴퓨팅 서비스의 성능이 향상됩니다.
  2. 비디오 메모리 용량(GB): GPU에 의해 로드되는 데이터의 양을 결정하고, AI 훈련 시나리오에서 비디오 메모리의 크기는 한 번에 로드할 수 있는 훈련 데이터의 양을 결정하며, 비디오 메모리 용량은 대규모 모델을 훈련할 때 매우 중요합니다.
  3. 메모리 대역폭(GB/s): GPU 칩과 비디오 메모리 간의 데이터 전송 속도로, 성능을 결정하는 가장 중요한 요소 중 하나로, 메모리 주파수와 비트 폭에 의해 결정됩니다.
  4. 부동 소수점 컴퓨팅 파워(FLOPS): GPU의 처리 능력을 추정하는 데 사용됩니다.

NVIDIA GPU 제품군 모델 분류

1. 소비자용 지포스 시리즈

  • RTX 50XX 시리즈(블랙웰)
  • RTX 40XX 시리즈(Ada Lovelace)
  • RTX 30XX 시리즈(암페어)
  • RTX 20XX 시리즈(튜링)
  • GTX 16/10 시리즈(튜링/파스칼)

2. 전문 워크스테이션 수준

  • RTX A50XX 시리즈(에이다/암페어)
  • RTX A60XX 시리즈(에이다/암페어)

3. 데이터 센터 수준

  • 테슬라 H100 시리즈(호퍼)
  • 테슬라 A100 시리즈(암페어)
  • 테슬라 L40 시리즈(Ada Lovelace)

NVIDIA GPU 아키텍처의 간략한 역사

NVIDIA Tesla 시리즈 서버 GPGPU는 대규모 분산 AI 훈련에 사용됩니다.

2008 - 테슬라 

테슬라(Tesla) 아키텍처는 완전한 트랜스폼(Transform), 조명(Lighting), 셋업(Setup) 및 렌더링(Rendering) 기능을 갖춘 통합 셰이더 모델을 구현한 NVIDIA의 첫 번째 칩 아키텍처입니다. HPC 및 AI 시나리오의 경우 초기 CUDA 시리즈 그래픽 카드에 사용되지만 진정한 의미의 GPGPU 칩은 아닙니다.

  • 1 NVIDIA Tesla GPU에는 7개의 TPC(텍스처 프로세서 클러스터)가 포함되어 있습니다.
  • 1 TPC에는 2개의 SM(스트림 다중 프로세서)이 포함되어 있습니다.
  • 1 SM에는 다음이 포함됩니다.
  • 1개의 공유 L1 캐시(L1 캐시)
  • 1개의 공유 Fetch/Dispatch 부품.
  • SM과 메인 메모리 간의 빠른 데이터 전송을 위한 Load/Store Queues(저장 장치에 대한 액세스);
  • 워프 스케줄러, 각 워프(스레드 번들)에는 서로 다른 데이터를 사용하여 동일한 명령을 실행하는 32개의 병렬 스레드가 포함되어 있으며 스케줄러는 이러한 스레드를 스케줄링할 책임이 있습니다.

다음을 포함하여 각 SP로 드릴다운합니다.

  • 1개의 공유 가져오기/디코딩 위젯.
  • 8 ALU(논리 컴퓨팅 단위).
  • 4개의 명령어 스트림을 실행하는 데 사용할 수 있는 4개의 실행 컨텍스트 세트동시이지만 인터리브됩니다.
  • 각 실행 컨텍스트 세트에는 8개의 컨텍스트가 있으므로 총 32개의 프래그먼트 또는 32개의 CUDA 스레드가 있습니다.

2010 - 페르미 

페르미(Fermi)는 30억 개의 트랜지스터와 총 512개의 쿠다(CUDA) 코어를 갖춘 최초의 진정한 GPGPU 아키텍처 칩이다. 다음과 같은 주요 기능이 개선되었습니다.

  1. FP64 더블 성능 향상
  2. ECC 지원: ECC를 사용하면 DC 시나리오에서 많은 수의 GPU를 안전하게 배포할 수 있으며 데이터에 민감한 애플리케이션을 메모리 오류로부터 보호할 수 있습니다.
  3. 트루 캐시 계층: 일부 병렬 알고리즘은 GPU의 SM(공유 메모리)을 사용할 수 없으며 사용자는 이를 돕기 위해 트루 캐시 아키텍처가 필요합니다.
  4. 더 많은 공유 메모리: 많은 CUDA 프로그래머는 애플리케이션 속도를 높이기 위해 16KB 이상의 SM이 필요합니다.
  5. 더 빠른 컨텍스트 전환: 사용자는 애플리케이션 간의 더 빠른 컨텍스트 전환과 더 빠른 그래픽 및 컴퓨팅 상호 운용성을 요구하고 있습니다.
  6. 더 빠른 원자 연산: 사용자는 병렬 알고리즘에 대해 더 빠른 읽기-수정-쓰기 원자 연산을 요구하고 있습니다.

  • Fermi GPU에는 16개의 SM이 있습니다.
  • 각 SM에 대해:
  • 각 WARP:
  • 각 코어:

2012 - 케플러 

Kepler의 아키텍처 설계 아이디어는 SM 단위(이 세대에서는 SMX 단위라고 함)의 수를 줄이고 Fermi 아키텍처에서 각 SM 단위 그룹의 CUDA 코어 수를 32개에서 192개로 늘리는 것입니다. 페르미에 비해 케플러는 더 빠르고, 더 효율적이며, 더 나은 성능을 발휘합니다.

Kepler는 CPU와 GPU 간의 데이터 전송 지연 시간을 줄이기 위해 렌더링 스레드(아래)의 동적 생성을 지원하는 SMX로 SM을 업그레이드했습니다.

각 SMX에 대해 다음을 수행합니다.

  • 워프 스케줄러 4개, 디스패치 유닛 8개.
  • 녹색: 각각 16개씩 12개 레인에 192개의 CUDA 코어.
  • 노란색: 64DP 배정밀도 산술 단위가 각 레인에 16개씩 4개의 레인으로 나뉩니다.
  • 32 LD/ST 단위.
  • 32 SFU.

2014 - 맥스웰 

Maxwell의 SM 단위는 Kepler의 것에서 큰 변화입니다, 이 세대의 SM 단위는 2x2 패턴으로 함께 배열된 4개의 Fermi SM 단위와 비슷합니다., 이 세대를 SMM 단위라고 합니다.

SMM은 4개의 32 CUDA 코어 프로세싱 블록이 있는 사분면 기반 설계를 사용하며, 각 블록에는 클럭당 2개의 명령어를 디스패치할 수 있는 전용 워프 스케줄러가 있습니다.

  • 각 Maxwell GPU에는 4개의 GPC가 있고 각 GPC에는 4개의 SMM이 있습니다.
  • 각 SMM 단위에 대해 다음을 수행합니다.

각 처리 블록에 대해 다음을 수행합니다.

  • 워프 스케줄러 1개, 디스패치 유닛 2개.
  • 녹색: 32개의 CUDA 코어.
  • 8 LD/ST 단위.
  • 8 SFU.

2016 - 파스칼 

Pascal은 프로세서와 데이터를 동일한 패키지에 통합하여 컴퓨팅 효율성을 높입니다.

Pascal의 총 CUDA 코어 수는 Maxwell의 128개 SM 유닛에서 64개 코어로 줄었으며, 이 세대의 가장 큰 특징은 DP 더블이 추가된 것입니다. 공정 기술이 16nm로 업그레이드되어 전력 소비를 늘리지 않고 성능을 크게 향상시켰습니다. 1080 시리즈 및 1060 시리즈는 Pascal 아키텍처를 기반으로 합니다.

Pascal에는 GP100과 GP102의 두 개의 큰 코어가 있으며 코어는 완전한 GPU 모듈입니다.

  • GP100: 3840 CUDA 코어, 60 SM 유닛;
  • GP102: 3584 CUDA 코어, 28 SM 단위;

GP100 코어용 SM 장치:

  • 각 SM 단위는 각 프로세스 블록에서 2개의 프로세스 블록으로 나뉩니다.

2017 - 볼타 

640개의 Tensor 코어를 탑재한 Volta는 딥 러닝, AI 연산 등을 위한 100조 TFLOPS(초당 부동 소수점 연산) 이상의 딥 러닝 성능을 제공하며, 이는 이전 세대의 Pascal 아키텍처보다 5배 이상 빠릅니다.

Tesla V100 (볼타 아키텍처)

  • CUDA 코어: 5120
  • 비디오 메모리 용량: 16GB/32GB HBM2
  • 메모리 대역폭: 900GB/s
  • 부동 소수점 해시레이트:
  • 가격: 약 $10,000

Volta부터 시작하여 CUDA 코어를 두 부분으로 나눕니다.

  1. FP32
  2. 인T32

장점은 부동 소수점과 정수 명령어를 동일한 clock cycle에서 동시에 실행할 수 있어 계산 속도가 빨라진다는 것입니다.

GV100은 볼타 아키텍처의 핵심입니다. 각 SM 단위는 4개의 프로세스 블록으로 나뉘며 각 블록은 다음과 같습니다.

  • 워프 스케줄러 1개, 디스패치 유닛 1개.
  • FP64 코어 8개.
  • 16 INT32 코어.
  • FP32 코어 16개.
  • 2개의 Tensor 코어.
  • 8 LD/ST 단위.
  • 4 SFU.

2018 - 튜링 

Turing 아키텍처에는 RT Cores라는 전용 레이 트레이싱 프로세서가 장착되어 있으며, 이 프로세서는 초당 최대 10기가레이의 속도로 3D 환경에서 빛과 소리의 전파를 가속화할 수 있습니다.

Turing 아키텍처는 이전 세대 NVIDIA Pascal™ 아키텍처보다 최대 25배 더 빠르게 실시간 레이 트레이싱 작업을 가속화하고 CPU보다 30배 이상 빠르게 시네마틱 최종 프레임을 렌더링합니다. 2060 시리즈 및 2080 시리즈 그래픽 카드도 Volta를 건너뛰고 Turing 아키텍처를 직접 선택했습니다.

현재 Turing 아키텍처에는 3가지 유형의 코어가 있습니다.

  1. TU102 코어
  2. TU104 코어
  3. TU106 코어

Turing 아키텍처의 TU102 GPU에는 다음과 같은 기능이 있습니다.

  • 6 GPC(그래픽 프로세싱 클러스터)
  • 36 TPC(텍스처 처리 클러스터)
  • 72 SM (스트림 멀티프로세서)
  • 각 GPC에는 6개의 TPC가 있고 각 TPC에는 2개의 SM이 있습니다
  • 4,608 CUDA 코어
  • 72 RT 코어
  • 576 Tensor 코어
  • 288 텍스처 유닛
  • 12x32비트 GDDR6 메모리 컨트롤러(총 384비트)

TU102 코어의 단일 SM의 구조도는 다음과 같습니다.

  • 각 SM에는 4개의 처리 블록이 있으며, 각 블록에는 다음과 같습니다.

2020 - 암페어 

2020년 5월 14일, NVIDIA는 Ampere 아키텍처를 기반으로 하는 최신 세대의 A100 GPU 제품, 줄여서 GA100을 발표했습니다.

Tesla A100 (암페어 아키텍처)

  • CUDA 코어: 6912
  • 비디오 메모리 용량: 40GB/80GB HBM2
  • 메모리 대역폭: 1,555GB/s(80GB 버전)
  • 부동 소수점 해시레이트:
  • 가격: 약 $10,000

Ampere 아키텍처를 예로 사용하여 GPU의 구성 요소를 살펴보겠습니다.

Ampere 아키텍처는 다음을 포함하여 입증된 GPC-TPC-SM 다중 레벨 아키텍처를 따릅니다.

  • 8개의 GPC(그래픽 프로세서 클러스터).
  • 컴퓨팅 단위가 원격 L2 캐시에 액세스할 때 높은 대기 시간을 방지하기 위해 L2 캐시 2세트. 각 L2 캐시 집합은 40MB이며, 이는 메모리 대역폭에 대한 컴퓨팅 단위의 의존도를 어느 정도 완화합니다.
  • PCI 익스프레스 4.0
  • NVLink 3.0

A100 코어의 SM을 확장하면 Ampere의 SM 단위 설계가 Volta에서 정밀도를 분할하는 아이디어를 따르고 계산 코어를 다음과 같이 나누는 것을 볼 수 있습니다.

  1. 정수 계산을 위한 INT32 단위
  2. FP32, FP64 단위의 부동 소수점 계산
  3. FP16, INT8 등과 같은 AI 컴퓨팅에서 일반적으로 볼 수 있는 데이터 유형을 위한 Tensor 코어

각 SM에는 다음이 포함됩니다.

  • 1 공유 L1 Ins-Cache(L1 명령어 캐시)
  • 1개의 공유 L1 데이터 캐시
  • 1 공유 메모리
  • 서브 모듈 4개

그 중 RT 코어는 게임 카드에만 사용할 수 있으며 순수한 컴퓨팅 목적의 GA100에는 필요하지 않습니다.

각 하위 모듈에는 다음이 포함됩니다.

  • 1 x L0 I-캐시
  • 1 워프 스케줄러, 각 스레드는 서로 다른 데이터로 동일한 명령을 실행하는 32 개의 병렬 스레드를 포함하며 스케줄러는 이러한 스레드를 스케줄링합니다. 워프 스케줄러의 명령어는 실행을 위해 디스패치 유닛을 통해 코어로 전송됩니다.
  • 1 디스패치 유닛 부품.
  • 1 등록 파일.
  • 부동 소수점 계산을 위한 16개의 FP32 CUDA 코어.
  • 정수 계산을 위한 16개의 INT32 CUDA 코어.
  • 부동 소수점 계산을 위한 8개의 FP64 CUDA 코어.
  • 1 FP16, INT8 등과 같은 AI 컴퓨팅을 위한 Tensor Core 3.0은 FP16, BF16, TF32, FP64, INT8, INT4 및 바이너리를 포함한 거의 모든 일반적인 데이터 유형을 가속화할 수 있습니다.
  • SM과 메인 메모리 간의 빠른 데이터 전송을 위한 8개의 LD/ST(로드/저장 대기열);
  • 1 Sin, Cos, Log 등과 같은 특수 수학 연산을 수행하는 SFU(Special Function Unit)

GA102 코어의 SM 단위는 4개의 처리 블록으로 나뉘며 각 처리 블록에는 다음과 같이 표시됩니다.

  • 워프 스케줄러 1개, 디스패치 유닛 1개.
  • FP64 코어 8개.
  • FP32 코어 16개.
  • 16 INT32 코어.
  • 1 Tensor 코어.
  • 8 LD/ST 단위.
  • 4 SFU.

2022 - 호퍼 

H100 GPU의 Hopper 아키텍처는 AI 대형 모델 학습 및 개발에 사용되는 14,592~16,896개의 CUDA 코어를 갖춘 NVIDIA의 획기적인 제품입니다.

Tesla H100 (호퍼 아키텍처)

  • CUDA 코어: 14,592~16,896
  • 비디오 메모리 용량: 80GB HBM3
  • 메모리 대역폭: 3TB/s(이론적)
  • 부동 소수점 해시레이트:
  • 가격: 약 $30,000(Enterprise Support 포함38)
  • 애플리케이션: 1조 개의 매개 변수를 사용하는 언어 모델 학습, 하이퍼스케일 데이터 센터

H100은 A100을 비약적으로 발전시켰습니다. InfiniBand 인터커넥트가 있는 H100은 A100보다 최대 30배 높은 성능을 제공합니다. 새로운 NVLink 스위칭 시스템 인터커넥트는 여러 GPU 가속 노드에서 모델 병렬 처리가 필요한 가장 크고 까다로운 컴퓨팅 워크로드를 대상으로 합니다. 이러한 워크로드는 새로운 세대의 성능 도약을 제공하며, 경우에 따라 InfiniBand는 H100에 비해 3배 더 향상된 성능을 제공합니다.

H100 아키텍처에 대한 자세한 설명은 공식 문서를 참조하십시오: https://developer.nvidia.com/zh-cn/blog/nvidia-hopper-architecture-in-depth/

 

728x90
반응형
LIST

댓글