728x90
반응형
SMALL
보조 손실이 크면 훈련 시 무시할 수 없는 간섭 구배가 발생하여 모델 성능이 저하됩니다. 원치 않는 그래디언트를 생성하지 않고 훈련 중 로드 밸런싱을 제어하기 위해 deepseek 팀은 보조 손실 없는 로드 밸런싱 전략을 특징으로 하는 loss-free balancing을 제안했습니다. 특히1
728x90
반응형
LIST