본문 바로가기
  • 한.중.일 - 문서 통역 , 반도체 뉴스
728x90
반응형
SMALL

보조 손실이 크면 훈련 시 무시할 수 없는 간섭 구배가 발생하여 모델 성능이 저하됩니다. 원치 않는 그래디언트를 생성하지 않고 훈련 중 로드 밸런싱을 제어하기 위해 deepseek 팀은 보조 손실 없는 로드 밸런싱 전략을 특징으로 하는 loss-free balancing을 제안했습니다. 특히1

728x90
반응형
LIST