728x90
반응형
SMALL
deepseek 팀은 moe(전문가 혼합) 기본 모델의 요소를 서로 연결하기 위해 만든 새로운 로드 밸런서를 설명하는 논문을 발표했습니다. 이 기사에서 deepseek는 moe(hybrid expert) 모델의 경우 전문가 부하의 불균형으로 인해 라우팅이 중단되거나 컴퓨팅 오버헤드가 증가할 것이라고 말합니다. 기존 방법은 일반적으로 로드 밸런싱을 촉진하기 위해 보조 손실을 사용하지만1
728x90
반응형
LIST