‘엔비디아 필요 없어’… 일반 칩으로 AI 학습 속도 수백배 높여

KAIST 한동수 교수팀 “저비용 환경서 대규모 AI 모델 학습 기술 개발”

(왼쪽부터) 전기 및 전자공학부 한동수 교수, 임휘준 박사, 예준철 박사과정. [사진=KAIST]

[인더스트리뉴스 한원석 기자] 한국과학기술원(KAIST)이 고가의 칩 없이도 인공지능(AI) 모델을 효율적으로 학습할 수 있는 기술을 개발해 주목된다.

KAIST 전기 및 전자공학부 소속 한동수 교수 연구팀은 일반 소비자용 GPU를 활용해, 네트워크 대역폭이 제한된 분산 환경에서도 AI 모델 학습을 최대 수백배 가속할 수 있는 기술을 개발했다고 19일 밝혔다.

기존에는 AI 모델 학습을 위해 개당 수천만원에 달하는 엔비디아의 고성능 서버용 GPU인 ‘H100’ 여러 대와 이를 연결하기 위해 초당 400기가비트(Gbps)급 고속 네트워크를 갖춘 고가 인프라가 필요했다. 하지만 대부분의 기업이나 연구자들은 비용 문제로 이를 도입하기 어려웠다.

한교수 연구팀은 이를 해결하기 위해 ‘스텔라 트레인(Stella Train)’이라는 분산 학습 프레임워크를 개발했다. 이 기술은 H100에 비해 10~20배 저렴한 소비자용 GPU를 활용해 고속 전용 네트워크보다 수백~수천배 낮은 일반 인터넷 환경에서도 효율적인 분산 학습이 가능하다.

작업 단계별로 CPU와 GPU가 나눠 학습을 병렬적으로 처리할 수 있도록 하는 새로운 파이프라인 기술을 도입해 연산 자원의 효율을 극대화했다. 또 AI 모델별 GPU 활용률을 실시간으로 모니터링해 모델이 학습하는 샘플의 개수(배치 크기)를 동적으로 결정하고, 변화하는 네트워크 대역폭에 맞춰 GPU 간의 데이터 전송을 효율화하는 기술도 개발했다.

‘스텔라트레인’ 기술을 사용하면 기존 데이터 병렬 학습에 비해 최대 104배 빠른 성능을 낼 수 있다고 연구팀은 설명했다.

한동수 교수는 “이번 연구가 대규모 AI 모델 학습을 누구나 쉽게 접근할 수 있게 하는 데 큰 기여를 할 것”이라며 “저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술 개발을 계속할 계획”이라고 말했다.

KAIST 임휘준 박사, 예준철 박사과정 학생, UC 어바인의 산기타 압두 조시 교수와 공동으로 진행한 이번 연구 결과는 지난달 호주 시드니에서 열린 국제 학술대회 ‘ACM SIGCOMM 2024’에서 발표됐다.

한편 한동수 교수 연구팀은 지난 7월 최신 ‘거대 언어 모델(LLM)’의 기반이 되는 전문가 혼합형(Mixture of Expert) 모델을 소수의 GPU로도 효율적으로 학습하는 새로운 기술도 발표했다.