• 동두천 17.6℃구름많음
  • 강릉 20.3℃맑음
  • 서울 18.2℃구름많음
  • 대전 18.5℃맑음
  • 대구 19.0℃맑음
  • 울산 20.0℃맑음
  • 광주 18.4℃맑음
  • 부산 19.1℃맑음
  • 고창 18.4℃맑음
  • 제주 21.3℃맑음
  • 강화 15.3℃구름많음
  • 보은 17.3℃구름조금
  • 금산 18.1℃맑음
  • 강진군 18.7℃맑음
  • 경주시 20.7℃구름조금
  • 거제 19.7℃맑음
기상청 제공

2025.06.10 (화)

화웨이, ‘AI 항공모함’ 설계 비밀 첫 공개

초거대 모델 시대 뒷받침하는 슝텅 인프라의 핵심 기술 전면에

.

더지엠뉴스 구태경 기자 | 중국의 화웨이가 AI 연산 인프라 경쟁의 패러다임 전환을 예고했다. ‘슝텅(昇腾)’ 기반의 대규모 클러스터 운용 기술을 처음으로 공개하며, 초거대 모델 시대에 맞춘 자체 인프라의 구조적 안정성과 확장성을 전면에 내세웠다.

 

9일 화웨이는 초대형 AI 훈련에 사용되는 슝텅 기반 인프라의 핵심 구조와 운영 체계를 상세히 공개했다. 회사는 이 시스템을 “계산력 항공모함”으로 표현하며, 수만 개의 연산 노드가 하나의 통합된 시스템처럼 작동하는 초고집적 클러스터 구조를 구현했다고 밝혔다.

 

화웨이는 ‘CloudMatrix 384’ 초노드 기반 구조를 통해 시스템·업무·운영의 3단계 내결함 메커니즘을 제시했다. 특정 장비에 문제가 발생해도 훈련 전체가 중단되지 않고 지속적으로 작동할 수 있도록 설계됐으며, 각 노드는 서로를 백업하는 형태로 고장 시 자동 전환된다.

 

고성능 확장성과 효율적인 분산처리를 동시에 달성하기 위한 구조도 눈에 띈다. TACO(토폴로지 기반 협업 기술), NSF(네트워크·스토리지·연산 융합 기술), AICT(무중단 통신 계층 진단) 등의 독자 기술은 수천~수만 개의 계산 노드가 정확하게 분업된 채 일사불란하게 동작하도록 만들어 준다.

 

AI 훈련에서 가장 큰 과제 중 하나는 장애 복구다. 화웨이는 이를 위해 ‘훈련 세이브 기능’을 구현했다. 만여 개의 노드로 구성된 클러스터가 훈련 도중 일부 장애를 겪더라도, 최근 상태를 자동으로 저장하고, 해당 노드를 우회하여 즉시 복구가 가능한 구조다. 훈련 재개 시간은 최대 수십 일의 손실을 몇 분 내로 줄일 수 있다.

 

초대형 MOE(Mixture of Experts) 모델의 추론 안정성을 위해 화웨이는 ‘3단계 내복구 체계’를 마련했다. 인스턴스 내 재시작, 토큰 단위 재시도, 하드웨어 고장 시 가용 카드 수 조정 등의 기법을 통해 예기치 못한 추론 중단 상황에 신속히 대응할 수 있다.

 

감지 및 자가진단 시스템도 통합됐다. 화웨이는 모든 장비에 센서를 부착하고, 이를 통해 온도, 전력, 네트워크 지연 등 수십 개 항목을 실시간으로 모니터링한다. 문제가 감지되면 즉시 원인을 분석하고 복구 절차가 자동으로 개입하는 구조로, 클러스터의 연속 운용 가능성을 극대화했다.

 

또한 실제 훈련을 진행하기 전, 가상의 시뮬레이션 환경에서 운용 구조를 미리 예측할 수 있는 ‘디지털 풍동(風洞)’ 개념도 적용됐다. 이는 마르코프 모델 기반 예측 기술을 활용해 알고리즘, 데이터, 하드웨어 자원 구성을 사전에 조율함으로써 물리 훈련에서 발생할 수 있는 병목 현상과 장애를 최소화한다.

 

AI 프레임워크 호환성도 확보됐다. 화웨이의 자체 AI 프레임워크인 ‘마인드스포어(MindSpore)’는 파이토치(PyTorch)와 호환되는 MSAdapter 기술을 제공하고, 허깅페이스(HuggingFace) 기반 모델의 빠른 추론 배포도 가능하도록 설계됐다.

 

이번 발표를 통해 화웨이는 ‘AI 인프라 독립 생태계’의 청사진을 제시했다. 슝텅 기반의 시스템은 단순한 연산 모듈이 아니라, 복구 능력, 확장성, 자율 제어 기능이 결합된 하나의 지능형 플랫폼으로 진화하고 있다는 점을 강조했다.

 

화웨이는 AI 기술과 응용이 폭발적으로 진화하는 시대에, 알고리즘–하드웨어–엔지니어링의 세 축이 함께 진화하는 구조가 필요하다고 보고 있다. 그 중심에 슝텅이 있으며, 이는 향후 차세대 AI 인프라의 주춧돌이 될 것이라는 게 회사 측의 설명이다.



통찰·견해


포토뉴스

더보기