• 동두천 4.6℃흐림
  • 강릉 6.2℃흐림
  • 서울 8.0℃
  • 대전 5.7℃
  • 대구 7.3℃
  • 울산 8.6℃흐림
  • 광주 9.1℃
  • 부산 11.0℃
  • 고창 8.6℃흐림
  • 제주 12.1℃
  • 강화 5.3℃흐림
  • 보은 5.0℃흐림
  • 금산 4.6℃흐림
  • 강진군 10.1℃흐림
  • 경주시 5.6℃흐림
  • 거제 8.1℃흐림
기상청 제공

2026.03.18 (수)

스텝펀, 범용 대형모델 전선 확대…추론·음성·비전까지 통합 체계 구축[기업 리서치 83]

멀티모달·추론·음성·이미지·GUI까지 확장된 AGI 지향 모델 체계

 

더지엠뉴스 김완석 기자 | 중국 인공지능 스타트업 스텝펀이 언어 모델을 넘어 추론, 멀티모달, 음성, 비전, 이미지 생성·편집까지 포괄하는 모델 체계를 구축했다. 단일 기능 중심을 넘어 다양한 인지 능력을 결합한 구조가 전면에 드러났다.

 

18일 KIC중국에 따르면 2023년 4월 설립된 이 기업은 핵심 연구 인력을 중심으로 Step 시리즈 모델을 연이어 공개했다. 개발자 생태계를 겨냥한 오픈소스 전략과 멀티모달 확장을 병행하며 기술 범위를 넓혀왔다.

 

스텝펀은 언어 처리 중심 구조에서 벗어나 시각, 음성, 이미지, 실행 능력을 결합한 범용 모델 체계를 설계했다. 텍스트 생성과 이해, 시각 분석, 음성 상호작용, 이미지 생성·편집, GUI 작업 수행까지 하나의 흐름으로 연결됐다.

 

추론 모델 가운데 핵심은 step-3.5-flash다. 256K 컨텍스트를 기반으로 복잡한 문제를 단계적으로 분해하고 계획하는 기능을 갖췄다. 도구 호출을 통해 논리 추론, 수학 계산, 소프트웨어 개발, 심층 연구 등 다양한 복합 과제를 수행한다.

 

step-3는 시각 인식과 복합 추론을 결합한 모델이다. 텍스트와 이미지 정보를 함께 분석해 수학 문제와 시각 정보를 결합한 해석, 일상 환경 분석 작업을 수행한다. step-r1-v-mini는 이미지와 텍스트를 동시에 처리한 뒤 심층 추론을 거쳐 결과를 생성하는 구조로, 시각 추론과 코드·수학 처리 능력을 함께 확보했다.

 

 

텍스트 모델 계열에서는 step-2-mini, step-2, step-1이 중심 축을 이룬다. step-2-mini는 자체 MFA 구조를 적용해 처리 속도와 효율성을 높였고, 낮은 비용으로도 기존 모델 수준의 성능을 구현하면서 코드 처리 능력을 강화했다.

 

step-2는 1조 개 이상 파라미터를 기반으로 한 MoE 구조 모델로, 계획 능력과 성능 측면에서 글로벌 대형 모델과 경쟁 가능한 수준을 목표로 설계됐다. step-1은 수천억 개 파라미터 규모의 전통적 구조 모델로, 텍스트 작성, 다국어 소통, 질의응답, 논리 추론, 수학과 코드 처리 등 범용 작업을 수행한다.

 

음성 영역에서는 실시간 상호작용 기능이 포함됐다. step-audio-2는 중국어 표준어와 방언, 영어, 일본어를 이해하며 대화형 상호작용을 수행한다. 주변 소리와 감정, 부언어적 신호를 인식하고 연령 추정과 음악 이해 기능까지 포함됐다. 발화 속도와 억양, 감정 표현을 조절하는 기능과 함께 도구 호출과 인터넷 검색 기능도 제공된다. step-1o-audio는 다양한 음색을 구현하는 음성 생성 모델이다.

 

비전 모델에서는 영상까지 포함한 이해 능력이 강화됐다. step-1o-turbo-vision은 텍스트, 이미지, 영상 입력을 받아 분석하고 결과를 텍스트로 출력한다. 기존 모델 대비 수학과 코드 처리 능력이 개선됐으며, 더 작은 규모와 빠른 처리 속도를 특징으로 한다. step-1v는 텍스트와 이미지 입력 기반의 이미지 이해 모델이다.

 

음성 생성 모델 step-tts-2는 구조 단순화에 초점을 맞췄다. 기존 임베딩 모듈을 제거하고 NTP 기반 엔드투엔드 방식을 적용해 시스템 복잡도를 낮췄다. 동시에 감정 표현력과 음색 재현 능력을 강화했다.

 

이미지 분야에서는 생성과 편집 기능을 분리했다. step-2x-large는 텍스트 설명을 기반으로 고품질 이미지를 생성하는 모델이다. 중국어와 영어 텍스트 표현 능력도 함께 강화됐다. step-1x-edit는 이미지와 텍스트 입력을 결합해 수정과 향상 작업을 수행하는 편집 특화 모델이다.

 

Model Lab 계열의 Step-GUI는 GUI 환경 자동화에 초점을 맞춘 모델이다. 시각 이해와 단계별 추론, 동작 실행을 결합해 다양한 GUI 환경에서 연속적인 다단계 작업을 수행한다.

 

KIC중국(글로벌혁신센터·김종문 센터장)은 2016년 6월 중국 베이징 중관촌에 설립된 한국 과학기술정보통신부 산하 비영리기관이다.
한국 창업기업과 혁신기업의 중국시장 개척을 지원하는 것이 주요 업무다. 또 중국 진출의 정확한 로드맵을 제공하고 플랫폼 역할도 한다.

 




통찰·견해


포토뉴스

더보기