스텝펀, 범용 대형모델 전선 확대…추론·음성·비전까지 통합 체계 구축[기업 리서치 83]
더지엠뉴스 김완석 기자 | 중국 인공지능 스타트업 스텝펀이 언어 모델을 넘어 추론, 멀티모달, 음성, 비전, 이미지 생성·편집까지 포괄하는 모델 체계를 구축했다. 단일 기능 중심을 넘어 다양한 인지 능력을 결합한 구조가 전면에 드러났다. 18일 KIC중국에 따르면 2023년 4월 설립된 이 기업은 핵심 연구 인력을 중심으로 Step 시리즈 모델을 연이어 공개했다. 개발자 생태계를 겨냥한 오픈소스 전략과 멀티모달 확장을 병행하며 기술 범위를 넓혀왔다. 스텝펀은 언어 처리 중심 구조에서 벗어나 시각, 음성, 이미지, 실행 능력을 결합한 범용 모델 체계를 설계했다. 텍스트 생성과 이해, 시각 분석, 음성 상호작용, 이미지 생성·편집, GUI 작업 수행까지 하나의 흐름으로 연결됐다. 추론 모델 가운데 핵심은 step-3.5-flash다. 256K 컨텍스트를 기반으로 복잡한 문제를 단계적으로 분해하고 계획하는 기능을 갖췄다. 도구 호출을 통해 논리 추론, 수학 계산, 소프트웨어 개발, 심층 연구 등 다양한 복합 과제를 수행한다. step-3는 시각 인식과 복합 추론을 결합한 모델이다. 텍스트와 이미지 정보를 함께 분석해 수학 문제와 시각 정보를 결합한 해석, 일상 환