알리바바 큐원3.5 전면 공개... 멀티모달 AI 상용화 가속 구조

더지엠뉴스 구태경 기자 | 알리바바가 음성과 영상까지 동시에 처리하는 차세대 인공지능 모델을 공개하며 기술 경쟁의 중심을 다시 끌어올렸다. 텍스트 중심에서 벗어나 실시간 상호작용과 영상 이해까지 결합된 구조가 실제 서비스 환경으로 확장되기 시작했다.

31일 중국 기술 매체에 따르면, 알리바바는 지난 30일 새로운 전면 멀티모달 모델 큐원3.5-옴니(Qwen3.5-Omni)를 공개했다.

해당 모델은 음성, 영상, 텍스트를 동시에 이해하고 처리하는 통합 구조로 설계됐다. 콘텐츠를 단순 인식하는 단계를 넘어 의미를 분석하고 구조화된 형태로 출력하는 기능이 포함됐다.

200개가 넘는 평가 과제에서 최고 수준 성능을 기록하며 글로벌 주요 모델을 넘어서는 결과가 확인됐다. 영상 속 상황을 실시간으로 해석하고 설명을 생성하는 능력이 핵심으로 제시됐다.

언어 처리 범위도 크게 확대됐다. 총 113개 언어와 방언을 식별할 수 있으며 다양한 환경에서 사용자와 자연스럽게 상호작용이 가능하도록 설계됐다.

음성과 영상 흐름을 기반으로 코드 생성까지 이어지는 기능도 포함됐다. 이른바 ‘바이브 코딩’ 방식이 구현되며 개발 환경 활용 가능성이 함께 제시됐다.

알리바바 클라우드에서는 세 가지 형태의 API가 동시에 제공됐다. 플러스, 플래시, 라이트 버전으로 구분되며 성능과 비용 구조를 나눠 산업별 적용 범위를 확장했다.

적용 분야도 빠르게 넓어지고 있다. 숏폼 영상 플랫폼과 라이브 방송, 게임 산업, 개인 콘텐츠 제작 영역까지 실제 서비스 적용이 가능한 구조가 구축됐다.

일반 사용자 역시 접근이 가능하다. 큐원 채팅 서비스를 통해 무료 체험이 제공되며, 기업과 개발자는 클라우드 플랫폼에서 모델을 직접 호출할 수 있다.

비용 구조도 낮게 책정됐다. 입력 기준 100만 토큰당 0.8위안 수준으로 형성되며 기존 글로벌 모델 대비 가격 경쟁력이 확보됐다.

중국