더지엠뉴스 구태경 기자 | 알리바바가 음성과 영상까지 동시에 처리하는 차세대 인공지능 모델을 공개하며 기술 경쟁의 중심을 다시 끌어올렸다. 텍스트 중심에서 벗어나 실시간 상호작용과 영상 이해까지 결합된 구조가 실제 서비스 환경으로 확장되기 시작했다. 31일 중국 기술 매체에 따르면, 알리바바는 지난 30일 새로운 전면 멀티모달 모델 큐원3.5-옴니(Qwen3.5-Omni)를 공개했다. 해당 모델은 음성, 영상, 텍스트를 동시에 이해하고 처리하는 통합 구조로 설계됐다. 콘텐츠를 단순 인식하는 단계를 넘어 의미를 분석하고 구조화된 형태로 출력하는 기능이 포함됐다. 200개가 넘는 평가 과제에서 최고 수준 성능을 기록하며 글로벌 주요 모델을 넘어서는 결과가 확인됐다. 영상 속 상황을 실시간으로 해석하고 설명을 생성하는 능력이 핵심으로 제시됐다. 언어 처리 범위도 크게 확대됐다. 총 113개 언어와 방언을 식별할 수 있으며 다양한 환경에서 사용자와 자연스럽게 상호작용이 가능하도록 설계됐다. 음성과 영상 흐름을 기반으로 코드 생성까지 이어지는 기능도 포함됐다. 이른바 ‘바이브 코딩’ 방식이 구현되며 개발 환경 활용 가능성이 함께 제시됐다. 알리바바 클라우드에서는 세
[더지엠뉴스]중국 인공지능 스타트업 딥시크(DeepSeek)가 개발자 플랫폼에 아무런 예고 없이 최신 AI 모델 V3의 업데이트 버전을 올리며 글로벌 시장에 다시 충격을 던졌다. 25일 블룸버그에 따르면 딥시크는 공식 발표 없이 허깅페이스(Hugging Face)에 ‘V3-0324’라는 이름의 모델을 등록했다. 허깅페이스는 거대언어모델(LLM)과 머신러닝 연구자들 사이에서 가장 많이 사용되는 오픈소스 플랫폼으로, 딥시크의 이번 조용한 출시는 개발자들을 중심으로 빠르게 퍼지고 있다. 업데이트된 모델은 기존보다 프로그래밍 기능이 향상된 것으로 보인다. 코드 생성, 디버깅, 알고리즘 문제 해결 등에서 뛰어난 지원 능력을 보여주며, 실제 적용 사례에서 높은 효율성과 정확성을 입증한 것으로 분석된다. 딥시크는 지난 1월에도 미국 애플 앱스토어에서 챗GPT를 제치고 무료 앱 다운로드 1위를 기록하며 업계를 놀라게 한 바 있다. 당시 공개된 경량형 추론모델 R1은 성능과 속도에서 오픈AI의 최신 모델에 근접하는 수준으로 평가받았고, 이로 인해 미국 기술주가 흔들릴 정도의 파장이 이어졌다. R1은 수십억 달러의 인프라 없이도 고성능 모델이 구현될 수 있다는 점을 입증하면서
[더지엠뉴스] 중국 최대 포털 사이트인 바이두가 올해 하반기 차세대 인공지능(AI) 모델인 '어니 5.0'을 출시할 계획이다. 미 CNBC 방송은 12일(현지시간) 정통한 소식통을 인용해 이 소식을 전하며, 어니 5.0이 멀티모달(multimodal) 기능을 대폭 강화할 것이라고 보도했다. 멀티모달 AI는 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 이해하고 생성할 수 있는 시스템을 의미한다. 이번 발표는 중국 스타트업 딥시크(DeepSeek)가 저비용·고성능의 AI 모델을 선보이며 글로벌 AI 업계에 충격을 준 직후 나온 것으로, 바이두의 기술 경쟁 의지를 드러낸다. 리옌훙(로빈 리) 바이두 최고경영자(CEO)는 두바이 세계정부정상회의에서 “기초 모델 추론 비용을 12개월 내 90% 이상 절감할 수 있다”며 “비용 절감은 생산성 향상으로 이어진다”고 말했다. 어니 5.0은 이러한 기초 모델로 분류되며, 언어 이해, 텍스트 및 이미지 생성, 자연어 처리 등 다양한 작업 수행이 가능할 것으로 기대된다. 바이두는 이미 2023년 3월, 중국 기술기업 중 최초로 챗GPT와 유사한 챗봇 '어니봇'을 출시했다. 이후 알리바바, 바이트댄스(틱톡 모회사)