• 동두천 29.3℃흐림
  • 강릉 30.6℃흐림
  • 서울 32.3℃흐림
  • 대전 30.7℃구름많음
  • 대구 32.7℃구름조금
  • 울산 30.7℃구름많음
  • 광주 31.8℃구름조금
  • 부산 32.0℃맑음
  • 고창 32.7℃구름조금
  • 제주 31.6℃구름조금
  • 강화 30.0℃흐림
  • 보은 29.2℃흐림
  • 금산 31.4℃구름많음
  • 강진군 31.5℃구름조금
  • 경주시 32.0℃맑음
  • 거제 31.0℃맑음
기상청 제공

2025.08.06 (수)

중국 공안부, AI 훈련 데이터 오염 위험 경고

0.01% 허위 데이터로 유해 결과 11.2% 증가…보건·금융·치안 분야까지 경고 확대

 

더지엠뉴스 김대명 기자 | 중국 공안부가 인공지능 모델의 훈련 데이터에 내재한 오염 위험을 강하게 경고하고 나섰다. 오차가 적더라도 AI 시스템 전반에 심각한 오류를 야기할 수 있다는 점을 부각했다.

 

5일 중국 공안부에 따르면 공식 웨이신(微信, WeChat) 계정을 통해 공개한 글에서 “AI 훈련에 사용되는 데이터 품질이 들쭉날쭉하며, 거짓 정보·조작 콘텐츠·편향된 시각이 광범위하게 포함돼 있다”고 밝혔다.

 

공안부는 “전체 데이터 중 단 0.01%만 허위 내용이 포함돼도 AI의 유해 출력은 11.2%까지 증가할 수 있다”며 “이른바 ‘데이터 오염’은 단발성 오류에 그치지 않고, 다음 세대 AI 훈련에 재사용됨으로써 오염이 누적되고 확대되는 ‘유전적 효과’(pollution legacy effect)를 초래한다”고 지적했다.

 

AI의 3대 핵심 요소로 꼽히는 알고리즘, 연산능력, 데이터 중에서도 ‘데이터’가 가장 본질적인 자원이라는 점도 강조했다. 공안부는 “AI 성능은 훈련용 원재료인 데이터의 질에 좌우되며, 이는 AI 응용의 신뢰성과 정확성을 결정짓는 기반”이라고 설명했다.

 

정확도가 높고 신뢰성 있는 데이터는 AI 모델의 성능을 극대화할 수 있지만, 오염된 데이터는 오류 판단과 시스템 붕괴로 이어져 심각한 안전사고로 확산될 수 있다는 경고도 덧붙였다.

 

실제로 0.001%의 허위 문장만 포함돼도 AI 유해 출력이 7.2% 증가하고, 0.01%일 경우 11.2%까지 치솟는다는 연구 결과도 소개됐다.

 

이 같은 데이터 오염은 단순히 기술적 오류를 넘어서 현실에 광범위한 영향을 미칠 수 있다는 점에서 주목된다. 공안부는 “금융 분야에서는 시장 이상 변동을 초래하고, 공공안전 영역에서는 여론 왜곡과 대중적 공포로 번질 수 있으며, 의료 분야에선 오진과 가짜 과학을 조장할 수 있다”고 지적했다.

 

이를 방지하기 위해 중국 정부는 사이버보안법(网络安全法), 데이터안전법(数据安全法), 개인정보보호법(个人信息保护法) 등을 토대로 AI 데이터의 등급 분류 체계를 마련하고 오염 원천 차단에 나섰다.

 

공안부는 “데이터 흐름에 대한 통제, 리스크 평가 강화, 말단 조정 메커니즘을 포함한 정교한 감시 체계를 수립하고 있다”며 “AI 관련 보안 사고를 줄이기 위한 정책·기술 결합형 대응이 시급하다”고 강조했다.



통찰·견해


포토뉴스

더보기