https://blog.theori.io/deepseek-security-hidden-risks-ko-4560d96e2f1d

 

딥시크의 보안, 개인정보 보호, 거버넌스: 오픈소스 AI의 숨겨진 위험성

딥시크가 가진 보안 결함과 개인정보 보호 관련 우려사항들을 자세히 살펴보고, 오픈소스 AI가 숨기고 있을지 모르는 위험성을 검토합니다. 사용을 고려중인 분들을 위한 실용적인 조언도 준비

blog.theori.io


딥시크

중국의 AI 스타트업.

뛰어난 추론 능력을 보여주는 오픈소스 AI 모델 'DeepSeek R1'을 공개하며 세계적인 이목을 끌고 있음. 

 

딥시크의 기술 안전성과 보안

딥시크의 기술 안전성과 관련해 제기되어온 문제점들:

  • 취약점 및 탈옥 문제
    • Deepseek R1은 "탈옥" 공격에 매우 취약한 것으로 알려짐 → 안전장치를 쉽게 우회 가능
    • 실제 테스트에서 ChatGPT가 거절한 위험한 요청들(자금 세탁, 악성 프로그램 제작 방법)을 상세히 알려주기도 함. 이는 딥시크가 기본적인 안전 업데이트조차 제대로 하지 않았음을 나타냄
  • 유해한 출력 및 편향성
    • Deepseek R1은 다른 AI 모델들에 비해 위험하거나 편향된 콘텐츠를 만드는 경향이 있음
    • 위험한 내용 생성할 확률은 11배, 보안에 취약한 코드 작성할 가능성은 4배나 높음 → 모델의 안전장치가 제대로 작동하지 않는다는 증거 + 유해 내용이나 잘못된 코딩 방식 퍼질 수 있음
  • 실제 보안 사고
    • 2025년 1월 말: 악의적 공격때문에 신규 사용자 가입을 막아야 했음
    • 인증 없이 누구나 접근할 수 있는 데이터베이스(API 키, 사용자들의 대화 내용, 시스템 상세 정보 등 민감한 정보 담긴 데이터베이스) 발견됨
  • 소극적 보안 대응
    • 위 데이터베이스 노출 사건에서도 대응적이고 수동적인 태도 보임
    • 타 주요 AI 기업들이 운영하는 버그 바운티 프로그램이나 보안 인증 획득 등 절차가 갖추어지지 않음
  • 공식 보안 경고
    • 미 해군은 소속 인원들에게 딥시크 사용을 금지
    • 미 하원도 내부 네트워크에서 딥시크의 접속을 차단

DeepSeek는 업계의 표준과 비교해 봤을 때 보안적 측면에서 한참 뒤쳐져있는 것을 알 수 있음.  

 

데이터 프라이버시와 사용자 보호

개인정보 처리 방식 측면에서도 다양한 우려가 잇따름. 

  • 데이터 수집과 저장의 문제
    • 사용자들의 개인정보를 상당히 광범위하게 수집(챗봇과 나눈 대화, 업로드한 파일, 프로필 정보, IP 주소, 기기 ID 등)하고, 모든 정보를 중국 서버에 저장.
  • 사용자 통제권의 한계
    • 딥시크가 제공하는 사용자 통제 기능은 계정 설정에서 채팅 기록 지우는 것 정도.
    • 정책상으로는 사용자가 자신의 데이터 확인하고 삭제할 권리 있다고 하지만, 실제로 실효성 있는지는 의문. 
  • 국제 데이터 이동의 문제
    • 데이터를 중국으로 보내는 것 자체가 큰 문제가 될 수 있음. 
    • 중국으로 데이터를 보낼 때는 더욱 까다로운 절차가 필요한데, 딥시크는 관련 법을 준수하겠다는 이야기 뿐, 구체적 조치를 설명하지 않음
  • 중국 법률의 영향
    • 데이터가 중국에 있다 = 중국 법의 적용을 받는다
    • 사용자의 민감한 대화 내용이나 개인정보가 중국 당국의 요청으로 제공될 수 있음
  • 검열 가능성
    • 챗봇이 중국 정부를 비판하는 내용은 검열하거나 답변을 거부함. 중국의 콘텐츠 규제가 해당 챗봇에도 적용되고 있음을 알려줌
  • 미흡한 사용자 보호
    • 타 AI 기업이 제공하는 데이터 익명화 및 보관 기간 제한 등의 정책을 딥시크에서는 제공하지 않음.
    • 계정이 있는 동안, 심지어는 사업상 필요 시 그 이후에도 데이터를 계속 보관한다고 명시 중. 데이터 유출 사고 시 광범위한 피해가 이어질 수 있음.

 

오픈소스와 비공개

딥시크는 '오픈소스 AI'로 알려져 있는데, 완전한 개방을 강조하며 출시된 것과 달리 오픈소스와 비공개 요소가 섞여 있는 것으로 드러남. 

  • 오픈소스로 공개된 것
    • DeepSeek R1의 핵심 모델 가중치는 오픈소스로, MIT 라이선스를 따름 → 누구나 이 모델을 다운받아 개인 컴퓨터에서 돌려보거나 파인튜닝하거나 상업적 사용이 가능
    • 모델이 어떻게 만들어졌는지 설명하는 기술 문서, 커뮤니티를 위해 R1의 경량화 버전도 몇 가지 공개
    • 해당 사실은 투명성 면에서 긍정적으로 평가됨. 
  • 비공개로 남겨둔 것
    • "완전 오픈소스"라는 홍보와는 달리 R1을 만들 때 사용한 학습 데이터&자세한 학습 코드는 공개하지 않음
    • 모델 자체는 공개되어 있어도 만든 과정은 불투명한 셈.
    • 딥시크 플랫폼과 앱도 회사가 직접 운영하기 때문에 코드가 공개되어 있지 않음 → 사용자 계정과 데이터 저장, 프롬프트 필터링 등의 작동 방식을 알 수 없다. 
  • 모델에 숨겨진 위험
    • 학습 데이터가 비공개이기 때문에 예상치 못한 이상한 행동을 할 수도 있음.
    • LLM에 아무리 안전하게 추가학습을 시켜도 몰래 위험한 행동을 계속 할 수 있음 (Ex. 연구용으로 만든 모델이 프롬프트에 "2023년"이라는 말이 나오면 안전한 코드 작성하다가도 "2024년"이라는 말만 보이면 해킹이 가능한 취약 코드 생성하는 등)
    • 해당 속임수를 갖춘 LLM은 안전성 테스트를 통과하여 마치 안전한 것처럼 보이게 되지만, 중요한 일에 모델을 쓸 때는 각별한 주의가 필요
  • 외부에서 받은 모델의 위험
    • 비공식 경로로 딥시크 모델 다운받을 시 악의적 페이로드가 심어진 버전 다운로드할 위험이 있음.
    • 과거 기계학습 모델이 특정 악성 결과를 뱉어내거나 프로그램 허점 이용해 악성 코드 실행하도록 조작된 사례들이 실제로 존재. 
    • 딥시크 모델의 파라미터 수가 많기 때문에 커뮤니티 멤버들이 이를 줄이거나 특정 용도에 맞게 수정해 Hugging Face 등의 플랫폼에 공유하고 있음. 실제로 Hugging Face에 딥시크를 검색하면 약 1800개의 모델이 검색되는데, 이러한 모델들은 누가 어떤 의도로 수정했는지 알 수 없어서 위험하다. 

모델이 오픈소스라는 건 빠른 혁신과 커뮤니티 기반의 발전 가능케 한다는 장점이 있지만,

반대로 모델의 안전성을 검증하고 AI 공급망을 지키는 책임도 고스란히 사용자의 몫이 된다. 

 


AI 시장에 새로운 바람을 불러오고 있는 딥시크이지만, 보안/프라이버시/관리 측면에서 너무 많은 위험성과 취약점이 존재하기 때문에 사용자와 기업은 해당 모델을 사용함에 있어서 더욱 신중함을 가해야 할 것으로 전망된다. 

+ Recent posts