본문 바로가기
자격증/빅데이터분석기사

빅데이터 분석 기획_1과목_개인정보보호법/제도(2)

by SeleniumBindingProtein 2022. 5. 3.
728x90
반응형

개인정보 비식별화 기술

  • 식별자 : 개인을 식별할 수 있는 속성(1:1 대응 가능한 모든 정보), 주민번호, 전화번호, 이메일
  • 준식별자 : 다른 데이터와 결합을 통해 특정 개인을 간접적으로 추론하는데 사용될 수 있는 속성
  • 민감정보 : 개인의 사생활을 노출할 수 있는 속성

 

  • 비식별화 
    • 개인 정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별할 수 없도록 하는 조치
    • 빅데이터 비식별화 기본 원칙 : 식별 방지 + 추론 방지
    • 식별자 제거를 통한 개인정보 비식별화 기술(가명처리, 총계처리, 데이터 값 삭제, 데이터 범주화, 데이터 마스킹, 섭동) + 프라이버시 모델 기반 추론방지에 따른 개인정보 비식별화 조치(k 익명성, l 익명성, t 근접성, m 유일성)

 

  • 식별자 제거를 통한 개인정보 비식별화 기술
    • 가명처리 : 식별이 가능한 데이터를 다른 값으로 대체하는 기법
      • 방법 : 휴리스틱 가명화, K-익명화, 암호화, 교환 방법, 홍길동 -> 임꺽정
    • 총계처리 : 개인 정보에 통계 값을 적용해 개인을 특정할 수 없게 함
      • 방법 : 총합, 부분합, 라운딩, 데이터 재배열
    • 데이터 값 삭제 : 특정 데이터 값의 부분 또는 전체를 삭제하는 방법
      • 방법 : 식별자 삭제, 부분 삭제, 레코드 삭제
    • 데이터 범주화 : 식별 값을 해당 그룹의 대푯값이나 구간값으로 변환
      • 방법 : 범주화, 랜덤 라운딩(총계처리보다 넓은 범위), 범위화, 제어 올림
    • 데이터 마스킹 : 식별 값의 전체 또는 부분을 대체값으로 변환하는 기법
      • 방법 : 임의 잡음 추가, 공백과 대체(*, 공백 등으로 변환하여 표시)
    • 섭동(잡음 첨가) : 민감한 원본 자료를 감추기 위해 원본 데이터에 교란을 주어 개인의 식별을 어렵게 하는 기법

 

  • 프라이버시 모델 기반 추론방지에 따른 개인 정보 비식별 조치
    • k 익명성 
      • k-anonymity, 적정성 평가 방법으로 최소한의 평가 수단으로 정의함
      • 동일한 값을 가진 레코드가 k개 이상이 되도록 하는 기법으로 개인을 특정할 수 없게 하는 방법
    • l 다양성
      • l-diversity, 민감정보의 다양성을 높여 k-익명성의 단점인 동질성 공격, 배경지식 기반 공격을 방지하기 위한 기법
      • 동질성 공격 : 데이터 집합에서 동일한 정보를 이용해 대상 정보를 알아내는 방법
    • t 근접성
      • t-closeness, l 다양성 뿐만 아니라, 민감정보의 분포와 전체 데이터 집합의 민감정보 분포 차이를 t 이하로 유사하게 만들어 추론 가능성을 더욱 낮추는 기법
    • m 유일성 
      • 원본 데이터와 동일한 속성값의 조합이 비식별 결과 데이터에 최소 m개 존재해야 함

 

  • 마이 데이터
    • 정보의 주체가 개인정보 권한을 가지고 자신의 개인정보를 직접 관리
    • 투명성, 신뢰성, 통제권, 가치관점에서 개인 정보 수집/활용의 공개 서비스 제공자의 신뢰성 확보, 개인 정보 공유의 통제 및 개인에게 가치를 제공하도록 요구함
    • A기업이 가진 이용자 개인정보를 B기업에 제공하려면 이용자의 동의를 구해야 하는데, 마이데이터를 통하면 B기업이 이용자에게 직접 동의를 구해 A 기업에 개인정보 제공을 요청할 수 있음
    • 국제 마이 데이터 기구 : 마이 데이터 선언문을 통해 사람과 조직 간의 신뢰, 자기 정보 결정권 확보, 개인정보의 공정한 공유를 통한 공동의 이익 극대화를 강조함
    • 국내 : 본인 신용정보관리업(마이데이터) 운영 가이드라인 발간 및 마이 데이터 지원센터 개설

 

  • 재현 자료(Synthetic Data)
    • 실제로 측정된 데이터를 생성하는 모형이 존재한다고 가정하고 추정된 모형에서 새롭게 생성한 데이터 
    • 모집단의 통계적 특성들을 유지하면서도 민감한 정보를 외부에 직접 공개하지 않음
    • 베이지안 방법이나 기계학습 모형을 통해 재현자료를 생성함
    • 임의로 생성한 데이터이기 때문에 개인정보보호법으로부터 자유로움

 

728x90
반응형

댓글