공공정책 위키(Public Policy Wiki)에 오신 것을 환영합니다
데이터연계결합지원제
데이터연결결합지원제 개요
데이터연결결합지원제는 데이터 보유기관으로부터 데이터 접근을 위한 승인을 받는 것에서부터 연구자 등 실제 데이터 이용자에게 개인정보 침해 위험을 최소화하는 방식으로 데이터를 제공하는 일련의 과정에 대한 지원제도를 의미한다. 여기서 데이터 연계란 데이터 연계(Data Linkage)란 두 개 이상의 출처로부터 동일인이나 동일한 사건, 기관, 장소에 연관된 정보를 함께 가져오는 것을 의미한다. 정보를 결합함으로써 단일 출처의 정보만으로는 알기 힘든 정보 요소 간의 관계가 밝혀질 가능성이 있다. 데이터 연계는 레코드 연계(record linkage), 데이터 매칭(data matching), 데이터 통합(data integration) 등으로도 불린다. 데이터를 연결할 때 사용되는 변수들은 식별 변수와 관심변수, 크게 두 종류로 구분된다. 식별 변수(Identifying variables)는 이름, 주소, 의료보험번호 등과 같이 개인 식별에 사용되는 변수로서 서로 다른 데이터셋의 연계에 사용된다. 관심변수(Variables of interest)는 나이, 성별, 수입, 질병, 직업 등 연구의 주된 관심사가 되는 변수들을 의미한다. 식별자에는 직접적인 식별자(direct identifiers)와 간접적인 식별자(indirect identifiers) 두 종류가 있다. 직접적인 식별자는 이름, 주민등록번호, 주소 등과 같이 개인을 정확히 구별해낼 수 있는 식별자이며, 데이터들을 연결할 때만 가치가 있는 정보로 연구자들은 별로 관심을 두지 않는 대상이다. 하지만, 직접 식별자는 개인 식별이 가능하므로 매우 민감한 정보일 수 있다. 그러므로 연구목적의 데이터셋에서 직접적인 식별자들은 제거한 후에 연구자들이 접근하도록 하는 것이 일반적이다. 간접적인 식별자는 다른 정보와의 결합을 통해서만 개인을 구별해낼 수 있다. 대부분의 간접적인 식별자는 위의 관심변수와 중첩되는 경우가 많다. 예를 들어, 나이, 성별, 인종과 같은 정보는 개인을 구별하는 데도 사용되지만 중요한 설명요인이 되는 경우가 많다. 간접적인 식별자를 통해서도 개인이 재식별될 가능성이 있는데, 특히 데이터셋이 연계될 경우 이러한 특징적인 정보들이 증가함에 따라 개인 재식별 가능성이 증가하게 된다. 데이터셋의 상태나 연구의 목적 등에 따라 다양한 데이터 연계 방법을 활용할 수 있다. 정확 연계는 두 개의 데이터 출처가 고유한 참조번호(reference number)를 공유하고 있는 경우에 가능하다. 예를 들어, 영국에서는 국가보건서비스(NHS) 번호를 이용해서 NHS 의료기록들을 연결할 수 있다. 이론적으로 정확 연계의 장점은 확실하고 단순하다는 점이다. 이때 연결에 사용되는 고유식별자가 다른 개인정보를 포함하지 않는 임의번호인 경우가 좋다. 혹시 의도하지 않게 데이터가 유출될 경우, 개인정보를 포함하고 있는 고유식별자보다는 개인정보 노출의 위험성이 낮아지기 때문이다. 정확 연계는 연계 필드(match field)의 고유성과 함께, 그 데이터가 정확하다는 것을 전제로 한다. 연계 필드의 데이터에 오류가 있다면, 당연히 연계로 생성된 데이터셋에 오류가 발생할 수밖에 없기 때문이다. 이는 연계 필드를 생성하는 기관이 얼마나 많은 자원을 갖고 있는지와 정확한 연계의 중요성 정도에 달려있다. 예를 들어, 카드번호와 같이 데이터값의 정확성이 중요한 경우에는 값의 정확성을 즉시 자체 점검할 수 있는 메커니즘을 가지고 있다. 정확 연계가 반드시 임의의 참조번호에 의해서만 이루어지는 것은 아니다. 경우에 따라 이름이나 생년월일 등의 정보를 통해서도 충분히 연계가 가능할 수도 있다. 그러나 이 경우에는 연계 필드가 고유하고, 정확하다는 전제가 취약해질 수 있다. 한편 확률연계는 두 개 이상의 데이터셋에서 식별 변수에 해당하는 값을 비교하여 두 레코드가 동일인에 관한 기록일 가능성을 추정하는 방식이다. 이 방법은 데이터가 부정확하거나 불완전할 수 있다는 점, 그리고 데이터 출처마다 값이 다른 포맷으로 입력되었을 수도 있다는 점을 전제로 한다. 서로 다른 데이터 소스가 정확 연계를 위해 동일한 참조번호를 사용하기 위해서는 기관 간의 조정이 필요하지만, 이름, 주소, 나이, 성별 등은 많은 데이터 소스에서 일반적으로 사용하는 정보들이다. 서로 다른 데이터셋에 공통적인 고유한 참조번호가 없거나, 혹은 법적인 문제를 포함한 여러 가지 이유로 사용하기 힘들 경우 확률연계를 수행할 수 있다. 확률연계는 정확 연계보다 다소 주관적인 절차가 더 많을 수밖에 없다. 사람들이 많은 결정을 내려주어야 하기 때문이다. 예를 들어, 어떠한 변수의 조합을 사용하는 것이 적절한가, 연계 여부 결정을 위한 요구조건은 얼마나 엄격하게 설정되어야 하는가, 일치하지 않는 값들은 오류로 처리할 것인가, 어떤 변수에서의 불일치는 다른 것보다 중요한 것으로 봐야 할 것인가. 또한, 확률연계를 통한 분석을 다른 연구자가 검증할 수 있도록 하기 위해서는 이러한 결정이 투명하고, 기록되고, 일관된 방식으로 이루어질 필요가 있다. 정확 연계 및 확률연계가 정확한 두 개인을 연계하는 것이라면, 통계적 연계는 서로 다른 개인에 관한 두 개의 레코드가 마치 동일인에 관한 레코드인 것처럼 연계하여 분석하기 위해 개발된 방법으로 데이터 퓨전(data fusion)이라고도 한다. 예를 들어, 50세 경상도 남성인 홍길동의 어떤 특성(교육수준, 정치적 성향 등)이 다른 50세 경상도 남성과 유사하다면, 홍길동의 의료 데이터를 그와 유사한 다른 누군가의 정보와 연계했을 때 통계적으로 유의미한 결과를 얻을 수 있을 것이다. 공중보건 분야에서는 연구자가 정책 평가를 위해서 시뮬레이션 모델을 만들기 위해 사용한다. 이 방법의 장점은 연계의 질이 덜 중요해진다는 점이다. 그러나 이 방법은 많은 통계적 가정에 의존하고 있다. 우선 연계할 여러 데이터의 표본은 동일한 모집단에서 조사되었다고 가정한다. 또한, 매칭 변수가 주어졌을 때, 두 데이터셋의 관심변수가 서로 독립적이어야 한다는 것이다. 이는 하나의 연계 후보가 다른 것과 유사하다는 전제를 위해 필요하다. 그러나 통계적 연계의 문제점은 그 전제가 충족되지 않았을 경우, 분석의 결과를 신뢰할 수 없게 된다는 점이다. 두 데이터셋의 조사 혹은 생산 시점이 다를 경우, 두 데이터의 모집단이 다르거나 가중치가 다른 경우, 공통 변수 선택 등 고려해야 할 문제가 많으며, 연계 데이터의 품질을 어떻게 측정할 것인지도 중요한 문제이다. 데이터연계의 필요성을 살펴보면 데이터 연계는 단일 데이터 소스에서는 파악하기 힘든 정보 요소 간의 관계를 파악할 수 있도록 해준다. 특히 많은 통계 연구는 ‘실험군’과 ‘대조군’을 요구하는 경우가 많다. 그런데 단일 소스는 실험군 혹은 대조군만 있는 경우가 많은데, 연계 데이터는 이를 구분할 수 있도록 도울 수 있다. 연구 가능한 주제 영역의 범위를 확대한다. 특정 연구를 위해 수집된 데이터는 조금 다른 연구 주제를 해결하는데 제한적일 수 있다. 다양한 소스의 데이터를 결합함으로써 서로 다른 영역 간의 상호 관련 효과를 탐색할 수 있다. 예를 들어, 의료 데이터와 사회경제적 데이터를 결합하여, 주거 환경이나 경제적 상황 등이 특정 질병 발생에 어떻게 기여하는지 파악할 수 있다. 데이터 연계는 종적 연구를 가능하게 한다. 특히 보건의료 연구의 경우 장기간에 걸쳐 추적 조사해야 할 경우가 많은데, 단일한 데이터베이스를 통해 장기간의 관련 사건(event)들을 추적하는 것은 응답자에게 과도한 부담을 주거나 비용이 많이 든다. 재입원 데이터, 처방 데이터 등 다른 추가 정보를 통해 정보의 정확도를 향상하고 응답자의 부담을 줄일 수 있다. 회고 분석(retrospective analysis)이나 기대 분석(prospective analysis)에 유용하다. 어떤 질환은 명백하지 않고 오랜 기간 후에나 발병하는 경우가 있다. 반면, 어떤 질병은 그것에 영향을 미치는 요소가 환자의 과거 이력에 기인하는 경우가 많다. 이 경우 질병에 관한 연구를 위해서는 다른 목적으로 수집된 과거 정보(행정데이터, 등록 데이터 등)가 필요할 경우가 있다. 또한 전 기간에 걸쳐 데이터가 수집되는 경우, 기억에 의존한 설문 응답의 오류를 수정할 수 있다. 통계 기반을 확대할 수 있다. 예를 들어, 동반이환(두 만성질환을 동시에 앓고 있는 상태, co-morbidity)의 경우에는 서로 다른 사회경제적 요인이 관련되거나 동시에 여러 건강 문제가 발생할 수 있는데, 각 데이터 수집기관에서 수집한 단일 데이터 소스로는 이를 파악하기 힘들다. 서로 다른 데이터셋을 결합함으로써 데이터 일관성을 검증할 수 있고, 혹은 빠져있는 데이터를 채워 넣을 수 있다. 드문 사건의 분석에 유용하다. 그 속성상 드물게 발생하는 사건의 경우에는 단일한 데이터 소스로부터 충분한 정보를 이끌어내기 힘들다. 예를 들어, 드물게 발생하는 암에 대한 하나의 케이스를 20개의 병원이 가지고 있을 경우를 생각해보면, 하나의 병원에서는 자신의 데이터만으로 유의미한 분석을 하기 힘들지만, 데이터 연계를 통해 공통점을 찾아낼 수 있다.
근거법령
- 전자정부법: 공포일 2022.11.15 시행일 2023.05.16
제36조(행정정보의 효율적 관리 및 이용) ① 행정기관등의 장은 수집ㆍ보유하고 있는 행정정보를 필요로 하는 다른 행정기관등과 공동으로 이용하여야 하며, 다른 행정기관등으로부터 신뢰할 수 있는 행정정보를 제공받을 수 있는 경우에는 같은 내용의 정보를 따로 수집하여서는 아니 된다.
② 행정정보를 수집ㆍ보유하고 있는 행정기관등(이하 “행정정보보유기관”이라 한다)의 장은 다른 행정기관등과 「은행법」 제8조제1항에 따라 은행업의 인가를 받은 은행 및 대통령령으로 정하는 법인ㆍ단체 또는 기관으로 하여금 행정정보보유기관의 행정정보를 공동으로 이용하게 할 수 있다.
③ 행정안전부장관은 행정기관등의 행정정보 목록을 조사ㆍ작성한 내용을 정보시스템을 통하여 공표하고, 행정기관등이 공동이용을 필요로 하는 행정정보에 대한 수요조사를 할 수 있다.
④ 중앙사무관장기관의 장은 행정정보의 생성ㆍ가공ㆍ이용ㆍ제공ㆍ보존ㆍ폐기 등 행정정보의 효율적 관리를 위하여 관련 법령 및 제도의 개선을 추진하여야 한다.
⑤ 행정안전부장관은 다른 중앙사무관장기관의 장과 협의하여 행정정보의 공동이용에 대한 기준과 절차 등에 관한 지침을 마련하여 고시할 수 있다.
⑥ 제3항에 따른 행정정보 목록의 조사 방법 등에 필요한 사항은 대통령령으로 정한다.
제38조(공동이용 행정정보) ① 제36조 및 제37조에 따라 공동이용센터를 통하여 공동으로 이용할 수 있는 행정정보는 다음 각 호와 같다.
1. 민원사항 등의 처리를 위하여 필요한 행정정보
2. 통계정보, 문헌정보, 정책정보 등 행정업무의 수행에 참고가 되는 행정정보
3. 행정기관등이 법령 등에서 정하는 소관 업무의 수행을 위하여 불가피하게 필요하다고 인정하는 행정정보
② 국가의 안전보장과 관련된 행정정보, 법령에 따라 비밀로 지정된 행정정보 또는 이에 준하는 행정정보는 공동이용 대상정보에서 제외할 수 있다.
③ 행정정보보유기관은 공동으로 이용되는 행정정보가 최신 정보가 되도록 하고 정확성을 유지하도록 관리하여야 한다.
④ 행정정보의 공동이용은 특정한 이용목적에 따라 필요한 범위에서 이루어져야 한다.
⑤ 제1항에 따른 행정정보의 범위에서 대상정보의 종류, 범위 및 유형 등은 대통령령으로 정한다.
제54조(정보자원 통합관리) ① 행정기관등의 장은 해당 기관이 보유하고 있는 정보자원의 현황 및 통계자료(이하 “정보자원현황등”이라 한다)를 체계적으로 작성ㆍ관리하여야 한다.
② 행정안전부장관은 행정기관등의 정보자원에 대한 공동이용 및 효율적인 관리를 위하여 정보화 수요를 조사하고, 정보자원의 통합기준 및 원칙 등(이하 “정보자원 통합기준”이라 한다)을 수립하여 정보자원을 통합적으로 구축ㆍ관리할 수 있다.
③ 행정안전부장관은 제2항에 따라 행정기관등의 정보자원을 통합적으로 구축ㆍ관리할 수 있는 전담기관(이하 “통합관리기관”이라 한다)을 지정할 수 있다.
④ 통합관리기관의 장은 행정기관등의 정보자원의 구축ㆍ관리에 필요한 비용을 해당 행정기관등의 장으로 하여금 부담하게 할 수 있다.
⑤ 제1항부터 제4항까지에서 규정한 사항 외에 정보자원의 통합관리 등에 필요한 사항은 대통령령으로 정한다.
- 공공데이터의 제공 및 이용 활성화에 관한 법률: 공포일 2023.05.16 시행일 2023.11.17
제24조(공공데이터의 제공기반 구축) ① 공공기관의 장은 공공데이터를 효율적으로 이용할 수 있도록 기계 판독이 가능한 형태로 정비하기 위하여 노력하여야 한다.
② 공공기관의 장은 이용자가 공공데이터에 접근하고 이용할 수 있도록 다양한 정보기술을 활용한 제공방안을 마련하여야 한다.
③ 정부는 제1항 및 제2항에 따른 공공데이터의 제공형태 정비 및 제공방안을 마련하는 데 필요한 행정적ㆍ기술적ㆍ재정적인 지원을 할 수 있다.
26조(공공데이터의 제공) ① 공공데이터를 이용하고자 하는 자는 제19조에 따라 공표된 제공대상 공공데이터의 경우 소관 공공기관이나 공공데이터 포털 등에서 제공받을 수 있다. 다만, 공표된 제공대상 공공데이터 목록에 포함되지 아니하는 공공데이터의 경우 제27조에 따라 별도의 제공신청을 하여야 한다.
② 공공기관의 장은 해당 기관이 개발ㆍ제공하고 있거나 개발 예정인 서비스에 관련 공공데이터가 포함되어 있다는 사유로 공공데이터의 제공을 거부하여서는 아니 된다.
③ 공공기관의 장은 이용자의 요청에 따라 추가적으로 공공데이터를 생성하거나 변형 또는 가공, 요약, 발췌하여 제공할 의무를 지지 아니한다.
④ 그 밖에 공공데이터 제공에 필요한 사항은 대통령령으로 정한다
- 데이터기반행정 활성화에 관한 법률: 공포일 2023.05.16 시행일 2023.11.17
9조(등록된 데이터 등의 수집ㆍ활용) ① 공공기관의 장은 제8조에 따라 등록된 데이터를 데이터통합관리 플랫폼을 통하여 수집ㆍ활용할 수 있다.
② 제1항에 따른 데이터의 수집 방법 및 활용 절차 등에 관하여 필요한 사항은 대통령령으로 정한다.
11조(데이터의 제공 범위) ① 공공기관의 장은 제10조제1항에 따라 제공 요청을 받은 데이터가 해당 공공기관이 생성하거나 취득하여 관리하는 데이터인 경우에는 이를 제공하여야 한다. 다만, 다음 각 호의 어느 하나에 해당하는 경우에는 데이터를 제공하지 아니할 수 있다.
1. 데이터가 다른 법률 또는 다른 법률에서 위임한 명령(대통령령 및 조례만 해당한다)에서 비밀로 규정된 경우
2. 국가안전보장 또는 국방ㆍ통일ㆍ외교관계 등에 관한 데이터로서 이를 제공할 경우 국가의 중대한 이익을 크게 해칠 우려가 있다고 인정되는 경우
3. 다른 법령에 따라 데이터의 목적 외 이용이 제한되거나 금지되는 경우
② 제1항에도 불구하고 공공기관의 장은 제1항 각 호에 해당하는 내용을 기술적으로 분리할 수 있을 때에는 그 부분을 제외한 데이터를 제공하여야 한다.
제16조(데이터관리체계의 구축) ① 공공기관의 장은 생성하거나 취득하여 관리하는 데이터에 대한 메타데이터(데이터의 체계적인 관리와 편리한 검색 및 활용을 위하여 데이터의 구조, 속성, 특성, 이력 등을 표현한 자료를 말한다. 이하 같다) 및 데이터관계도(데이터 간의 관계를 나타낸 그림을 말한다. 이하 같다)를 체계적으로 관리하여야 한다.
② 행정안전부장관은 데이터를 체계적으로 관리하기 위하여 공공기관의 메타데이터 및 데이터관계도를 통합ㆍ연계하여 관리할 수 있다. 이 경우 행정안전부장관은 기관별 메타데이터 및 데이터관계도를 종합하여 데이터관리체계를 구축ㆍ운영하여야 한다.
③ 제2항에 따른 데이터관리체계의 구축ㆍ운영 등에 필요한 사항은 대통령령으로 정한다.
제18조(데이터통합관리 플랫폼) ① 행정안전부장관은 공공기관이 데이터를 효율적으로 제공ㆍ연계 및 공동활용할 수 있도록 다음 각 호의 사항을 포함한 데이터통합관리 플랫폼을 구축ㆍ운영하여야 한다.
1. 데이터 및 메타데이터의 체계적인 수집
2. 데이터관계도 등 연관 데이터에 기반한 데이터 탐색
3. 데이터 유형별 저장 체계
4. 데이터 분석 등을 통한 정책 수립ㆍ의사결정 지원 및 이력 관리
5. 전자적 시스템을 통하여 수집ㆍ관리되는 데이터의 연계 및 공동활용
6. 그 밖에 데이터의 제공ㆍ연계 및 공동활용을 위하여 필요한 사항
② 행정안전부장관은 제1항에 따른 데이터통합관리 플랫폼의 효율적 운영을 위하여 각 공공기관에서 구축ㆍ운영하고 있는 데이터 관리에 관한 시스템을 상호 연계하거나 통합할 수 있다. 이 경우 관계 공공기관의 장과 사전에 협의하여야 한다.
③ 그 밖에 데이터통합관리 플랫폼의 구축 및 운영에 필요한 사항은 대통령령으로 정한다.
해외사례
- 유럽연합: 유럽연합 GDPR 제4조 ‘정의’(2)에서는 개인정보의 ‘처리(processing)’를 “별개 또는 일련의(sets of) 개인정보의, 수집, 기록, 조직, 구성, 저장, 개조, 정정, 검색, 참조, 사용, 이전을 통한 제공, 배포나 정렬 또는 결합(combination), 제한, 삭제, 파기와 그 밖에 가능한 모든 별개 또는 일련의(sets of) 작업(operation)을 의미한다. 이 경우 처리는 자동화(automated) 수단 또는 비자동화 수단에 의해 행해지는 작업 모두를 포함한다”고 정의하고 있어, 개인정보의 연계·결합이 처리에 해당함은 명확하다. 데이터 연계·결합을 포함한 개인정보의 처리는 GDPR 제5조 개인정보 처리의 원칙에 근거하여, 제6조에 따라 적법하게 이루어져야 한다. 제6조는 개인정보의 처리가 적법성을 인정받을 수 있는 경우를 다음과 같이 규정하고 있다. (a) 정보주체가 하나 또는 그 이상의 특정 목적에 대해 본인의 개인정보 처리를 동의한 경우(b) 정보주체가 계약 당사자가 되는 계약을 이행하는 경우, 또는 정보주체가 계약 체결 전에 조치를 요청하여 개인정보 처리가 필요한 경우(c) 정보처리자의 법적 의무를 준수하는데 개인정보 처리가 필요한 경우(d) 정보주체 또는 제3자의 생명에 관한 이익을 보호하기 위해 개인정보 처리가 필요한 경우(e) 공익상 이유 또는 정보처리자의 공식권한을 행사하기 위한 업무수행에 개인정보 처리가 필요한 경우(f) 정보처리자 또는 제3자의 정당한 이익을 달성하기 위하여 필요한 경우. 이 경우, 특히 정보주체가 아동일 때, 개인정보처리자의 정당한 이익이, 개인정보의 보호가 요구되는 정보주체의 이익 또는 기본권 및 자유보다 우선 되어서는 아니 된다.제1항 (f)는 공공기관이 해당 기관 업무수행을 위하여 개인정보를 처리할 때는 적용되지 않는다.보건의료 당국이나 통계청 등에서 데이터 연계·결합을 수행할 경우, 위 6조 1항의 (c), (e)가 적용될 수 있다. 6조는 (c)와(e)에서의 개인정보 처리는 유럽연합 법률 혹은 유럽연합 회원국의 법률에 근거하도록 하고 있다. GDPR 제5조는 개인정보의 처리 원칙으로 적법성·공정성·투명성, 목적 제한, 데이터 최소화, 정확성, 보관 기간 제한, 무결성과 기밀성, 책임성 등을 규정하고 있다. 원칙적으로 개인정보는 “명시적이고 적법한 특정 목적을 위해 수집되어야 하고, 해당 목적과 양립하지 않는 방식으로 추가 처리 되어서는 안 된다.” 이에 따르면, 서로 다른 목적으로 수집된 개인정보를 연계해서는 안 될 것이다. 다만, “공익적인 기록 보존, 과학 및 역사 연구 또는 통계 목적을 위하여 개인정보를 추가 처리한 때는 제89조 1항에 따라 원래의 목적과 양립된다고 본다.” 즉, 공익적인 기록 보존, 과학 및 역사 연구 또는 통계 목적의 개인정보 연계·결합은 예외로 인정하고 있다. 그러나 이 경우에도 제89조 1항에 따라 정보주체의 권리와 자유를 위해 적절한 안전조치를 취할 필요가 있다. 또한, 필요 이상으로 개인정보를 보관하지 않는 것이 원칙이지만, 공익적인 기록 보존, 과학 및 역사 연구 또는 통계 목적을 위해 개인정보를 처리하는 경우에는 보유 기간이 연장될 수 있다. 개인정보보호원칙은 식별되었거나 식별될 수 있는 개인에 관한 일체의 정보에 적용될 수 있으며, GDPR은 가명처리 정보는 추가 정보를 이용하여 개인을 식별할 수 있는 정보로서 식별할 수 있는 개인정보로 간주되어야 한다고 한다. 익명 정보에는 개인정보보호원칙이 적용되지 않는다. 따라서 이 법은 통계 목적 및 연구 목적 등을 위한 익명 정보의 처리에는 적용되지 않는다. GDPR 제9장은 개인정보 처리와 표현의 자유와의 관계, 공식 문서 공개와의 관계, 국가 식별 번호의 처리 등 특정 정보 처리 상황에 관한 규정을 두고 있다. 앞서 개별 조항에서 통계 및 연구 목적의 개인정보 처리 예외를 두고 있는 것과 함께, 제89조에서는 이 문제 자체를 다루고 있다. 이에 따르면, 공익을 위한 유지보존의 목적, 과학이나 역사적 연구의 목적 또는 통계 목적의 개인정보 처리의 경우 정보주체의 권리와 자유를 위해 적절한 안전조치를 취해야 한다. 이러한 안전조치는 데이터 최소화 원칙을 보장하기 위한 기술적·조직적 조치의 구비를 보장하는 것이어야 한다. 가명처리가 그러한 목적에 부합한다면, 기술적·조직적 조치에 포함될 수 있다. 정보주체의 식별을 할 수 없거나 더 이상 허용하지 않는 방식의 추가 처리를 통해 이러한 목적이 달성될 수 있다면, 그러한 방식을 채택해야 한다.
- 영국: 영국의 개인정보 처리에 관한 기본적인 법률은 데이터 보호법(Data Protection Act 1998, DPA)이다. 데이터 보호법은 유럽연합의 개인정보 보호에 관한 지침인 정보보호지침(Directive 95/46/EC)의 국내 이행입법이다. 2017년 봄 입법화된 영국의 디지털 경제법(Digital Economy Act 2017)은 디지털 서비스에 대한 접근, 디지털 기반, 온라인 음란물 규제, 저작권 규제, 전자 정부 등 다양한 디지털 정책 이슈를 포괄하고 있다. 디지털 경제법은 제정 과정에서 많은 반발에 부딪혔다. 저작권 침해에 대한 형사처벌, 온라인 음란물 접근 제한을 위한 연령 확인 등의 문제도 있었지만, 제5부(part 5) ‘전자정부(Digital Government)’에서 규정하고 있는 정부 내 광범위한 정보공유에 대해서도 시민들의 개인정보 침해 우려가 제기되었다.52) 영국 내각부(Cabinet Office) 프라이버시 및 소비자 자문그룹 (Privacy and Consumer Advisory Group, PCAG)의 제리 피쉔덴(Jerry Fishenden)은 이 법에 항의하여 사임하기도 하였다. PCAG가 이 법의 문제를 지적하며 내각부 장관에 계속 의견을 표명했음에도 불구하고 계속 무시를 당했기 때문이다. 제5부 전자정부 부분은 더 나은 공공서비스 제공을 명분으로 데이터를 더 효율적으로 활용하는 것을 목적으로 하고 있는데, 제리 피쉔덴은 이 법의 정의가 명확하지 않고, 정보공유에 대한 과거의 모델에 기반을 두고 있다고 비판하고 있다. 즉, 이 법에서 규정한 공개(disclose)의 의미가 서로 다른 기관 간에 시스템적으로 연동한다는 것인지, 정보를 복제해서 제공한다는 것인지, 일시적으로 특정 정보에 대한 접근만을 허용한다는 것인지 등이 명확하지 않은데, 구체적인 구현 방식에 따라 보안 및 프라이버시에 미치는 영향이 크게 달라짐에도 불구하고 법에서 이것을 구체적으로 규정하지 않고 있다는 것이다. 또한, 디지털 환경에서 보다 많은 개인과 조직이 개인정보에 접근할 수 있다면, 이 법이 목적하는 바와 달리 ‘사기(fraud)’를 방지하기보다는 증가시킬 수 있다고 지적한다. 또한, 이 법은 시민들의 자기정보에 대한 통제권을 전반적으로 약화시키고 있다며, 보안 및 개인정보 보호의 약화는 경제 및 사회에 부정적 영향을 줄 것이라고 경고하고 있다. 그는 이러한 우려를 해소하기 위해서 법적이고 기술적인 세부사항들이 규정될 필요가 있다고 제안한다.
- 독일: 독일에서는 1971년에 헤센 주에서 세계 최초로 개인정보보호법이 제정되었고, 연방 차원의 개인정보보호법은 1978년 처음 제정되었다. 1983년 독일헌법재판소는 인구조사와 관련한 판결에서 ‘개인정보 자기결정권’을 기본권으로 인정하였다. 연방정보보호법(Bundesdatenschutzgesetz, BDSG)은 95년 유럽연합 정보보호지침을 수용하여 2003년 1월 14일 개정되었고, 2017년 4월에는 GDPR을 수용하여 완전히 새로운 연방정보보호법이 만들어졌다. 새 연방정보보호법은 GDPR과 함께, 2018년 5월 25일 시행될 예정이다.58) 독일에서 주 차원의 개인정보보호법은 각 주의 공공부문만을 대상으로 하지만, 연방법은 공공 및 민간 부문 전 영역에 적용된다.독일 연방정보보호법은 개인정보의 ‘처리(prcessing)’를 “개인정보의 저장, 수정, 이전, 차단, 삭제”로, 그 밖의 개인정보의 활용은 ‘이용(use)’으로 정의하고 있다. 개인정보의 연계·결합을 위해 개인정보의 저장·수정·이전·차단·삭제 등이 수반될 수밖에 없다는 점에서 개인정보의 처리로 봐야 할 것이다. 또한, 연방정보보호법은 ‘익명화(Rendering anonymous)’ 및 ‘가명화(Aliasing)’ 등에 대한 정의도 두고 있다. 3a조(section 3a)에서는 개인정보의 수집·처리·이용을 가능한 최소화하고, 가능한 한 가명화 또는 익명화할 것을 규정하고 있다. 연방정보보호법은 학술연구 목적의 개인정보 처리와 관련된 많은 규정을 포함하고 있다. 그런데 특이하게도 통계 목적의 개인정보 처리에 관해서는 규정하고 있지 않다. 따라서 통계 목적의 개인정보 처리에 대해서도 연방정보보호법이 동일하게 적용되지만, 통계 관련법에서 개인정보 처리와 관련해서 별도의 규정이 있을 경우에는 해당 규정을 따르게 된다. 연방정보보호법 1조 3항은 다른 연방 법 규정이 개인정보에 적용되는 한, 이 법에 우선한다고 규정하고 있다. 2부(part 2)에서는 공공기관에서의 데이터 처리에 관해 규정하고 있는데, 연구 프로젝트 수행을 통한 학술적 이익이 정보주체의 이익보다 훨씬 큰 경우, 그리고 연구의 목적이 다른 방법으로 달성될 수 없거나 비례적이지 않은 노력이 필요할 경우 학술 연구의 목적으로 필요한 민감정보를 수집할 수 있고62), 수집목적 외로 개인정보63) 및 민감정보를 저장·수정·이용하는 것64)이 허용된다. 수집목적 외로 민감정보의 저장·수정·이용을 허용할 것인지에 대한 상황을 평가할 때 연구 프로젝트의 과학적 이익을 공익의 맥락에서 특별히 고려하는 것이다. 공공기관의 개인정보 처리와 관련하여 20조(section 20)는 개인정보의 정정·삭제·차단 및 거부권을 규정하고 있는데, 정보수집자 혹은 제3자의 이익이 훨씬 더 중요하고, 학술적 목적, 증거로서의 사용 목적 혹은 다른 이유를 위해 필수불가결한 경우, 해당 정보를 차단하지 않으면 그러한 목적을 위한 개인정보의 이전 혹은 이용이 허용될만한 경우에는 정보주체의 동의 없이 차단된 데이터를 이전 혹은 사용할 수 있도록 하고 있다. 3부는 민간기구 및 경쟁에 참여하는 공기업에서의 데이터 처리를 규정한다. 제28조(section 28)는 연구 프로젝트를 수행하는 학술적 이익이 정보주체의 이익보다 훨씬 크고, 연구 목적이 다른 수단으로 달성될 수 없거나 비례적이지 않은 노력을 요구할 경우에는 연구기관의 학술연구 수행을 위해 개인정보의 수집목적 외 다른 목적으로의 이전 및 이용을 허용하고 있다.
- 프랑스: 프랑스에서 개인정보 보호를 위한 기본법은 1978년 1월 6일 정보, 파일 및 자유에 관한 법률(Loi n° 78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés)이다. 이 법률은 95년 EU 정보보호지침을 수용하여 2004년 8월 6일 대폭 개정되었고, 2018년 GDPR 시행에 맞추어 2016년 10월 7일 전자공화국법(Loi n°2016-1321 du 7 octobre 2016 pour une République numérique)이 통과되면서 개인정보 보호 관련 규정도 개정되었다. 제6조는 개인정보 처리의 원칙을 규정하고 있는데, 개인정보는 공정하고 적법한 방식으로 수집·처리되어야 하며(1항), 특정되고 명확하며 적법한 목적으로 수집되고 이와 양립하지 않는 방식으로 추가 처리되어서는 안 된다. 그러나 4장(데이터 처리 개시 전의 절차), 5장(개인정보처리자의 의무 및 개인의 권리)의 섹션1(개인정보처리자의 의무), 9장(보건 분야의 연구, 학술, 평가 목적으로의 개인정보 처리)에서 규정한 원칙과 절차를 준수하며 정보주체에 관한 결정을 하기 위해 이용되지 않는다면, 통계 목적, 혹은 학술적·역사적 연구 목적으로 추가 처리하는 것은 애초의 수집목적과 양립하는 것으로 본다. 주목할 점은 프랑스에서는 공공서비스를 관리하는 하나 이상의 법인에 속하고, 서로 다른 공익 목적의 파일들 연계, 혹은 주목적이 서로 다른 기관에 속하는 파일의 연계 목적으로 자동화된 처리를 하는 경우, 프랑스의 개인정보 감독기구인 CNIL의 허가를 받도록 하고 있다는 점이다. (25조 1항 5호) 25조는 CNIL의 허가가 필요한 처리를 규정하고 있는데, 이러한 파일의 연계 목적의 자동화된 처리뿐만 아니라, 민감정보의 처리, 유전 정보의 자동화된 처리 등이 이에 포함된다. 또한, 제27조 1항의 1, 2항의 1과2 규정의 예외로, 국가등록번호인 사회보장번호(Numéro de sécurité sociale, NIR)를 포함한 데이터의 처리도 CNIL의 허가를 받아야 한다. 이때의 정보 처리는 오로지 과학 및 역사 연구만을 목적으로 하는 경우에 해당하며, 국가등록번호가 각 연구 프로젝트에 고유한 특정한 임의의 코드로 교체되는 방식으로 사전에 암호화 처리되어야 한다. 암호화 작업 및 그로부터 나온 코드를 통한 파일의 연계는 동일한 처리자가 수행해서는 안 된다. 암호화 작업은 CNIL의 공개된 의견을 받은 후에 국참사원(Conseil d'État)78)의 시행령(decree)으로 규정한 주기로 갱신되어야 한다.
- 미국: 미국에는 공공과 민간을 모두 포괄하는 개인정보 보호법제가 없다. 연방정부가 보유한 개인정보를 규율하는 프라이버시법(The Privacy Act)이 1974년 제정되었고, 민간 영역에서는 부문별로 개인정보를 보호하는 개별법을 두고 있다. 원칙적으로 어떠한 기관도 개인의 서면 요청 혹은 사전 서면 동의가 없으면, 보유하고 있는 개인정보를 다른 사람이나 기관에 공개해서는 안 된다. 다만, 12가지의 법정 예외를 두고 있는데, title 13 조항에 따른 인구조사, 설문조사, 관련 활동을 계획 혹은 수행하기 위한 목적으로 인구조사국에 제공하는 경우, 해당 기록이 오로지 통계 조사 혹은 보고기록으로만 사용될 것임을 해당 기관에 사전에 적절한 서면 확인을 받은 수신자에게 개인 식별이 불가능한 형태로 이전할 경우가 이에 포함된다. 이 조항에 따라 공공기관의 기록은 통계 목적으로 인구조사국에 이전될 수 있다. 프라이버시법은 연방기관 기록 시스템 내의 어떠한 기록도, 보유기관과 수령 기관 혹은 비연방기관 사이의 서면 계약 없이, 컴퓨터 매칭 프로그램 사용을 목적으로 수령 기관 혹은 비연방기관에게 제공되지 않는다고 규정하고 있다. 이 계약은 a) 프로그램 실행의 목적 및 법적 근거, b) 프로그램의 정당성 및 예상 결과, c) 사용될 각 데이터 요소, 매칭될 대략의 레코드 수, 시작일과 완료일 등 매칭될 레코드에 대한 설명, d) 적용 시점의 개별적인 고지 절차 및 그 이후 정기적인 고지, e) 매칭 프로그램에서 생성된 정보의 검증 절차, f) 수령 기관 등에서 생성된 식별 가능한 레코드의 보유 및 적시의 삭제 절차, g) 매칭되는 레코드와 그 결과의 행정적, 기술적, 물리적 보안을 보장할 절차, h) 레코드의 복제 및 재제공 금지, i) 레코드 사용을 규율하는 절차, j) 레코드의 정확성에 대한 평가 정보, k) 감사원장(Comptroller General)이 계약 이행의 감시를 위해 필요하다고 생각하는 모든 기록에 접근할 수 있다는 것 등을 포함한다. 1974년 만들어진 국가연구법에 따라 바이오의학 및 행동 연구의 인간 주체 보호를 위한 국가위원회(이는 이후 의학, 바이오의학, 행동 연구의 윤리적 문제 연구를 위한 대통령 위원회로 계승되었다)가 설립되었고 인간 주체연구 및 의약품의 인간 실험 이용의 감독 및 규제를 위한 가이드라인을 개발했다. 국가위원회가 발표한 벨몬트 보고서는 향후 HIPAA 및 공동규칙에 영향을 미쳤는데, 다음과 같은 세 가지 윤리원칙을 제시하고 있다.
연구동향
- 심정연(2015)의 연구는 진화된 지능 시스템 연구의 하나로서 구조적으로 재구성될수 있는 동적 개인적 지식네트워크를 제안하고자 한다. 작은 공간에 큰 세계를 매핑하여 효율적으로 처리할 수 있는 인간 두뇌의 기능과 이 안에서 일어나는 뉴로다이나믹스 메커니즘에 착안하여 구조적 유연성을 갖는 지능 시스템을 설계하였다. 서로 다른 네트워크의 구조적-기능적 결합이 가능하도록 개인 지식네트워크를 구조화하고 핵심 영역에 속하는 공통 노드를 찾아 결합을 하며 재구성하는 기능을 부여하였다. 또한 시스템이 재구성된 지식네트워크로부터 최적 경로를 추출하며 추출된 경로를 가지고 추론 프로세스를 진행하는 기능 갖도록 구상하였다.
- 김상광과 김선경(2020)의 연구는 델파이 분석(Delphi Analysis)을 통해 빅데이터 활성화에 부정적(-) 관계를 보이는 개인정보 규제요인과 긍정적(+) 효과를 보이는 데이터 결합요인이 무엇으로 구성되는지 요인의 우선순위를 시론적으로 탐색하였다. 델파이 분석결과, 개인정보 규제요인은 가명정보 등 활용제도 도입, 개인정보 비식별화 근거 명확성, 데이터 결합규정 명확성, 개인정보 정의 명확성, 개인정보 동의 용이성, 개인정보 감독기구 통합, 개인정보 법률간 정합성, 법령위반시 적정 처벌강도, EU GDPR 비교시 적정 과징금 순으로 상위요인이 조사되었다. 다음으로 데이터 결합요인은 결합 비식별성, 결합데이터 표준화, 결합 책임성, 결합기관 유형, 경합경험, 결합 기술가치 순으로 조사되었다. 이러한 연구결과는 빅데이터 활성화를 위해 개인정보 규제와 데이터 결합정책 설계 시 어느 구성요인을 우선적으로 제도개선 해야 하는지 시사점을 제공한다.
참고문헌
- 이은우 외. (2017). 데이터 연계·결합 지원제도 도입방안 연구. 개인정보보호위원회 연구용역보고서.
- 심정연. (2015). 결합 연결구조 기반의 동적 개인 지식네트워크 설계. 컴퓨터교육학회 논문지, 18(6), 71-79.
- 김상광, & 김선경. (2020). 빅데이터 활용에 영향을 미치는 개인정보 규제요인과 데이터 결합요인의 탐색. 정보보호학회논문지, 30(2), 287-304.