본문 바로가기
데이터 완전성 (Data Integrity)

데이터완전성(Data Integrity) 의 시작 (정의 이해 하기)

by doing_right 2021. 11. 28.

데이터완전성의 준비를 시작할 때 어떤 것부터 시작해야 할까요? 일단은 Data Integrity 가 무엇인지, FDA, MHRA 등의 규제기관(Regulatory ageny) 및 식약처에서 정의하는 바가 무엇인지를 알아야, 어떻게 대응해야 할지 전략을 세울 수 있습니다. 따라서, 전문가의 수준은 아닐지라도, 우리는 Data Integrity 가 무엇인지에 대한 정의의 이해가 필합니다. DI 가 무엇인지를 알고 나면, 현재의 상태/수준이 어떠한지 점검 방향을 수립할 수 있고, 정확한 점검 결과에 따라 어떤 것이 취약한지 확인 후에, 그 취약점을 보완/개선하기 위한 계획을 수립하고 보완을 수행할 수 있습니다. 

 

목차

1. 주요 DI(Data Integrity) 규정 및 Guideline 에서의 Data Integrity 정의

   1) FDA

   2) MHRA

   3) PIC/S

2. ALCOA

3. Data Lifecycle and ALCOA plus 요소

   1) Data Lifecycle

   2) ALCOA plus

4. 결론

 

1. 주요 DI(Data Integrity) 규정 및 Guideline 에서의 Data Integrity 정의


1) FDA, 미국 식품 의약국 (Data  Integrity  and Compliance  With CGMP Guidance  for Industry, draft, 2016/04)

 

Data integrity refers to the completeness, consistency, and accuracy of data. Complete, consistent, and accurate data should be attributable, legible, contemporaneously recorded, original or a true copy, and accurate (ALCOA).

데이터 완전성은 데이터의 완전성(C), 일관성(C) 및 정확성(A)을 나타냅니다. 완전(C)하고 일관(C)되며 정확한(A) 데이터는 귀속 가능(A)하고 읽기 쉽고(L) 동시 기록(C)되어야 하며 원본(O) 또는 실제 사본이어야 하며 정확해야 합니다 (ALCOA).

 

2) MHRA, 영국 의약품 및 보건의료제품규제청 (‘GXP’ Data Integrity Guidance and Definitions, Revision 1. 2018/03)

 

Data integrity is the degree to which data are complete, consistent, accurate, trustworthy, reliable and that these characteristics of the data are maintained throughout the data life cycle. The data should be collected and maintained in a secure manner, so that they are attributable, legible, contemporaneously recorded, original (or a true copy) and accurate. Assuring data integrity requires appropriate quality and risk management systems, including adherence to sound scientific principles and good documentation practices.

데이터 완전성은 데이터가 완전(C)하고, 일관(C)되고, 정확(A)하고, 신뢰할 수 있고, 신뢰할 수 있고 데이터의 이러한 특성이 데이터 수명 주기(Data Lifecycle) 동안 유지되는 정도(수준)입니다. 데이터는 귀속 가능(A)하고 읽기 쉽고(L) 동시 기록(C)되고 원본(또는 실제 사본)이 정확하도록 안전한 방식으로 수집 및 유지되어야 합니다. 데이터 무결성을 보장하려면 건전한 과학(O)적 원칙 및 우수한 문서화 절차 준수를 포함하여 적절한 품질 및 위험 관리 시스템(Risk Assessment 기반)이 필요합니다.

 

3) PIC/S, 의약품 실사 상호협력기구 (GOOD PRACTICES FOR DATA MANAGEMENT AND INTEGRITY IN REGULATED GMP/GDP ENVIRONMENTS, final version. 2021/07)

 

Good data management practices influence the quality of all data generated and recorded by a manufacturer and these practices should ensure that data is attributable, legible, contemporaneous, original, accurate, complete, consistent, enduring, and available.

 

Data Integrity is defined as “the degree to which data are complete, consistent, accurate, trustworthy, and reliable and that these characteristics of the data are maintained throughout the data life cycle”. This is a fundamental requirement for an effective Pharmaceutical Quality System which ensures that medicines are of the required quality. Poor data integrity practices and vulnerabilities undermine the quality of records and evidence, and may ultimately undermine the quality of medicinal products.  

우수한 데이터 관리 절차는 제조업체에서 생성 및 기록하는 모든 데이터의 품질에 영향을 미치며 이러한 절차는 데이터가 귀속 가능하고, 읽기 쉽고, 동시적이며, 독창적이고, 정확하고, 완전하고, 일관되고, 지속적이며, 사용 가능해야 함을 보장해야 합니다.

 

 

데이터 완전성은 "데이터가 완전(C)하고, 일관(C)되고, 정확(A)하고, 신뢰할 수 있고, 신뢰할 수 있는 정도와 데이터의 이러한 특성이 데이터 수명 주기(Data Lifecycle) 동안 유지되는 정도"로 정의됩니다. 이는 의약품이 필요한 품질임을 보장하는 효과적인 의약품 품질 시스템의 기본 요구 사항입니다. 열악한 데이터 무결성 관행 및 취약성은 기록 및 증거의 품질을 저하시키고 궁극적으로 의약품의 품질을 저하시킬 수 있습니다.

 

AD. 제약/QC 전자책 마켓 No.1

 

2. ALCOA


위 내용들을 정리하면, 중요하게 언급하는 사항(단어)들이 있습니다. 

 

FDA - completeness, consistency, attributable, legible, contemporaneously, original, accurate.

MHRA - complete, consistent, accurate, trustworthy, reliable, data life cycle, attributable, legible, contemporaneously recorded, original (or a true copy) and accurate.

PIC/S - attributable, legible, contemporaneous, original, accurate, complete, consistent, enduring, available, reliable, data life cycle

 

여러 국가의 의약품 허가 규제기관에서 개별적으로 규정을 내고 있지만, 상기의 규정의 내용들을 Backbone으로 하여 수립된 사항들로 이해하면 됩니다. 공통적으로 언급하고 정의하는 개념은 너무나 잘 알고 있겠지만, A, L, C, O, A로 표현하는 ALCOA입니다.

 

Attributable, Legible, Contemporaneous, Original, Accurate = ALCOA

 

 

여기에, 위 정의 중 남은 항목들 Complete, Consistent, Enduring, Available을 Plus 요소로 포함하여 합쳐서 ALCOA + 로 설명하는 추세입니다. 

 

위 기술한 내용을 보시면 아시겠지만, ALCOA 순서에 따라 항목이 정리된 Guidance는 FDA guidance이지요.

그 의미는 "ALCOA" 용어는 FDA에서 만들어 사용한 것으로 이해할 수 있습니다.

 

실제로, ALCOA라는 용어를 최초로 사용한 사람은 FDA 소속의 Stan W. Woollen 이란 분입니다. 본인이 2010 년에 기고한 QA 관련 Newsletter (The Compass - Summer 2010, Newsletter of the Southern Regional Chapter Society or Quality Assurance)에서 'Data Quality and the Origin of ALCOA'라는 글을 작성하였습니다. 해당 내용에서 그는 1990 년대 초에 ALCOA라는 용어를 처음 본인이 사용했고, 본인이 진행하는 프레젠테이션을 더 잘 기억하게 하기 위해 ALCOA 약어를 사용했다고 기술하였습니다.

 

당시 ALCOA 용어를 만든 원작자의 의도가 Attributable, Legible, Contemporaneous, Original, Accurate의 ALCOA 였고, 해당 부분에 대해서 그 이후로도 큰 이견이 없었기 때문에 ALCOA 용어는 변동 없이 Data Integrity를 대표하는 고유명사가 되었습니다. 해당 Newsletter 글을 보면, 실제 ALCOA 는 GLP 에서의 Quality 규정을 cGMP 수준에서의 적용을 위한 개념으로써 사용된 것으로 보입니다. ALCOA 가 GLP 규정 (21 CFR 58.130, e) 를 잘 표현한다고 언급하고 있습니다.

 

3. Data Lifecycle and ALCOA plus 요소


서두에 Data Integrity 를 여러 규제기관에서 정의한 Key word 중에 ALCOA 다음으로 중복되어 기술된 요소를 살펴볼 필요가 있습니다. 한 가지는 "Data Lifecycle"이고, 나머지는 Complete, Consistency, Enduring, Available.입니다.

1) Data Lifecycle

Data Lifecycle 은 표현 그대로 데이터의 생애 주기를 의미합니다. 사람도 태어나서 성장하고 부모가 되고 자식을 낳고 마지막에는 존재가 없어지는 것처럼, 데이터에도 생애 주기가 있습니다. 보통은 그림을 통해 많이 설명하는데, 이해가 크게 어려운 개념이 아니므로, 그림은 삽입하지 않고, 아래와 같이 간단히 기술합니다.

 

- 데이터 생애주기(Data Lifecycle)

데이터의 생성(Creation) -
데이터의 가공(Processing) -
데이터의 사용/보고(Using/Reporting) -
데이터의 이동/변환(Transfer/Migration) -
데이터의 저장(Storaging) -
데이터의 공유(Sharing) -
데이터의 보관(Archive) -
데이터의 폐기(Destory) 

데이터의 저장/보관은 하나로 보기도 하고, 이동 및 변환은 optional 하게 이해하는 경우도 있습니다만, 상기 Lifecycle의 개념이 중요한 것은 데이터의 life cycle 동안의 흐름에서 Data Integrity의 완전성/무결성을 저해하는 (신뢰를 잃는) Risk 요소/단계들이 존재하기 때문입니다. 이 때문에 Data 가 생성되고, 사용 및 이동되어 데이터로써의 역할을 다하여 폐기되기 전까지 "데이터"는 완전해야 합니다. 이때, 생성 및 데이터 사용 전반에 대한 기준은 ALCOA 가 좀 더 주요하게 작용하지만, 데이터의 처리/이용, 보고 및 저장/보관을 위해서는 Plus 요소 또한 주요하게 작용합니다. (Complete, Consistency, Enduring, Available)

 

2) ALCOA plus

ALCOA 로서도 충분히 신뢰 있는 데이터를 생성하고, 사용할 수 있는 기준을 제시할 수 있지만, 데이터는 데이터로써의 의미를 가지고 있는 동안에는 최초 생성 시의 상태 및 내용이 동일해야 합니다. 특히 데이터가 1차로 사용 목적에 맞게 사용된 이후 (e.g., 출하 시험 데이터, 안전성 시험 데이터 등) 해당 데이터는 당장 다시 사용하지 않더라도, 언제든지 필요한 시기에 이전과 동일한 상태의 데이터를 사용 가능해야 합니다. 이를 위해 보통은 저장 매체에 데이터를 저장하고, 장기간 보관을 위한 보관 매체로 데이터를 백업하여 보관하기도 합니다. 여기까지는 보통의 경우, 절차가 수립되어 있고, 절차에 따라 수행되어지는 경우가 많으나, 실제 백업된 데이터를 주기적으로 다시 접근하여 데이터를 확인한다던지, 보관 상태에 문제가 없는지 까지를 점검하는 경우는 아직까지는 흔하지 않은 것 같습니다. 

Data 가 쓰임을 다하는 보관 연한을 넘어가는 경우, 보관된 데이터는 폐기되어야 하고, 그전까지는 최초 생성 데이터 (Raw data + meta data)는 완전(Complete)하고, 일관(Consistency) 되며, 보증(Enduring) 할 수 있고, 사용 가능(Available) 한 상태 및 형식이어야 합니다.

 

4. 결론


Data Integrity 구축 및 수립 계획을 세우기 전에 기본적인 DI의 정의를 알아야 하고, 이는 곧 ALCOA의 개념 및 Data Lifecycle 에 따른 ALCOA plus 항목의 이해까지 필요합니다. Data의 신뢰를 위한 기준/척도를 Data Integirty의 정의로 기술하고 있는데, 정작 데이터 자체에 대한 언급은 그 이후로 언급이 됩니다. 본 글에서도 ALCOA 및 Plus의 세부 항목까지 설명하지 않은 것은 ALCOA를 통해 GMP에서 요구하는 신뢰를 얻을 수 있다면, 신뢰의 본질인 "Data/데이터"에 대한 이해도 필요하게 됩니다. 특히 GMP 의 데이터는 IT 분야에서의 데이터와 동일한 뿌리에서 이해가 필요한 사항도 있으나, GMP 에서의 "데이터" 에 대한 정의는 IT 분야에서의 기준과 차이점이 있으므로, GMP 데이터에 대한 이해는 꼭 필요합니다. GMP 업무를 하는 사람들이 데이터를 개발하거나, 개발 언어를 이용해 코딩을 하지 않기 때문이고, 이를 위해 여러 규정/가이드라인에서도 "GMP 데이터"에 대한 정의를 하고 있습니다. 이후 글에서는 Data Integrity 의 본질인 "GMP 데이터" 에 대한 내용을 정리하겠습니다.

Data Integrity를 이행하기 위한 규정/가이드라인이 많이 있지만, 개인적으로는 의약품 실사 상호 협력 기구 (PIC/S)의 DI 규정이 세부적인 사항과 Guidance 측면의 내용이 있고, 업데이트가 빠른 MHRA 가이드라인이 도움이 많이 됩니다. 참고로, 우리나라는 2014년 5월 19일에 PIC/S 가입하였고, 매년 PIC/S 연례 세미나를 진행하고 있습니다.  


AD. 제약/QC 전자책 마켓 No.1

 

참고 (출처 FDA).

21 CFR 58.130(e)

(e) All data generated during the conduct of a nonclinical laboratory study, except those that are generated by automated data collection systems, shall be recorded directly, promptly, and legibly in ink. All data entries shall be dated on the date of entry and signed or initialed by the person entering the data. Any change in entries shall be made so as not to obscure the original entry, shall indicate the reason for such change, and shall be dated and signed or identified at the time of the change. In automated data collection systems, the individual responsible for direct data input shall be identified at the time of data input. Any change in automated data entries shall be made so as not to obscure the original entry, shall indicate the reason for change, shall be dated, and the responsible individual shall be identified.

 

 

반응형

댓글