청구데이터를 이용한 연구시 주의사항

이상수의 health policy insight

[health policy insight 제 120회]

청구데이터를 이용한 연구시 주의사항

Premier Perspective Database라는 대규모 다기관 출처 데이터 분석(data analysis from a large multi-institutional source)을 보고한 논문이 발표된 바 있다. 데이터베이스는 600개 이상 미국 병원의 입원 및 외래 방문환자 청구(billing) 및 퇴원 정보를 담고 있다. 션트삽입술(shunt insertion)을 받은 1만명 이상의 성인과 1,770명의 아동이 포함됐고 항생제가 담긴 카테터(antibiotic-impregnated catheters, AICs)가 약 10%의 환자에서 사용됐다(성인 8.9%, 아동 12.9%). AICs를 이용한 경우 감염발생율이 감소했음을 보여줬다(성인 2.2% vs. 3.6%; 아동 2.5% vs. 7.1%). 이러한 결과는 다른 비무작위 연구 결과와 유사하나 대규모 청구 데이터베이스(administrative database) 이용은 상대적으로 새로운 분야이다. 따라서 방법론과 관련한 몇 가지 이슈를 논의할 필요가 있다. 청구 및 코딩 데이터(coding data)에서 구한 데이터셋(datasets)은 쉽게 이용이 가능하고 종종 대규모 환자수와 이상반응(events) 정보를 제공한다. 대규모 샘플크기는 치료효과를 밝혀내는데 엄청한 힘을 보여줬고 소규모 임상연구에선 불가능한 위험인자(risk factors)에 대한 다변량 조정(multivariate adjustment)이 가능하다. 한편, 이와 같은 데이터 획득 방법은 잠재적 오류에 대한 새로운 원천을 보여준다:

1. 데이터 출처(data source): 청구데이터셋은 대개 청구 정보(billing information)이다. 임상적 이상반응이 청구 목적으로 필요하지 않은 경우 결손(missing) 혹은 부정확(inaccuracy)하게 된다. 청구와 코딩 절차 정보가 좀 더 관련성이 높다면 정확하게 포함될 가능성이 높아진다. 코드입력자(coders)는 정보를 구하고 청구코드를 생성하기 위해 의무기록(medical record)을 이용한다. 따라서 의무기록 정확도와 완성도에 좌우되며 후향적 임상연구(retrospective clinical research)에서 나타나는 모든 불확실성과 부정확성을 겪게 된다. 또한, 보험 청구에서 데이터를 구할 때, 정보는 당시 보험급여된 환자와 이상반응에 대해서만 구할 수 있다. 만일 보험급여가 소멸되면 환자와 이상반응은 손실된다. 보험급여 정도와 일관성에 대한 기술(description)이 연구에서 중요하다.
2. 코딩 이슈(Coding issues): 일반적으로 코드입력자는 1개 주진단(primary diagnosis) 및 1개 이상의 부진단(secondary diagnoses)을 할당한다. 주진단과 부진단의 선택은 다를 수 있다. 예를 들어, 뇌종양과 뇌수종을 갖는 아동은 주진단으로 선택된 질환을 가질 수 있다. 아동이 션트 재치환술로 입원했을 때에도 주진단은 뇌종양일 수 있다. 이러한 선택은 상황에 따라 매우 다르게 나타날 수 있으며 결손 혹은 집계되지 않은 이상반응으로 나타날 수 있다.
3. 연계(Linkages): Premier Perspective Database는 다수 출처로부터 정보를 구한 것으로 보인다. 이러한 경우, 데이터 출처 연계 프로세스가 매우 중요하다. 다수 출처로부터 가능한 한 다수 기관으로부터 시간경과에 따른 이상반응이 동일 환자에 대해 정확하게 연계될 수 있도록 하기 위해 자세한 알고리듬이 요구된다. 연계 프로세스의 유효성 확인(validation)은 데이터 정확도 확인에 중요하다.
4. 데이터 유효성확인(Data validation): 청구 데이터베이스는 연구 질문(research questions)에 답하기 위해 고안된 것이 아니다. 이상적으로 이들 데이터셋은 다른 데이터 출처에 대해 유효성을 확인해야 한다. 예를 들어, 데이터의 하부세트(subset)는 질병 연구를 위해 고안된 질병 특이적 환자 레지스트리(disease-specific patient registry)와 비교될 수 있다. 또한, 샘플을 정의하기 위해 사용된 기준은 유효성을 확인해야 하는데 데이터베이스로부터 구한 정보를 추출하기 위해 사용된 코드가 정확하게 연구자가 원하는 것을 선택했는지 확인하기 위해서다. 이러한 경우 코드는 션트수술을 받은 모든 환자, AIC 사용, 그리고 감염 여부에 대한 결과를 확인할 수 있어야 한다.
5. 교란변수(Confounders): 대규모 샘플크기는 강력한 통계 모델링(statistical modeling)을 가능케 하지만 통계 모델은 이용 가능한 데이터 필드(data fields)를 조정할 수 있을 뿐이다. 션트 감염과 연관된 몇 가지 요인은 평가를 위해 이용 가능하지 않는다; 예를 들어 뇌척수액 누출, 연령 그리고 동반 상병.
6. 감염 정의(Definition of infection): 데이터베이스는 수 많은 병원 정보를 담고 있다. 공통된 코드가 감염에 대해 사용되지만 코드를 할당하는 기준은 기술돼 있지 않다. 달리 말해, 감염 정의는 기관마다 다를 수 있으며 잠재적으로 관찰자 편향(observer bias)이 있을 수 있다.

시사점

• 청구데이터를 이용한 관찰연구시 고려해야 하는 다양한 요인이 있으며 이를 반영한 연구 시행이 필요함

자료출처 : Administrative database research

Kestle JRW. J Neurosurg 2015;122:441–442
http://thejns.org/doi/pdf/10.3171/2014.4.JNS14689

* 본 컬럼은 의료기기를 비롯한 헬스케어 분야의 국내외 학회지에 발표된 논문 및 연구보고서 등을 살펴봄으로써 우리나라 의료기기 관련 보건의료정책 마련에 통찰력을 제공하기 위한 목적으로 매주 발표됨

의료기기뉴스라인 webmaster@kmdianews.com

다른기사 보기

상단영역

본문영역