비열등성 임상시험(Noninferiority trials)

이상수의 health policy insight

[Health Policy Insight 166회]

비열등성 임상시험(Noninferiority trials)

심혈관계 임상연구에서 직면한 가장 큰 딜레마 중 하나는 새로운 치료법의 점진적 편익(incremental benefits)은 점차 줄어드는 반면, 대리 연구결과(surrogate endpoints)보다는 임상적 연구결과(clinical end-points)의 편익을 보여주는 임상시험이 점점 더 많이 요구된다는 점이다.

이러한 두가지 요인은 표본크기에 큰 영향을 끼치며 일부 임상시험자는 새로운 치료법이 명백한 우월성(superiority)보다는 표준치료와 유사한 효과를 나타내는 임상시험을 설계하게 되었다.

'비열등성(noninferiority)'은 널리 채택되지 않는 상대적으로 새로운 용어이며, 과거에는 중대한 차이가 있음에도 불구하고 비열등성과 동등성(equivalence) 시험이 모두 '동등성시험(equivalence trials)'으로 언급되었다. 혼란을 더욱 악화시킴에 있어 이 두 용어는 다소 오도하기 쉽다.

두가지 치료법이 정확히 동등한 효과가 있음을 증명하는 것은 근본적으로 불가능하다. 따라서 동등성시험은 효과가 특정 양(amount) 이상 차이가 없음을 보여주는 것을 목표로 한다. 이러한 허용오차(tolerance)는 등등성 마진(equivalence margin)으로 알려져 있으며 흔히 기호 δ(델타)로 표시된다.

동등성시험에서 두 치료법의 효과가 양 방향에서 동등성 마진 이상의 차이가 나면, 동등성은 유지되지 않는다. 한편, 비열등성시험은 실험적 치료가 동등성 마진 이상으로 능동 대조군(active control)보다 나쁘지 않음을 보여주는 것을 목표로 한다. 어떤 크기의 개선도 비열등성 정의에 부합한다. 생물학적 동등성시험(bioequivalence trials)이 진정한 동등성 시험이지만 실험적 치료법과 비열등성시험이라고 불려지는게 더 이상 적절하지 않은 능동대조군의 임상효과를 비교하는 임상시험은 상상하기 어렵다.

분석민감도(Assay sensitivity)
아마도 비열등성시험의 가장 큰 어려움은 분석민감도 이슈 또는 그러한 차이가 실제로 존재할 경우 치료법 간 차이를 입증할 수 있는 특정 임상시험의 역량과 관련된다. 성공적으로 우월성을 입증하는 임상시험은 분석민감도를 동시에 입증한다.

그러나 유사한 치료법 효과를 성공적으로 발견하는 비열등성시험은 그러한 것을 증명하지 못했다. 유사한 치료법을 올바로 입증하는 잘 수행된 임상시험은 데이터만으로는 진정한 차이를 찾지 못한 열악하게 시행된 임상시험에서 구별할 수 없다.

따라서 비열등성시험은 질 관리 절차 혹은 연구자 평판과 같은 임상시험 이외의 정보를 바탕으로 분석 민감도를 가정해야 한다. '조화에 관한 국제회의 지침(International Conference on Harmonization guidelines)'은 분석민감도를 줄일 수 있는 여러가지 요인을 제시한다.

여기에는 연구 의약품의 불량한 복용준수(compliance), 열악한 진단기준, 측정의 과도한 변이성, 그리고 편향된 연구결과 평가를 포함한다. 비열등성시험은 이러한 요인들을 가능한 모든 범위에서 피해야 하며 심지어 의심을 피할 수 없을 수도 있다.

예를 들어, 성공적인 우월성시험은 연구 약물 중단이 적당히 많은 비율에도 불구하고 매우 신뢰할 만하지만 성공적인 비열등성시험은 신뢰도가 더 낮은데 약물 중단은 진정한 치료효과를 불분명하게 하여 분석민감도를 떨어뜨릴 수 있기 때문이다.

비열등성시험 분석(Analysis of noninferiority trials)
치료의도(Intention-to-treat, ITT)는 무작위화 절차를 준수하고 일반적으로 보수적이기 때문에, 장기 연구결과 추적관찰을 포함하는 우월성시험에 대한 가장 유효한 분석 접근방식으로 널리 인식되고 있다. 일부에서는 ITT 분석이 지나치게 보수적이라고 주장할 수도 있지만, 대부분은 우월성시험에 대한 긍정적인 ITT 분석이 설득력 있다는데 동의한다.

불행하게도 비열등성시험에 대한 보수적 분석은 존재하지 않는다. 예를 들어, ITT와 같이 분석에서 연구 약물중단 이후의 데이터를 포함할 경우 진정으로 열등한 치료법이 비열등성으로 보일 수 있는 동등성으로 결과를 편향시키는 경향이 있다.

반면에 임상시험계획서별 분석(per protocol analysis)은 주요 임상시험계획서 위반이 있는 환자 데이터를 제외시킨다. 그러나 이러한 데이터를 제외시키면 결과가 어느 방향에서든 편향될 수 있다. 예를 들어, 생존 임상시험의 환자는 사망에 대한 강력한 위험인자인 심부전 발생으로 인해 연구 약물치료를 중단할 수 있다.

따라서 비열등성시험은 ITT와 임상시험계획서별 접근방식을 이용하여 종종 분석되며, 2가지 접근방식 모두 비열등성을 지원하는 경우에만 긍정적인 것으로 간주된다. 그러나 이 경우에도 편향 가능성을 배제할 수 없으며 우월성 및 비열등성시험에 대해 상이한 분석전략을 사용하는 것이 어색할 수 있다.

눈가림(Blinding)
눈가림은 임상시험자가 이용할 수 있는 가장 중요한 편향 회피 기술 가운데 하나이다. 시험자 혹은 환자를 치료법에 눈가림을 하는 것은 항상 가능하지는 않지만, 연구결과가 주관적인 요소를 가지고 있을 때 눈가림된 연구결과 의사결정은 거의 항상 가능하고 또한 실행해야 한다. 그러나 눈가림은 우월성시험과 마찬가지로 비열등성시험에서도 거의 편향으로부터 보호하지 못한다. 우월성시험에서 눈가림된 시험자는 우월성에 대한 선입견을 뒷받침하도록 의식적 또는 무의식적으로 결과에 영향을 미칠 수는 없지만 비열등성시험은 모든 환자의 치료 반응에 유사한 평가를 할당함으로써 동등성의 선입관에 대한 결과를 편향시키는 눈가림된 시험자로부터의 보호가 없다.

비열등성 마진 명시(Specifying the noninferiority margin)
적절한 비열등성 마진을 명시하는 것은 상당히 어렵다. 2가지 기본적 접근방식이 있는데 둘 다 심각한 단점이 있다.

첫번째 접근방식은 최소한으로 중요한 효과의 임상개념을 바탕으로 동등성 마진을 명시하는 것이다. 그러나 이것은 분명히 주관적이며, 이 방법으로 동등성 마진을 능동대조군 효과보다 크게 설정하여 비열등성 정의에 부합하는 해로운 치료법을 유도할 수 있다.

이것을 피하기 위해 동등성 마진은 과거의 위약비교시험(placebo-controlled trials)에서 능동대조군 효과와 관련하여 종종 선택된다. 동등성 마진이 이와 같이 선택되면, 긍정적인 비열등성시험이 새로운 치료법이 위약보다 우월하다는 것을 주장하는 근거이다.

그러나 이 주장은 현행 임상시험에서 능동대조군 효과가 과거 임상시험의 효과와 유사하다는 가정을 필요로 한다. 이 가정은 설계 특징(예를 들어, 환자군, 능동대조군의 용량 요법, 연구결과 정의 혹은 동반 요법)과의 차이, 또는 과거 위약비교시험에서 능동대조군 효과의 불일치에 의해 훼손될 수 있다.

이러한 이유로 동등성 마진은 대개 완충 유형(type of buffer)을 포함한다. 능동대조군의 전체 예상 효과에 근거하기 보다는 종종 그 효과에 대한 신뢰구간의 하한값(시험내 및 시험간 변이성 고려) 또는 능동대조군 효과의 특정 부분(fraction)의 보존(예를 들어, 50%)에 기반한다.

표본 크기(Sample size)
비열등성시험은 전형적으로 능동비교 우월성시험(active-controlled superiority trials) 보다 작은 표본크기를 갖지만, 위약비교시험보다 상당히 큰 표본크기를 가질 수 있다. 이것은 동등성 마진이 검정력을 갖는 종종 위약비교시험에 대한 치료 차이보다 훨씬 작기 때문이다. 또한, 비열등성시험의 표본크기는 능동대조군에 비해 새로운 치료법의 가정된 효과에 매우 민감하다; 새로운 치료법이 능동대조군보다 약간 더 효과적이라고 가정할 때 보다 두가지 치료법이 동등한 것으로 가정하면 표본크기가 상당히 더 클 수 있다.

우월성 평가(Assessing superiority)
통계적 처벌 없이 동일한 임상시험에서 비열등성과 우월성을 평가할 수 있다. 이것의 한 가지 결과는 모든 것이 아니라면 능동비교임상시험 계획서는 비열등성 마진을 정의하고 비열등성 가설을 포함해야 한다. 임상시험계획서가 비열등성 가설은 있지만 우월성 가설이 없는 경우, 두가지 시험을 모두 수행하는 것이 유효하다. 그러나 임상시험계획서가 우월성 가설은 있지만 비열등성 가설이 없다면 임상시험이 끝난 후에 비열등성 가설을 추가하는 것은 비열등성 마진의 정의에서 주관적 요소 때문에 문제를 일으킨다.

시사점

· 비열등성시험의 결과가 위약비교시험 결과에 비해 분명히 덜 신뢰하도록 만드는 고유한 문제가 있지만 윤리적 이유로 위약치료를 항상 포함하지는 못함
· 표준요법보다 더 효과적이지 않지만 더 큰 안전성 혹은 편리한 투여와 같은 다른 장점을 제공하거나 우월성시험 크기를 억제하는 효과성의 작은 증가를 제공하는 새로운 치료법을 시험하는 임상시험은 항상 필요함
· 임상시험자는 종종 대안이 없기 때문에 비열등성시험을 계속할 것이나 시험을 수행하거나 결과를 평가하는 사람은 이슈를 인식하고 적절하게 설명해야 함

출처 : Noninferiority trials
Snapinn SM. Curr Control Trials Cardiovasc Med 2000;1:19–21
https://trialsjournal.biomedcentral.com/track/pdf/10.1186/cvm-1-1-019

* 본 컬럼은 의료기기를 비롯한 헬스케어 분야의 국내외 학회지에 발표된 논문 및 연구보고서 등을 살펴봄으로써 우리나라 의료기기 관련 보건의료정책 마련에 통찰력을 제공하기 위한 목적으로 매주 발표됨

의료기기뉴스라인 webmaster@kmdianews.com

다른기사 보기

상단영역

본문영역