이상수의 health policy insight

[Health Policy Insight 158회]

P값 임계치를 0.005로 낮추자

▲ 이 상 수
메드트로닉코리아
대외협력부 상무

P값과 통계적 유의성 검정(statistical significance testing) 방법은 생의학과 기타 분야에서 문제를 야기하고 있다. 초록, 전체 텍스트 또는 2가지 모두에서 P값을 보고하는 논문의 대부분(96%)이 0.05 이하 값을 포함한다.

그러나 보고서에서 강조하는 많은 주장은 잘못된 것일 수 있다. 통계적 유의성 수수께끼에 대한 심대한 중요성을 인식한 미국통계학회(American Statistical Association, ASA)는 2016년 P값에 대한 진술을 발표했다.

현상유지는 문제가 있는 것으로 널리 알려져 있지만 문제를 정확히 해결하는 방법은 훨씬 더 논쟁의 여지가 있다. 미국통계학회 성명서에 기여한 사람들은 다른 측면에 초점을 맞추고 다른 해결책에 우선순위를 매기는 20개의 독립적인 해설(commentary)을 첨부했다. 72명의 방법론자들로 구성된 또 다른 대규모 연합은 최근에 새로운 발견에 대해 통계적 유의성(statistical significance)을 0.05에서 0.005로 일상적인 P값 임계치(threshold)를 낮추는 구체적이고 단순한 움직임을 제안했다. 이 제안은 일부 그룹에서 강한 지지를 얻었고 다른 그룹에서는 우려를 표했다.

P값은 잘못 해석되고(misinterpreted), 과도하게 신뢰받고(over trusted), 오용(misused)되고 있다. ASA 성명서는 이 3가지 문제를 해부하고 있다.

P값에 대한 여러 오해가 존재하지만 가장 일반적인 것은 "연구된 가설이 사실일 확률(probability that the studied hypothesis is true)"을 나타낸다는 것이다. 0.2(2%)의 P값은 귀무가설(예를 들어, 의약품이 위약만큼 효과적임)이 사실일 가능성이 2%이며 대립가설(예를 들어, 의약품이 위약보다 효과적임)이 정확할 확률이 98%라고 잘못 생각하는 것이다. "적절한 추론을 위해서는 완전한 보고와 투명성이 요구된다."라는 사실을 잊을 경우 과도한 신뢰(overtrust)가 뒤따른다. 더 나은(더 작은) P값만으로는 완전한 보고와 투명성을 보장할 수 없다.

사실, P값이 작을수록 선택적 보고와 불투명성을 암시한다. 가장 흔한 P값의 오용은 "P 값 또는 통계적 유의성이 효과크기 혹은 결과의 중요성을 측정하지 않음”에도 불구하고 “P값이 특정 임계치를 초과하는지 여부"에 따라 "과학적 결론 및 비즈니스 또는 정책 의사결정"을 내리는 것이고 "P값 자체만으로는 근거의 우수한 측정을 제공하지 못한다”.

이 3가지 주요한 문제는 통계적 유의성 임계치(전통적으로 P=0.05)를 통과(passing)하는 것이 발견(finding) 또는 결과(outcome) (예를 들어, 연관성 또는 치료 효과)가 사실이고 타당하며 영향을 줄 만한 가치가 있다고 잘못 동일시하는 것이다.

이러한 오인(misconception)은 연구자, 저널, 독자, 연구논문 사용자, 그리고 과학정보를 사용하는 대중 매체와 대중에게 영향을 미친다. 0.05보다 약간 낮은 P값으로 뒷받침되는 대부분의 주장은 아마도 거짓이다(즉, 주장된 연관성과 치료효과가 존재하지 않는다). 진실된 주장 가운데에서도 의학과 헬스케어에서 영향을 줄 만한 가치가 있는 것은 거의 없다. 

통계적 유의성 주장에 대한 임계치를 낮추는 것은 오래된 아이디어다. 몇몇 과학분야는 연구결과에 대해 얼마나 P값이 낮아야 사실에 대한 충분히 높은 가능성을 갖게 되는지 신중하게 고려했다.

예를 들어, 집단 유전체학(population genomics)에서 게놈의 전반적인(genome-wide) 유의성 임계치(P<5x10-8) 채택은 발견된 연관성을 매우 재현 가능하게 만들었고 이러한 연관성은 새로운 집단에서 시험했을 때 일관되게 나타났다. 인간 게놈(human genome)은 매우 복잡하지만 관련된 유의성 테스트의 다양성 정도가 알려져 있고, 분석은 체계적이고 투명하며, P<5x10-8에 대한 요건이 설득력 있게 이루어질 수 있다.

그러나, 대부분의 다른 유형의 생물의학연구(biomedical research)에서 관련된 다양성(multiplicity)은 불분명하며 분석은 체계적이며 불투명하다. 사전등록된 프로토콜과 분석계획이 없는 대부분의 관찰탐색연구(observational exploratory research)에 대해, 수행된 분석의 수와 어떠한 다양한 분석경로를 탐색한 것인지 명확하지 않다.

숨겨진 다양성, 비체계적 탐구 및 선택적 보고는 실험연구(experimental research)와 무작위시험(randomized trials)에도 영향을 줄 수 있다. 기존의 프로토콜과 통계분석 계획을 가지고 공공 데이터베이스에 게시된 시험(trial)을 사전등록하는 것이 더 일반적이긴 하지만, 데이터와 결과를 분석하는 방법과 정확히 제시할 내용에 대해 아직 상당한 자유도(degrees of freedom)가 남아 있다. 또한, 현대 임상연구의 많은 연구들은 더 작은 편익(benefits)이나 위험(risks)에 초점을 맞추고 있다; 따라서, 결과에 영향을 미치는 다양한 편향(biases) 위험이 증가한다.

P값 임계치를 0.05에서 0.005로 이동시키면 과거 생물의학 문헌의 통계적으로 유의미한 결과의 약 1/3이 "제안적(suggestive)" 범주로 바뀐다. 이러한 변화는 이분법적 논리(유의하거나 유의하지 않는 항목)를 믿는 사람들에게 중요하다. 과거 관찰연구의 대다수의 경우, 이러한 재분류(recategorization)는 환영받을 것이다. 예를 들어, 멘델식 무작위 연구(mendelian randomization studies)는 P<0.05의 관찰연구에서 과거의 일부 주장만이 인과관계가 있음을 보여준다.

통계적 유의성을 선언하는 수준에서 제안된 감소는 귀중한 정보 손실은 상대적으로 적으면서 대부분의 잡음(noise)을 없앨 수 있다. 무작위시험의 경우, P값이 0.005부터 0.05 범위로 나타나는 실제 효과(true effects)의 비율은 더 높을 것이며 아마도 몇몇 분야에서 대다수일 것이다. 그러나, 대다수 연구결과는 추가적인 조치를 취하는 것이 가치가 있는 충분히 심각한(serious) 연구결과를 위한 충분히 큰 치료효과를 보이지 않는다. 원하는 유의수준에서 때로는 참되고 유용한 치료효과를 제거함에도 불구하고 P값 임계치 감소는 유해보다는 대체로 유익하다. 그럼에도 불구하고 모든 치료효과의 크기와 불확실성(예를 들어, 신뢰간격)에 초점을 맞출 필요는 과장될 수 없다. 

통계적 유의성 임계치를 낮추는 것은 일시적인 조치이다. 해결책으로 통계적 유의성 임계치 또는 P값을 완전히 포기할 수 있다. 임계치를 계속 사용하려면 대부분의 관찰 연구에서 더 낮은 임계치가 더 바람직하다.

관찰연구의 다양한 체계적 문헌고찰(systematic reviews)을 평가한 포괄적인 검토(comprehensive reviews, umbrella reviews라고 함)는 P<10-6 임계치를 제안한다. 또한, 위조연구목적방법(falsification end-point methods) (즉, 거의 모든 잘 확립된 귀무연관성(null associations)을 통과시킬 수 없는 P값 임계치를 사용)은 매우 낮은 P 값을 적시한다.

빅데이터 도래에 따라, 사실일지라도 너무 작아서 유용하지 않을 수 있는 신호에 대해 극히 낮은 P값이 일상적으로 구해지기 때문에 통계적 유의성은 거의 의미가 없다. 낮은 P값 임계치를 적용하면 이러한 좀 더 까다로운 임계치를 통과하기 위해 충분한 검정력을 갖춘 신중하게 설계된 연구로 개혁된 연구 의제를 홍보하는데 도움이 된다. 그러나, 부수적인 유해가 나타날 수 있다.

연구자와 기타 이해관계자(예를 들어, 영리목적의 스폰서)가 결과에 P값이 낮아지도록 하는 방법을 찾으려고 하면 편향이 줄어들지 않고 확대될 수 있다. 선택된 임상시험 연구목적(end points)은 명백한(hard) 임상목적보다 약한 대리(surrogate) 연구목적이 있는 낮은 P값에 도달하기 쉽기 때문에 임상적으로 관련성이 더 적다. 더욱이 낮은 P값 임계치를 통과한 결과는 평균에 큰 회귀로 제한될 수 있으며 새로운 발견은 이전보다 훨씬 과장된 효과크기를 가질 수 있다. 제안된 P<0.005 임계치는 불완전하기 때문에 더 어렵지만 더 견고한 대안적 해결책을 고려해야 한다(표). 

이러한 해결책은 얼마나 쉽고 빠르게 채택될 수 있는지에 따라 다르다. 현재까지 축적 된 과거 생물의학 문헌의 사용과 해석 또는 미래에 축적될 새로운 문헌의 설계와 전개를 목표로 삼을 수 있다. 장기적으로 과학 인력은 목적에 가장 부합한 통계적 추론도구를 이용하여 좀 더 적절하게 훈련될 필요가 있고, 편향은 후향적보다는 선제적으로 다루어야 한다.

그러나 이들은 계속해서 실현 불가능한 목표가 될 수 있다. 데이터가 점점 복잡해지고 있다. 연구자와 연구사용자를 위한 방법과 통계에 대한 엄격한 교육을 위한 시간이 제한적이라면 수준 이하의 의료통계 및 그에 따르는 오해가 계속될 수 있다.

그럼에도 불구하고, 여러 분야에서 P값에 대한 더 나은 기준을 채택하고, P값 의존도를 낮추며, 적절한 경우 다른 유용한 추론도구(예를 들어, 베이지안 통계)의 채택을 강화하고 있다. 이러한 변화의 신속성과 정도는 예측할 수 없다. 과거에 낮은 채택은 비관론을 유발한다. 그러나, 새로운 시작과 더 나은 실행 채택의 빠른 가속은 항상 가능하다. 주요 저널과 자금지원 인센티브 뿐만 아니라 훈련 커리큘럼의 급진적 변화는 보다 광범위하고 효과적인 전환을 달성하는데 필요하다.

시사점
· 가장 흔한 P값의 오용은 "P값 또는 통계적 유의성이 효과크기 혹은 결과의 중요성을 측정하지 않음”에도 불구하고 “P값이 특정 임계치를 초과하는지 여부"에 따라 "과학적 결론 및 비즈니스 또는 정책 의사결정"을 내리는 것
· 장기적으로 과학 인력은 목적에 가장 부합한 통계적 추론도구를 이용하여 좀 더 적절하게 훈련될 필요가 있고, 편향은 후향적보다는 선제적으로 다루어야 함

출처 : The Proposal to Lower P Value Thresholds to .005
Ioannidis JPA. March 22, 2018. doi:10.1001/jama.2018.1536
https://jamanetwork.com/journals/jama/fullarticle/2676503

* 본 컬럼은 의료기기를 비롯한 헬스케어 분야의 국내외 학회지에 발표된 논문 및 연구보고서 등을 살펴봄으로써 우리나라 의료기기 관련 보건의료정책 마련에 통찰력을 제공하기 위한 목적으로 매주 발표됨

키워드

#N
저작권자 © 의료기기뉴스라인 무단전재 및 재배포 금지