이상수의 health policy insight

● [Health Policy Insight 305회] 

US FDA, 의료제품의 인공지능 규제 방법

▲ 이 상 수
Medtronic North Asia
(Korea and Japan)
대외협력부 전무

의료기관은 인공지능(artificial intelligence, AI) – US FDA에서 "지능형 기계를 만드는 과학 및 공학"으로 정의 - 을 점점 더 다양한 임상, 행정 및 연구 목적으로 사용하고 있다. AI 소프트웨어는 의료공급자가 질병을 진단하거나 환자 건강을 모니터링하거나 환자 예약과 같은 기계적인 암기 기능을 지원할 수 있다. AI는 헬스케어 및 환자 결과를 개선할 수 있는 고유한 기회를 제공하지만 잠재적인 문제도 있다. 예를 들어, AI 지원 제품(AI-enabled products)은 때때로 부정확하거나 잠재적으로 유해한 치료 권고로 이어졌다. 이러한 오류는 AI를 구축하거나 훈련하는데 사용되는 정보의 예상치 못한 편향 자료, 도구에서 분석한 특정 데이터 포인트에 부여된 부적절한 가중치 및 기타 결함으로 인해 발생할 수 있다. 이러한 도구를 관리하는 규제 프레임워크(regulatory framework)는 복잡하다. FDA는 헬스케어에 사용되는 AI 지원 제품의 일부(전부는 아님)를 규제하며 관할권 하에 있는 제품의 안전성 및 효과성을 보장하는데 중요한 역할을 한다. FDA는 새로운 데이터에 대응하여 때로는 예측하기 어려운 방식으로 빠르게 진화하는 AI 지원 의료기기에 대한 검토 프로세스를 조정하는 방법을 현재 고려하고 있다.

FDA의 AI 제품 규제 상황
(How and under what circumstances does FDA regulate AI products?)
 

FDA는 많은 AI 기반 의료제품의 안전성 및 효과성을 보장하는 임무를 맡고 있다.  의도된 용도와 정확하지 않은 경우 대체로 환자에 대한 위험 수준에 따라 소프트웨어를 규제한다. 소프트웨어가 질병이나 기타 질환을 치료, 진단, 치유, 완화 또는 예방하기 위한 것이라면 FDA는 이를 의료기기로 간주한다. 의료기기로 간주되고 AI/ML에 의존하는 대부분의 제품은 ‘의료기기로서의 소프트웨어(Software as a Medical Device, SaMD)’로 분류된다. SaMD의 예로는 MRI 영상을 분석하여 뇌졸중을 감지하고 진단하는데 도움이 되는 소프트웨어나 유방암 감지에 도움이 되도록 영상을 처리하는 컴퓨터 지원 탐지(computer-aided detection, CAD) 소프트웨어가 있다. 스마트폰에서 실행되는 특정 어플리케이션과 같은 일부 소비자 대면 제품도 SaMD로 분류될 수 있다. 이와 대조적으로 FDA는 X-선 패널을 제어하는 ​​것과 같은 의료기기의 하드웨어에 통합된 컴퓨터 프로그램을 ‘의료기기내 소프트웨어(Software in a Medical Device)라고 한다. 이러한 제품은 AI 기술을 통합할 수도 있다. 여느 의료기기와 마찬가지로, AI 지원 소프트웨어는 위험분류(risk classification)에 따라 FDA 검토를 받아야 한다. 연속 혈당 모니터의 판독값만 표시하는 소프트웨어와 같은 1등급 의료기기는 위험이 가장 낮다. 2등급 의료기기는 중등도에서 고위험(moderate to high risk)으로 간주되며, 유방 X-선 촬영과 같은 의료영상을 분석하고 영상의학전문의가 검토할 의심스러운 결과를 알려주는 AI 소프트웨어 도구가 포함될 수 있다. 대부분의 2등급 의료기기는 510(k) 검토로 알려진 절차를 거치는데 제조업체는 해당 의료기기가 동일한 의도된 용도 및 기술적 특성을 가진 시장에 출시된 기존 의료기기와 "실체적 동등(substantially equivalent)"함을 입증한다. 

한 연구에 따르면 시장에서 FDA가 검토한 AI 기반 의료기기의 대부분은 510(k) 경로를 통해 출시되었다. 또는 특정 1등급 및 2등급 의료기기 제조업체가 FDA에 De Novo 요청을 제출할 수 있는데, 새롭지만 안전성과 기본 기술이 잘 이해되어 위험이 낮은 의료기기에 적용된다. IDx-DR, OsteoDetect 및 ContaCT와 같이 현재 시장에 출시된 여러 AI 기반 의료기기는 De Novo 경로를 통해 검토된 2등급 의료기기이다. 3등급 의료기기는 가장 높은 위험을 내포하며 생명 지원, 생명 유지 또는 인간의 건강 손상을 예방하는데 실질적으로 중요한 제품이 포함된다. 이러한 의료기기는 완전한 시판 전 승인(premarket approval, PMA) 절차를 거쳐야 하며, 개발자는 제품의 혜택(benefits)이 위험(risks)을 능가한다는 임상근거를 제출해야 한다. 연속 혈당 모니터링 시스템인 Guardian Connect 시스템은 PMA를 통해 승인되었다. 의료기기가 시장에 출시되면, FDA는 개발자가 변경한 사항에 대해 시판 전 검토가 필요한지 여부를 결정하기 위해 위험기반 접근방식(risk-based approach)을 취한다. 일반적으로 제조업체가 소프트웨어를 크게 업데이트하거나 의료기기의 성능에 실질적으로 영향을 미칠 수 있는 기타 변경을 할 때마다 이 평가 프로세스가 의료기기의 위험 분류 및 변화 특성에 따라 다르지만 추가적인 FDA 검토를 받게 된다. 임상 의사결정 지원(clinical decision support, CDS) 소프트웨어는 FDA가 의료공급자와 환자에게 "건강 및 헬스케어를 향상시키기 위해 적절한 시점에 지능적으로 필터링되거나 제시되는 지식 및 개인별 정보"를 제공하는 기술로 정의되는 광범위한 용어이다. 연구에 따르면 CDS 소프트웨어가 환자 케어를 개선할 수 있음을 보여주었다. 

이러한 제품에는 의료기기 및 의료기기가 아닌 어플리케이션이 있을 수 있다. FDA의 규제를 받지 않고 의료기기 정의에서 면제되려면, CDS 소프트웨어는 의회가 2016년 21세기 치유법(21st Century Cures Act)에서 정한 기준을 충족해야 한다. 결정적으로, CDS 소프트웨어는 의료공급자가 임상 의사결정을 내릴 때 지원하거나 권고를 제공해야 하지만, 소프트웨어가 의료공급자의 독립적 판단을 대체하지는 않는다. 즉, 소프트웨어는 의사결정에 정보를 제공할 수는 있지만 의사결정의 원동력이 될 수는 없다. 그렇지 않으면, 소프트웨어는 FDA에서 의료기기로 규제되어야 한다. 정보 제공과 의사결정 추진의 구분은 평가하기 어려울 수 있으며 FDA가 법을 시행하려고 할 때 설명하기 어려운 것으로 판명되었다. FDA는 2017년에 CDS 소프트웨어와 관련하여 이러한 조항을 해석하는 방법에 대한 지침 초안을 발표했다. FDA가 권한을 너무 광범위하게 해석하고 있다는 우려를 제기한 제품 개발자의 피드백에 대한 응답으로, FDA는 2019년 지침 초안을 수정하고 다시 발표했다. 소프트웨어에 대한 기존의 국제 기준으로 21세기 치유법의 해석을 조화시키려는 FDA의 시도인 2019년 지침은 일부 의료공급자로부터 우려를 불러일으켰다. 이들은 본 지침이 검토에서 너무 많은 유형의 소프트웨어를 제외할 수 있으며 FDA가 특정 제품에 어떻게 적용할지에 대해 명확히 해야 한다고 주장했다. AI에 의존하는 제품을 포함하여 의료공급자가 개발하고 사용하는 CDS 제품의 경우 특히 그러하다. 일부 의료기관은 자체 시설 내에서 사용하기 위해 기술적으로 의료기기 정의를 충족할 수 있는 AI 기반 CDS 소프트웨어를 개발하거나 시범 운영할 수 있다. 단일 의료기관 내에서 소프트웨어 프로그램이 개발 및 구현되고 외부업체에 판매되지 않는 상황에서는 FDA가 규제하지 않는 의료 진료와 의료기기 간의 구별이 명확하지 않다. FDA는 이러한 이슈에 대한 입장을 공개적으로 밝히지 않았다; 그러나 현행 규정은 제품 등록 요건에서 진료용으로만 의료기기를 제조하거나 변경하는 면허를 소지한 의사를 면제한다. 병원 인증기관(예를 들어, 합동 위원회(Joint Commission)), 표준제정조직(예를 들어, 의료기기진흥협회(Association for the Advancement of Medical Instrumentation)) 및 정부 기관은 이러한 도구가 더 널리 채택됨에 따라 환자 안전을 보장하기 위해 이러한 감독의 간극을 메울 필요가 있다. 예를 들어, 소비자를 보호하고 공정한 시장경쟁을 촉진하는 책임이 있는 연방통상위원회(Federal Trade Commission, FTC)는 AI 지원 알고리즘을 사용하는 기관을 위한 지침을 2020년 4월에 발표했다. 의사결정을 자동화하는 알고리즘은 소비자에게 부정적이거나 유해한 결과를 초래할 가능성이 있기 때문에 이 지침은 투명하고 공정하며 강건하고 최종 소비자에게 설명할 수 있는 도구 이용의 중요성을 강조한다. 1년 후, 연방통상위원회는 알고리즘이 편향되거나 부정확할 수 있는 기관에 대해 조치를 취할 수 있다고 발표했다.

SaMD 규제에 대한 새로운 FDA 제안(Emerging FDA proposals for SaMD regulation) 

FDA는 디지털헬스 분야의 빠른 혁신 속도가 FDA에 상당한 도전이 되고 있음을 인정했다. FDA가 불필요하게 진행 속도를 늦추지 않으면서 시장에 출시된 의료기기의 안전성 및 효과성을 보장할 수 있도록 하려면 새로운 규제 프레임워크가 필수적이라고 FDA는 말한다. 2019년에 FDA는 소프트웨어 사전인증 프로그램(Software Precertification Program)이라는 감독 프레임워크를 시범 운영하기 시작했고 이 프로그램은 완전히 구현될 경우 일반적인 검토 프로세스에서 크게 벗어나게 될 것이다. 의료기기를 개별적으로 검토하는 대신, FDA는 먼저 개발자를 평가한다. 제조회사가 특정 자격을 충족하고 안전하고 효과적인 의료기기를 개발하기 위한 엄격한 프로세스가 있음을 입증하면, 상당히 간소화된 검토 프로세스를 거치고 시판 전 검토를 거치지 않고도 제품을 변경하거나 제품을 출시할 수 있다. 이러한 시범 프로그램(pilot program)에는 9개 기업이 참여했다. 학습한 교훈은 소프트웨어 기반 의료기기에 대한 미래 규제 모델(regulatory model) 개발에 도움이 된다. 그러나 일부 의회 의원은 이 프로그램을 수립할 FDA의 법적 권한에 의문을 제기했다. FDA가 이를 완전히 구현하려면 입법이 필요할 수 있으며, 소프트웨어 개발자에 대한 매력은 아직 명확하지 않다. FDA는 적응형 학습 접근방식(adaptive learning approach)에 의존하는 SaMD 제품을 대상으로 하는 규제 프레임워크를 제안했다. 지금까지 FDA는 개발자가 업데이트하지 않는 한 시간 경과에 따라 변경되지 않는 "잠금" 알고리즘(“locked” algorithm)에 의존하는 AI 의료기기를 승인했다. 이와 대조적으로 적응형 알고리즘(adaptive algorithms)은 새로운 데이터를 통합하고 실시간으로 "학습(learning)"할 수 있는 잠재력이 있는데 즉, 제품의 위험 수준이나 성능도 빠르게 변할 수 있다. 이러한 변경의 속도와 때로는 예측할 수 없는 특성을 감안할 때, SaMD 알고리즘이 의도한 사용에 여전히 안전하고 효과적인지 확인하기 위해 FDA의 추가 검토가 필요한 시점을 결정하기 어려울 수 있다. 2019년 백서에서 FDA는 적응형 학습(adaptive learning)에 대한 이 문제를 해결하기 위한 잠재적인 접근방식을 설명했다. 이는 4가지 일반 원칙을 기반으로 한다:

1. 품질 시스템 및 우수한 기계학습 기준에 대한 명확한 기대치
(Clear expectations on quality systems and good machine learning practices): 
여느 의료기기 제조업체와 마찬가지로 FDA는 SaMD 개발자가 해당 의료기기가 관련 품질기준을 충족하고 규정을 준수하는지 확인하기 위해 확립된 시스템을 갖기를 기대한다. 개발자는 우수기계학습기준(Good Machine Learning Practices, GMLP)으로 알려진 알고리즘 개발을 위해 확립된 모범사례를 구현해야 한다. 이러한 기준 세트는 여전히 진화 중이며 결국 의료기기에 대한 현행 우수제조관리기준(Good Manufacturing Practice, GMP) 요건에 대한 수정사항으로 포함될 수도 있다. FDA는 최근 알고리즘 설계, 훈련 및 시험에 대한 우수기준에 대한 미해결 질문을 해결하기 위해 산업계 및 이해당사자의 의견이 필요하다고 밝혔다.

2. SaMD 제품의 시판 전 평가
(Premarket assessment of SaMD products that require it):
 이러한 프레임워크에서 개발자는 AI/ML에 의존하는 SaMD의 초기 시판 전 검토의 일부로 미리 결정된 변경관리계획(change control plan)이라고 하는 향후 수정계획을 제출할 수 있다. 이 계획에는 발생할 수 있는 예상 수정 유형과 개발자가 이러한 변경을 구현하고 관련 위험을 줄이기 위해 이용할 접근방식이 포함된다.

3. 알고리즘 변경에 FDA 검토가 필요한 시기를 결정하기 위한 제조업체의 SaMD 제품 정기적 모니터링
(Routine monitoring of SaMD products by manufacturers to determine when an algorithm change requires FDA review): 
현행 규제 프레임워크에서 SaMD 제품에 대한 많은 변경사항은 개발자가 새로운 시판 전 신청(premarket submission)을 제출해야 할 가능성이 높다. 제안된 접근방식에서 미리 결정된 변경관리계획의 범위 내에서 수정이 이루어지면 개발자는 해당 변경사항을 문서화하기만 하면 된다. 변경사항이 변경관리계획의 범위를 벗어나지만 의료기기의 새로운 의도된 사용으로 이어지지 않는 경우(예를 들어, 개발자가 SaMD를 다른 데이터 출처와 호환되도록 하거나 다른 유형의 데이터를 통합한 경우), FDA는 변경관리계획 만을 검토하고 새로운 버전을 승인한다. 그러나 수정사항이 새로운 의도된 사용으로 이어진다면(예를 들어, 성인에서 아동으로 대상 환자 모집단을 확대), FDA는 추가적인 시판 전 검토를 수행한다.

4. 투명성 및 실세계 성능 모니터링
(Transparency and real-world performance monitoring): 
이러한 접근방식의 일부로, FDA는 개발자가 특정 투명성 원칙을 준수하고 지속적인 성능 모니터링에 참여하기를 기대한다. 개발자는 다른 요건 가운데 구현된 업데이트 및 성능 메트릭스(performance metrics)에 대해 FDA에 주기적인 보고를 제공해야 한다.

제안된 프레임워크는 FDA가 현재 의료기기를 규제하는 방식에 있어 중요한 변화가 될 것이며, 사전인증 프로그램(precertification program)과 마찬가지로 FDA는 프레임워크의 특정 측면을 구현하기 위해 의회 승인이 필요할 수 있음을 인정했다. 승인을 받더라도 이 프레임워크가 실제로 어떻게 구현되고 특정 의료기기에 적용되는지에 대한 미해결 질문이 있다. FDA는 현재 제안된 접근방식에 대한 추가 세부사항을 제공할 일련의 후속 문서를 작업 중에 있다. 가장 최근에 FDA는 의도한 다음 단계를 요약한 "의료기기로서의 인공지능/기계학습 기반 소프트웨어 실행계획(Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan)"을 발표했다. 여기에는 제안된 프레임워크 업데이트 및 미리 결정된 변경관리계획에 대한 지침 초안 발표, GMLP 개발에 대한 기술 개발자 간의 조화(harmonization) 장려, 최종 사용자에게 투명성을 지원하기 위한 의료기기 라벨링에 대한 공개 워크숍 개최가 포함된다. FDA는 편향을 확인하고 제거하는 방법을 포함하여 ML 알고리즘의 평가와 개선을 위한 방법을 개발하고 이해당사자와 협력하여 실세계 성능 모니터링 시범사업을 진행하려는 노력을 지원할 계획이다.

남은 질문과 감독 간극(Remaining questions and oversight gaps)

특히 헬스케어에서 AI 제품의 사용이 증가함에 따라, FDA와 기타 이해당사자는 해당 제품의 안전성 및 효과성을 입증하는데 필요한 임상 근거와 제품 라벨이 성능과 일반화 가능성에 대한 제한사항을 지정해야 하는 정도에 대한 명확한 가이드라인을 개발해야 한다. 이러한 노력의 일환으로 FDA는 최종 사용자가 AI 의료기기의 혜택과 위험을 더 잘 이해할 수 있도록 개발자에게 AI 의료기기를 검증하고 시험하는데 사용되는 데이터에 대한 공개 정보를 제공하도록 요구하는 것을 고려할 수 있다. FDA의 최근 SaMD 실행계획은 좋은 진전이지만 여전히 다음을 포함한 다른 주요 이슈를 명확히 해야 한다:

- SaMD 또는 적응형 ML 의료기기에 대한 수정사항이 시판 전 검토가 필요한 경우.   
미리 결정된 변경관리계획에 대한 지침 초안은 이 정책의 중요한 부분이 될 수 있음

- 소프트웨어 사전인증 프로그램(Software Precertification Program)이 시범사업 단계를 넘어 확대될 수 있는지 여부와 방법

- FDA에 의해 규제되는 소프트웨어와 면제 소프트웨어 간의 구별은 임상 의사결정을 알리는 것과 추진하는 것 간의 차이에 크게 달려 있음

- GMLP가 개발될 때 모든 의료기기에 적용되는 현행 품질시스템 규정과 어떻게 교차하는지

- 소프트웨어 업데이트 및 성능에 대한 잠재적 영향을 최종 사용자에게 전달하는 방법

의료기기 정의에서 제외되는 제품이 있기 때문에, 다른 감독기관이 환자 안전을 보장하는 역할을 해야 할 수도 있는데 특히 FDA 권한이 없는 AI 지원 소프트웨어의 경우 더욱 그러하다. 의약품 개발 프로세스에 사용되는 AI 제품의 경우, FDA는 제품이 의도한 대로 작동하는지 확인하는데 필요한 근거의 범위와 유형에 대한 추가 지침을 제공해야 한다. AI가 헬스케어 분야에 추가할 수 있는 잠재적인 혜택을 최대한 포착하는 동시에 환자 안전을 보장하기 위해, FDA는 병원 인증기관, 민간 기술회사 및 기타 정부기관(많은 소프트웨어 제품에 대한 핵심 표준을 공표하는 건강정보기술 국가조정국(Office of National Coordinator for Health Information Technology) 또는 보험 프로그램이 적용되는 기술을 결정하는 미국 보험청(Centers for Medicare and Medicaid Services, CMS))을 포함한 다양한 이해당사자와 파트너십을 구축해야 한다. 앞서 언급했듯이, 의회는 FDA가 특히 사전인증 시범사업과 관련하여 제안된 정책 중 일부를 시행하기 전에 FDA에 추가 권한을 부여해야 한다.

시사점
- AI는 환자 결과를 개선하고 효율성을 높이며 헬스케어 전반에 걸쳐 연구를 촉진할 수 있는 혁신적인 기회를 제시함
- 의료공급자, 소프트웨어 개발자 및 연구원은 현행 규제 프레임워크를 시험하는 새로운 AI 제품을 지속적으로 혁신하고 개발할 것임
- FDA는 이러한 문제를 해결하고 혁신을 가능하게 하는 동시에 공중보건을 보호할 수 있는 정책을 개발하려고 시도하고 있지만 이러한 일이 발생하도록 하기 위해 FDA가 해결해야 할 많은 질문이 있음
- 이러한 정책이 진화함에 따라, 헬스케어 부문의 규제 불확실성을 해결하기 위한 입법 조치가 필요함

출처원 : The PEW Charitable Trusts. July 2021
https://www.pewtrusts.org/en/research-and-analysis/issue-briefs/2021/08/how-fda-regulates-artificial-intelligence-in-medical-products

* 본 컬럼은 의료기기를 비롯한 헬스케어 분야의 국내외 학회지에 발표된 논문 및 연구보고서 등을 살펴봄으로써 우리나라 의료기기 관련 보건의료정책 마련에 통찰력을 제공하기 위한 목적으로 매주 발표됨

저작권자 © 의료기기뉴스라인 무단전재 및 재배포 금지