이상수의 health policy insight

[Health Policy Insight 149회]

AI 기반 의료기기 및 시스템의 규제과학(Regulatory Science)

▲ 이 상 수
메드트로닉코리아
대외협력부 상무

인공지능(artificial intelligence, AI) 기반 신기술 적용은 의료를 포함한 다양한 분야에서 활발히 연구되어 왔으나 AI를 의료에 적용하는 것에 대한 우려가 있어 왔다. AI 사용은 아직 규제과학(regulatory science) 관점에서 논의될 상이한 유형의 잠재적 위험을 제기할 수 있다. 이러한 논의는 AI 기반 기술의 적절한 사용을 담고 있으며 제조업체 뿐만 아니라 사용자를 포함한다.

일본 의약품의료기기청(Pharmaceuticals and Medical Devices Agency, PMDA)은 과학위원회(Science Board) 산하에 AI 의료 적용의 영향을 관찰하고 보고하기 위해 'AI 및 의료 응용 소위원회(Subcommittee on Artificial Intelligence and its Applications in Medical Field)'를 조직하였다. 이는 AI 기반 기술의 특성과 잠재적 위험을 명확히 하고, 임상사용의 기초를 제시하며, PMDA의 향후 검토 및 자문서비스에 기여하기 위함이다. 

AI의 연구개발은 1956년 유명한 Dartmouth Conference에서 시작된 이래로 현재 세번째 붐(boom)에 있다. 현재 관심은 기계학습(machine learning), 특히 심층학습(deep learning)과 IBM Watson이 대표하는 대규모 지식 활용에 있다. 거대한 데이터를 수집하고 사용하는 컴퓨터 역량은 세번째 붐에 크게 기여했다. 인터넷이 널리 보급되어 대규모 지식과 데이터를 온라인으로 수집할 수 있으며 방대한 저장장치도 저렴해지고 있다.

기술발전은 거대한 저장 공간과 거대한 계산 기능을 필요로 하는 새로운 알고리즘 창출을 촉진하였다. AI 기반 시스템은 인간과 컴퓨터 간의 관계를 변화시킬 것으로 예상된다. 과거에는 인간이 컴퓨터의 행동을 이해하고 통제했다. 이제 컴퓨터는 특정 업무를 해결하기 위해 AI 기반 시스템의 성능은 물론 메모리와 계산 기능에서 인간을 앞서고 있다.

실제로 핵심 우려사항은 AI 기반 의료시스템의 특정 부분이 많은 국가/지역의 엄격한 규제하에 의료기기로 간주된다는 것이다. AI 기반 의료시스템의 평가와 규제 검토를 수행하는 핵심 사항을 확립하는 것이 무엇보다 중요하다 - 평가 및 검토는 AI의 특성과 잠재적 위험에 대한 이해를 토대로 해야 한다.

이른바 AI 기반 컴퓨터지원진단(computer-aided diagnosis, CAD) 및 자율성을 갖춘 외과 수술 로봇과 같은 진단 및 치료 지원에서 몇 가지 특정 적용을 살펴봄으로써 AI 기반 의료기기/시스템 및 기타 AI 기반 의료장치(healthcare devices)/시스템 (이하 AI 의료시스템이라고 함)에 대한 규제과학 견해를 제시해 본다. 

1) AI 의료시스템의 특성

AI 의료시스템은 a)가소성(plasticity), b)예측가능성(predictability), c)자율성 정도(degree of autonomy)의 3가지 측면에서 기존 의료기기 및 시스템과 다르다. 

1-1) 가소성
AI 의료시스템은 학습(즉, 가소성)을 통해 성능을 스스로 변화시킬 수 있다. 자동외장형제세동기(automatic external defibrillators)의 심전도 모니터링의 배경 잡음 수준(noise level) 설정과 같이 적응하여 행동을 변화시키는 의료기기 및 시스템이 과거에 이미 존재했지만, AI 의료시스템은 기존 의료기기 및 시스템과 질적으로 다른 가소성을 갖는다. 표1은 학습시점과 성과 변화 시점에 따른 AI 의료시스템의 분류를 보여준다. 사용이 시작된 후 학습을 통해 시스템 성능이 역동적으로 변화할 때, 시판허가 준수에 관한 규제적 우려가 있다.

허가에 (대부분의 경우) 성능기준이 포함되는 경우, 성능 변경으로 인해 허가기준을 벗어나면 허가 일부 변경이 필요할 수 있다. 또 다른 우려는 제조업체의 위험관리 유지가 까다로울 수 있다는 점이다.

성능 변화가 항상 긍정적인 것은 아니며 부적절한 학습으로 인해 악화될 수도 있다. 위험관리를 유지하는 것은 전세계 대부분 국가와 지역에서 규제 요건의 일부이다. 제조업체는 AI 의료시스템의 출하 또는 서비스 시작 전에 학습을 제어한다. 또한 제조업체는 기존 의료기기와 동일한 방식으로 학습에 사용되는 데이터세트를 제어한다. 그러나 출하/서비스 시작 후 학습은 제조업체가 수행하지 않을 수 있다. 사용자, 즉 의료인은 데이터를 사용하여 학습에 적용할 수 있다. 이것은 누가 위험관리의 책임을 공유하는지에 관한 이슈이다.

1-2) 예측 가능성
AI 효과에 영향을 끼치는 또 다른 요인은 일반적으로 심층학습(deep learning)에서 볼 수 있는 기계학습 알고리즘의 블랙박스(black box) 특성으로 인해 AI 산출(output)의 예측 불가능성(unpredictability)이다. 그 산출은 연역적으로 예측하거나 해석하기가 어려울 수 있다. 이 요인은 제조업체가 수행하는 위험관리에 영향을 미친다. AI 의료시스템의 산출은 그림 1에서와 같이 산출의 예측가능성 측면에서 3가지 패턴으로 분류된다.

(a) 산출은 주어진 한정된 수의 해법(solution)에서 선택된다. 예를 들어, AI 의료 시스템은 미리 결정된 선택지 가운데 적합한 진단을 산출한다.
(b) 주어진 한정된 수의 해법에서 산출이 선택된다. 예를 들어, 컴퓨터 지원 진단을 위한 AI 의료시스템은 가능한 병변 부위와 확률을 0에서 1까지의 범위 내에서 산출한다.
(c) 산출은 미리 결정되지 않는다. 예를 들어, AI 의료시스템에서는 새로운 범주의 질병을 만든다.

1-3) 자율성 정도
AI 의료시스템을 발전시켜 의사와 환자 간 관계를 수정할 수 있다. AI 의료시스템의 또 다른 특징인 자율성은 다양한 관점에서 논의되었다. 자율차량 운전 사례가 대중의 관심을 끌었다. 

2) AI 의료시스템의 형태

2-1) AI CAD
AI CAD는 AI 기반 진단시스템의 전형적인 예이다. AI CAD로의 주요 입력은 진단 영상이다. AI CAD는 다음과 같이 5개의 진단지원 수준(DL1 ~ DL5)으로 분류된다.

· DL1: AI CAD는 진단 결정을 돕기 위해 질병과 관련된 특징 값(예를 들어, 병변 표시, 종양의 직경 또는 용적)을 계산하여 의사에게 제공한다. 컴퓨터지원 탐색(computer-aided detection, CADe)이라고 한다.
· DL2: AI CAD는 진단 결정을 지원하거나 실수를 방지하기 위해 의사에게 진단 제안(예를 들어, 악성 종양, 병기)을 계산하여 제시한다.
· DL3: AI CAD는 영상과 기타 임상 정보(멀티모드 정보)를 처리하고 진단 결정을 지원하기 위해 포괄적 진단을 의사에게 제시한다.
· DL4: AI CAD는 멀티모드 정보를 처리하고 의사에게 자동진단을 제공한다. 의사는 진단을 검토하고 승인해야 한다.
· DL5: AI CAD는 멀티모드 정보를 처리하고 의사의 중재나 검토없이 완전 자동진단을 제공한다.
DL1과 DL2는 일반적으로 영상의학과 의사를 도와 실수를 방지하는 종래 CAD에서 발견되며, DL3 이상은 전통적인 의사의 역할로 간주된 포괄적 혹은 자동화된 진단을 목표로 한다.

2-2) AI 수술 로봇
AI 기반 치료 지원을 하는 수술 로봇(AI 수술 로봇)은 AI 기반 치료시스템의 한 예이다. AI 기반 치료시스템은 환자에 대한 산출의 직접적 효과로 특징이 부여된다: AI는 진단보다 좀 더 직접적인 방식으로 치료에 관여한다. 산출의 예측가능성과 시스템에 의한 오작동을 줄이기 위한 시간 마진(time margin)도 고려해야 한다. 

3) 데이터세트의 특성

3-1) AI CAD의 데이터세트 특성
기존 CAD는 또한 임상 영상을 사용했고 때때로 시험을 위해 합성 데이터를 사용했다. 이러한 시험 데이터는 의도된 부위(region), 질병 및 양상(modality)의 영상(images)이다. 제조업체는 편향이 없음을 입증하기 위해 샘플링 방법과 같은 데이터 특성을 명확히 해야 한다. AI CAD의 경우, 다음 요인을 학습과 시험을 위한 데이터세트에 적용할 수 있다. 이것은 기존 CAD의 경우에는 존재하지 않는다.

a) AI 기반 시스템은 충분한 학습데이터가 제공될 경우에만 정확하게 수행하는 것으로 기대된다. 학습데이터가 불충분하면 정확하게 수행되지 않는다. 따라서 AI CAD는 제품의 사용목적(intended use) 범위에 상응하는 충분한 질병 범위의 영상을 이용하여 개발해야 한다.

b) 전이학습(transfer learning)은 자연적인 영상(natural images)을 포함하여 의도된 부위,질병 및 양상의 영상을 사용할 수 있다.

c) 무감독 학습(unsupervised learning), 반감독 학습(semi-supervised learning), 약한 표기(weak labels) 학습과 같은 알고리즘은 기술적으로 완전한 정보가 부족한 영상(예를 들어, 진실 표기(truth labels))을 이용할 수 있다. 엄청난 양의 영상데이터는 인터넷에서 구할 수 있다. 이러한 데이터 사용은 신뢰성 이슈를 해결할 필요가 있다.

d) 학습데이터를 증가시키기 위해 합성 데이터가 사용된다. 원래 학습데이터 혹은 생성 모드(가령, 자동 인코더)에 적용된 선형 변환(회전, 크기 조정 및 변환 포함) 및 비선형 변환을 통해 데이터를 합성할 수 있다. 

시험데이터는 학습데이터와 구별되어야 한다. 그러나 이들 데이터간 오염을 완전히 막는 것은 쉽지 않다. AI 의료시스템이 적절한 관리시스템과 시스템을 오염 전 상태 또는 초기 상태로 되돌리는(roll back) 기능을 갖추는 것이 효과적이다.

3-2) AI 기반 치료시스템의 데이터세트 특성
앞서 언급된 요인 외에도 AI 기반 치료시스템의 학습 및 시험을 데이터세트에 다음 요인이 적용될 수 있다.

a) 시험을 위한 진실(ground truth)과 지표(metrics)를 정의하는 것이 어려운 경우가 있다. 제조업체는 이것을 정의할 수 있지만 정의를 정당화해야 한다.
b) 질병, 치료 또는 의사의 통제되고 균질한 데이터 수집은 제한된 경우에 가능하다. 비균질 데이터를 이용하면 원치 않는 편향이 발생할 수 있다. 특히 치료 전략이나 수술 기법이 의료기관마다 다른 경우 특히 주의를 기울여야 한다.
c) 치료 보조 데이터는 흔히 시간 순서와 관련이 있다. 이러한 데이터는 유용하며 업무 단계에 연계될 때 정확한 학습을 허용한다.
d) 경력 및 경험과 같은 의사의 속성이 분석에 고려되어야 한다. 시험하는 의료기기가 새롭고 의사가 익숙하지 않은 것으로 간주될 때 학습곡선을 고려해야 한다.

4) 위험 분석 및 통제

사용 목적(intended use) 내에서 AI 의료시스템의 품질, 효능 및 안전성은 기존의 의료기기 및 시스템과 마찬가지로 중요하다. 그러나 AI 기반 기술을 도입하면 기존 의료 기기와 시스템에서 볼 수 없었던 추가적인 위해(hazards)가 초래될 수 있다.

IEC TR 60601-4-1:2017은 의료 전기장비 및 시스템의 자율성 정도가 위험 수준과 상관관계가 없음을 보여준다. 마찬가지로 AI 기반 기술을 도입함으로써 위험 수준은 AI 수준과 상관관계가 없는 것으로 간주될 수 있다. 예를 들어, AI 의료시스템은 새로운 위해를 초래할 수 있고, 더 심각한 다른 유해(harm)의 빈도나 심각성을 감소시킬 수 있으며, 결과적으로 시스템의 전체 위험이 수용가능한 수준으로 평가될 수 있다. 규제 기관은 구성요소의 개별적 위험이 아니라 의료기기 전체의 위험(risks)과 편익(benefits) 간의 전반적인 균형을 고려한다.

4-1) AI CAD의 위험분석 및 제어
진단 보조 수준에 따라 AI CAD와 관련된 일반적인 위험은 아래에 요약되어 있다. 실제 위험 및 수준은 개별 CAD 시스템과 의도된 성능에 따라 다르다. 예상되는 성능이 높으면 위험의 영향이 크며 반대의 경우도 마찬가지이다.
· DL1: 측정은 간단하며 산출의 부정확성은 위험할 수 있다. 관련 위험은 다른 수준에 비해 낮을 것으로 예상된다.
· DL2: 산출은 의사의 의사결정에 큰 영향을 줄 수 있다. 따라서, 합리적인 정확성이 요구된다. 부정확한 정보의 결과는 치료에 영향을 끼친다. 관련 위험이 높아질 수 있다.
· DL3: 산출은 포괄적인 것으로 간주되며 의사가 잘못된 산출을 식별할 가능성이 낮다. 따라서, 정확도는 의사의 정확도와 동등하게 높거나 더 높아야 한다.
· DL4: 산출의 정확도는 의사의 정확도보다 높아야 한다. 주목할만한 위험한 상황 가운데 하나는 상황 인식의 상실로 인해 의사가 맹목적으로 산출을 승인하는 것이다. 
· DL5: 잘못된 산출을 바로 잡기 위해 의사가 개입하지 않는다. 결과는 직접적으로 치료 실패로 귀결된다.

블랙박스(black box) 특성으로 인해 인간이 심화학습 및 기타 신경망알고리즘(neural network algorithms) 행동을 예측하는 것이 어렵다는 것은 잘 알려져 있다. AI CAD가 예상대로 작동하지 않으면 이를 분석하여 오류 원인을 식별하는 것은 쉽지 않다. 따라서, 부정확한 성능의 확률을 명확히 하고 사용자의 적절한 상황 인식을 보장하는 것이 중요하다.

사이버공격(cyberattack)의 또 다른 위험이 있어 부정확하고 신뢰할 수 없는 산출을 초래한다. 이러한 공격에는 악의적인 데이터에 의한 오염과 편향된 데이터를 초래하는 방해행위(sabotage)가 포함된다. 공격은 시스템의 행동에서 감지하기 어려울 수 있다. 사이버공격에 대한 위험관리 주제는 그러한 공격에 대해 요구되는 조치의 정도에 대한 추가 논의가 필요하다.

4-2) 치료시스템의 위험분석
산출의 간접/직접효과와 예측가능성은 AI 기반 치료시스템과 관련된 위험을 분석하는데 중요하다. 시스템 운영자가 유해 상황을 인식하고 개입할 때까지의 지연시간(lag time)은 AI 기반 치료시스템의 위험과 관련된다.

AI는 운영자가 반응할 수 있는 시간이 제한될 때 위험을 줄이기 위해 유해상황을 피할 것으로 예상된다. 그러나 이와 관련하여 항공공학과 같은 다른 분야에서는 자동화 시스템에 안전 모니터링을 맡기는 것이 운전자가 상황인식을 잃을 수 있는 또 다른 문제를 야기할 수 있음이 잘 알려져 있다.

시사점
· AI 의료시스템은 다음과 같은 고유한 특성이 있음:
1) 학습을 통해 시스템 성능 변화를 유발하는 가소성 및 학습 타이밍에 대한 새로운 개념의 창출과 위험 관리를 위한 책임 할당의 필요성;
2) 연역적 산출 예측을 배제하는 블랙박스 특성으로 인한 시스템 행동의 예측 불가능성;
3) 학습을 위한 데이터세트와 평가를 위한 데이터세트 특성을 보증할 필요성

· AI 의료시스템에 의한 지원 수준의 추가 발전은 의사와 환자 간 관계를 변화시킬 수 있음. 이전학습, 감독되지 않은 학습, 반감독 학습 및 약한 표기학습과 같은 학습 방법은 규제 절차에서 고려해야 할 새로운 요인을 도입함

· 데이터세트는 AI 기반 기술 및 규제요건의 특성을 고려하여 적절하게 관리되어야 함. AI가 의사 및 기타 의료인과 같은 AI 의료시스템 사용자에 의해 훈련된다면, 데이터 세트 제어 및 위험관리는 제조업체가 수행할 때 보다 엄격하지 않으며 이로 인해 상이한 이해당사자들이 학습한 후에 성과 보증의 책임을 공유하는 방법에 관한 새로운 이슈를 제기할 것임

· 의료 적용에서 AI 기반 기술의 사용자는 이러한 새로운 문제를 인식해야 함

출처 : Regulatory Science on AI-based Medical Devices and Systems
Chinzei K, et al. Advanced Biomedical Engineering 7: 118–123, 2018.
https://www.jstage.jst.go.jp/article/abe/7/0/7_7_118/_article/-char/en

* 본 컬럼은 의료기기를 비롯한 헬스케어 분야의 국내외 학회지에 발표된 논문 및 연구보고서 등을 살펴봄으로써 우리나라 의료기기 관련 보건의료정책 마련에 통찰력을 제공하기 위한 목적으로 매주 발표됨

키워드

#N
저작권자 © 의료기기뉴스라인 무단전재 및 재배포 금지