생성형 인공지능 의료기기 허가·심사 가이드라인

The document is a South Korean regulatory guideline for approving generative AI medical devices. Its central concern is ensuring patient safety and clinical validity of AI-generated outputs, including risks of hallucination, inconsistency, bias, and data quality failures. The governance rationale is framed primarily around protecting patients from unsafe medical AI outputs, requiring risk management processes, analytical performance validation, and clinical efficacy confirmation. Secondary framing around innovation enablement is present as the guideline aims to provide a workable approval pathway for novel GenAI medical devices. Fundamental rights appear as a minor frame through references to personal data protection.

normalized text

1 section

01
Full text
등록번호안내서-1416-01 생성형 인공지능 의료기기 허가·심사 가이드라인 (민원인 안내서) 2025.1.24. 의 료 기 기 심 사 부 - 2 - 지침서ᆞ안내서 제ᆞ개정 점검표명칭생성형 인공지능 의료기기 허가·심사 가이드라인(민원인 안내서)아래에 해당하는 사항에 체크하여 주시기 바랍니다. 등록대상여부 □ 이미 등록된 지침서ㆍ안내서 중 동일ㆍ유사한 내용의 지침서ㆍ안내서가 있습니까? □ 예■ 아니오☞ 상기 질문에 ‘예’라고 답하신 경우 기존의 지침서ㆍ안내서의 개정을 우선적으로 고려하시기 바랍니다. 그럼에도 불구하고 동 지침서ㆍ안내서의 제정이 필요한 경우 그 사유를 아래에 기재해 주시기 바랍니다.(사유 : )□ 법령(법ㆍ시행령ㆍ시행규칙) 또는 행정규칙(고시ㆍ훈령ㆍ예규)의 내용을 단순 편집 또는 나열한 것입니까? □ 예■ 아니오□ 단순한 사실을 대외적으로 알리는 공고의 내용입니까?□ 예■ 아니오□ 일회성 지시ㆍ명령에 해당하는 내용입니까? □ 예■ 아니오□ 외국 규정을 단순 번역하거나 설명하는 내용입니까?□ 예■ 아니오□ 신규 직원 교육을 위해 법령 또는 행정규칙을 알기 쉽게 정리한 자료입니까? □ 예■ 아니오☞ 상 기 사 항 중 어 느 하 나 라 도 ‘예’에 해 당 되 는 경 우 에 지 침 서 ㆍ 안 내 서 등 록 대 상 이 아 닙 니 다. 지침서ㆍ안내서 제ㆍ개정 절차를 적용하실 필요는 없습니다.지 침 서 ㆍ 안 내 서 구 분□ 행정사무의 통일을 기하기 위하여 내부적으로 행정사무의 세부기준이나 절차를 제시하는 것입니까? (공무원용) □ 예(☞지침서) ■ 아니오□ 민원인들의 이해를 돕기 위하여 법령 또는 행정규칙을 알기 쉽게 설명하거나 특정 민원업무에 대한 행정기관의 대외적인 입장을 기술하는 것입니까? (민원인용) □ 예(☞안내서) ■ 아니오기타 확인사항□ 상위 법령을 일탈하여 새로운 규제를 신설ㆍ강화하거나 민원인을 구속하는 내용이 있습니까? □ 예 ■ 아니오☞ 상기 질문에 ‘예’라고 답하신 경우 상위법령 일탈 내용을 삭제하시고 지침서ㆍ안내서 제ㆍ개정 절차를 진행하시기 바랍니다.상기 사항에 대하여 확인하였음. 2025년 1월 24일담당자확 인(부서장) 김 종 엽강 영 규 제 개정 이력서생성형인공지능의료기기허가·심사가이드라인(민원인안내서)제․개정번호승인일자주요내용안내서-1416-012025.1.24.생성형인공지능의료기기허가·심사가이드라인(민원인안내서)제정 ※ 본 안내서에 대한 의견이나 문의사항이 있을 경우 의료기기심사부 디지털헬스규제지원과에 문의하시기 바랍니다.전화번호: 043-719-3948, 3988팩스번호: 043-719-3940 이 안내서는 생성형 인공지능 의료기기 허가·심사 시의 적용범위 등에 대해 알기 쉽게 설명하거나 식품의약품안전처의 입장을 기술한 것입니다. 본 안내서는 대외적으로 법적 효력을 가지는 것이 아니므로 본문의 기술방식(‘∼하여야 한다’ 등)에도 불구하고 참고로만 활용하시기 바랍니다. 또한, 본 안내서는 ‘25년 1월 현재의 과학적ㆍ기술적 사실 및 유효한 법규를 토대로 작성되었으므로 이후 최신 개정 법규 내용 및 구체적인 사실관계 등에 따라 달리 적용될 수 있음을 알려드립니다. ※ “민원인 안내서”란 민원인들의 이해를 돕기 위하여 법령 또는 행정규칙을 알기 쉽게 설명하거나 특정 민원업무에 대한 행정기관의 대외적인 입장을 기술하는 것(식품의약품안전처 지침서등의 관리에 관한 규정 제2조) 목차Ⅰ.개 요 11.배경 및 목적 12.적용 범위 3Ⅱ.생성형 인공지능 의료기기의 예시 5Ⅲ.생성형 인공지능 의료기기의 위험관리 7Ⅳ.허가·심사 방안 121.허가신청서 작성 122.분석적 성능 검증 213.임상적 유효성 확인 25Ⅴ.참고문헌 29 - 1 - Ⅰ 개 요 1. 배경 및 목적최근 생성형 인공지능(GenerativeArtificialIntelligence,GenAI)이 다양한 분야에서 급속도로 발전하고 있으며,의료 분야에서도 그 활용이 늘어나고 있다[1-2].기존의 기계학습(MachineLearning)기반과 달리 생성형 인공지능은 특정 의료목적에 국한되지 않은 방대한 데이터의 패턴을 바탕으로 확률적 추론을 통해 새로운 콘텐츠를 생성하는 특성이 있어,하나의 모델로 여러 적응증에 활용될 수 있고 동일 입력에 대해서도 맥락에 따라 다양한 결과가 생성될 수 있어 기존 방식으로 성능 및 임상적 유효성을 평가하는 데 어려움이 있다[3-4].일반적으로 기존 기계학습 가능 의료기기는 정교하게 설계되고 주의 깊게 모니터링되는 임상시험을 수행하여 1~2가지의 적응증에 대한 안전성과 유효성을 평가하였다.또한,추가하고자 하는 적응증이 있다면 임상시험을 통해 이를 입증하여야 했다.이에 비해 생성형 인공지능 의료기기(GenAIMedicalDevices)는 새로운데이터를 지속적으로 학습함에 따라 생성형 인공지능 모델의 계산능력이 끊임없이 변화하여 특정 적응증뿐만 아니라 잠재된 적응증까지도 평가하여야 하므로,기존의 평가방법과 기준을 적용한다면 안전성과 유효성 평가에 막대한 비용과 시간을 필요로 하게 된다[5]. - 2 - 이에 따라,거대언어모델과 같은 생성형 인공지능 의료기기를 일종의 새로운 인공지능 모델로 이해하고,임상현장에서 사용되며 환자의 안전을 보장하기 위한 방법이 필요하다[6].아울러,생성형 인공지능 의료기기의 임상현장 도입에는 다음과 같은문제점을 함께 고려하여야 한다.첫째,오류나 편향이 있는 데이터가 걸러지지 않고 학습될 가능성이 있어 부정확한 출력결과를 초래할 수 있다.둘째,생성형 인공지능 모델은 기존 인공지능 모델보다 설명가능성의 한계가 있으며,결과의 신뢰성 확보가 중요하다.셋째,동일한 입력에도 일관성 없는 출력을 할 수 있는 가능성이 있어,재현성과 신뢰성 검증이 추가적으로 필요하다.식품의약품안전처는 이러한 문제점을 고려하여,생성형 인공지능 의료기기의 특성을 반영한 인·허가 규제 적용범위,제품예시,위험관리,분석적 성능 및 임상적 유효성 등의 요구사항을 제시함으로써 민원편의 및 허가·심사 업무의 투명성을 제고하고자 한다. - 3 - 2. 적용범위 생성형 인공지능은 합성 콘텐츠를 생성하기 위해 이미지,비디오,오디오,텍스트 및 기타 디지털 콘텐츠가 포함할 수 있는 훈련데이터의 구조와 특성을 모방(에뮬레이션)하는 인공지능 모델이다.생성형 인공지능 의료기기는 「디지털의료제품법」제2조(정의)에 따라 질병의 진단·치료 또는 예후를 예측하기 위한 목적 등으로 환자에게 적용되며,관리범위는 [그림]과 같이 파운데이션모델(FoundationModel,FM)을 활용한 의료용 어플리케이션과 의료용 파운데이션모델을 포함한 어플리케이션으로 정한다[7]. [그림.생성형인공지능의료기기의관리범위] - 4 - 훈련데이터는 다양한 모달리티(텍스트,이미지,음성,신호,유전체 등)를 포함하는 데이터셋으로 구성할 수 있으며,파운데이션모델은 훈련데이터의 패턴과 구조를 생성형으로 학습하게 된다[8-10].파운데이션모델은 학습과정을 통해 다양한 목적으로 사용할 수 있는인공지능 모델을 제공하고,어플리케이션은 파운데이션모델을 적용하여 의료목적에 맞게 데이터를 처리 후 결과물 생성을 출력해 주는 목적으로 사용된다.다만,파운데이션모델은 어플리케이션을 제조 및 활용하는 제조사의의도와 관계없이 업그레이드될 수 있으므로,어플리케이션에 포함된 의료용 파운데이션모델에 한하여 관리하고자 한다.동 가이드라인은 생성형 인공지능 의료기기의 제조·수입 허가·인증,임상시험계획승인 등에 적용하고,의료기기 허가 후 관리나 사용자(의료기관 등)의 관리적 보안 또는 사용자의 건강에 직접적으로 영향을 미치지않는 개인정보유출 등은 의료법 및 개인정보보호법 등 타 법령을 준수하도록 권고한다. - 5 - Ⅱ 생성형 인공지능 의료기기의 예시생성형 인공지능 의료기기 대상 여부 판단은 사용목적과 적용되는 생성모델에 따라 분류된다.제품의 형태,목적 등에 따라 생성형 인공지능 의료기기로 분류하기 모호한 의료제품이 있을 수 있으며,이 경우 식품의약품안전처에 문의할 것을 권고한다.의료기기와 비의료기기의 예시는 이해를 돕기 위한 것으로,실제 제품별 특성과 상황,과학적 근거 등을 고려하여 사안별로판단한다.1)생성형 인공지능 의료기기에 해당하는 의료제품< 예 시 > - 흉부 엑스레이 영상과 대응되는 판독문을 생성형 인공지능으로 학습하여 영상을 분석하고, 검출할 수 있는 폐질환 관련 병변에 대한 판독문 초안을 작성해주는 소프트웨어 - 환자의 전자의무기록(EMR) 데이터를 대량으로 분석하여 맞춤형 치료계획을 생성해 주는 소프트웨어 - 환자의 음성녹음 파일을 분석하여 파킨슨병의 징후를 조기에 감지하고, 그 결과로 진료요약서를 작성해주는 소프트웨어 - 환자의 시퀀싱 데이터를 이용하여 특정 유전질환(유전자 변이 등)에 대한 발병 가능성을 예측하고, 이를 바탕으로 발생 위험 보고서를 생성하는 소프트웨어 - 6 - 2)생성형 인공지능 의료기기에 해당하지 않는 의료제품 특히,식품의약품안전처는 의료기기 규제적용의 필요성을 판단하기위하여 국내·외 자료를 조사·분석하거나 주기적인 실태조사를 실시할 수 있다.실태조사로 개발 중인 제품의 위해요소가 확인될 경우 의료기기로 분류하여 관리할 수 있다.이 경우 가이드라인 또는 고시 개정 절차를 통해 이해 관계인의 의견을 수렴하는 등 충분한 논의과정을 거칠 계획이다. < 예 시 > - 환자의 전자의무기록(EMR)데이터를 단순히 기록, 검색, 조회 및 요약 등을 하는데 사용하는 소프트웨어 - 음성으로 기록된 의료인의 진료내용을 텍스트로 변환하여 요약문서를 작성해주는 소프트웨어 - 7 - Ⅲ 생성형 인공지능 의료기기의 위험관리생성형 인공지능 의료기기를 포함한 모든 의료기기는 식별된 위험이 허용할 수 있는 수준으로 통제되고 있는지를 검증하기 위해,ISO14971:2019에 기반한 위험관리 프로세스를 적용할 수 있다.의료기기에 ‘위험’을 통제하기 위해서는 우선,해당 의료기기에 어떤 ‘위험’이 존재하는지 알아야 한다.전통적인 의료기기에 대한 위험은 임상적 지식,실사용 경험 등을 바탕으로 추정할 수 있지만,생성형 인공지능 의료기기는 유사한 기술에 대한 실사용 경험이 없어 ‘위해요인’을 식별하지 못하거나,해당 기술에 대한 이해가 부족하여 ‘위험’을 과소평가할 수 있다.기존 연구에 따르면 생성형 인공지능 의료기기와 같은 기계학습 기반 모델은 [표 1]과 같이 규칙 기반(Rules-based)모델과 3가지 측면에서 차이가 있다고 보고되고 있다.[표1.생성형인공지능의료기기의특성]구 분 내 용학습(Learning)사용목적 내에서 환자 건강에 영향을 줄 수 있는 구체적인 결과를 제공하기 위해 데이터를 축적(학습)할 수 있음자율성(Autonomy)학습에 따라 임상의의 감독을 줄이거나 심지어 감독 없이도 프로세스 또는 결과를 수정할 수 있는 잠재력을 가지고 있음설명불가능성(Inexplicability)정교한 계산 능력, 복잡한 통계, 크고 복잡한 데이터셋 등을 학습하므로, 출력값에 대한 근거(rationale)는 전문지식이 없는 개인뿐만 아니라, 잘 훈련된 임상의와 기타 의료진도 쉽게 이해하지 못할 수 있음 - 8 - 동 가이드라인에서는 생성형 인공지능 의료기기의 특성을 기반으로 발생할 수 있는 ‘위해요인’을 식별하여 제시한다.제조자는 해당 제품과 관련된 ‘위해요인’을 식별하고 ISO14971:2019에 따른 위험관리 프로세스를 적용할 수 있다.[표 2]에 제시된 ‘위해요인’모두가 생성형 인공지능 의료기기에 해당하지 않을 수 있으며 또한,[표 2]는 생성형 인공지능 의료기기에 발생할 수 모든 ‘위해요인’을 포함하고 있지는 않다[11].[표2.생성형인공지능의료기기위해요인(Hazard)예시]구 분 위 해 요 인 성능(Performance) 1. 설득력있는 환각(Hallucination): 인공지능 모델이 부정확하거나 편향되거나 의도하지 않은 출력을 생성하지만, 콘텐츠의 문법과 구조 등이 매우 단호하고 설득력이 있어 정확한 출력으로 오인될 수 있음2. 일관성이 없음(Inconsistency): 인공지능 모델 특성으로 인해 반복된 세션에서 동일 입력에 대한 출력이 일관되지 않을 수 있음(예. 동일한 흉부 X-ray 영상을 입력하나 매번 다른 판독문이 생성되어 출력됨 등)3. 연관성이 없음(Irrelevancy): 모호한 질문 간 차이 혹은 부적절한 질문의 맥락을 인지하지 못하고 연관성이 없거나 부정확한 답변 생성(예. 허혈성 뇌졸중과 출혈성 뇌졸중을 구분하지 못하고 잘못된 진단 결과를 출력; 흉부 X-ray 영상에 대한 판독문을 생성해야 하나 다른 부위의 X-ray 영상이 입력되어도 인지하지 못하고 결과를 출력 등)4. 불확실성 척도의 부재(No uncertainty indicator): 인공지능 모델 출력의 불확실성에 대한 정량적 척도를 제시함으로써 사용자가 해당 출력을 신뢰할 것인지에 대한 판단기준을 제시하지 못함 - 예1. 설명가능성(Explainability)1) 측면: 사람이 이해할 수 있는 모델의 출력 결과에 대한 논리적 근거 미제시 - 9 - - 예2. 해석가능성(Interpretability)2) 측면: 의료목적의 출력을 생성하는 원리를 뒷받침하는 대표적 참고문헌 또는 출처 미제시 데이터 품질 (Data Quality) 1. 데이터 오류(Incorrect data): 데이터값이 잘못되어(예. 입력 오류, 라벨링 오류 등) 있거나 적용할 수 없음(예. 데이터가 더 이상 환자의 상태를 대표하지 못함 등)2. 이상치 처리 오류(Incorrect handling of outliers): 인공지능 모델 학습 시 처리하면 안되는 이상치를 포함하거나 혹은 처리하여야 하는 이상치를 누락3. 불완전한 데이터(Incomplete data): 누락된 데이터(예. 연속형 데이터의 빈 공간 등)4. 주관적인 데이터(Subjective data): 객관적이며 정량적인 사실에 근거하지 않고 개인의 경험적 혹은 전문성에 영향을 받는 데이터(예. Lung-RADs를 활용한 폐 결절 분류에 있어 임상의 간 의견 차이 등)5. 일관되지 않은 데이터(Inconsistent data): 데이터는 출처 및 수집 시점 등에 따라 영향을 받을 수 있음(예. 감기 환자 데이터를 각각 여름과 겨울에 수집 등)6. 학습과 적용 데이터의 차이(Domain shifted data): 인공지능 모델 학습 시 사용한 데이터 품질이 실제 사용 시의 데이터 품질을 대표하지 못할 수 있음(예. 고해상도의 CT영상만을 학습한 인공지능 모델은 저해상도만 제공하는 병원에서 사용하기에 적합하지 않을 수 있음 등)7. 데이터 드리프트(Data drift): 환자집단과 의료관행 등은 시간이 지남에 따라 변화하여 더 이상 현재의 데이터를 대표할 수 없음 (예. 몇 년 전 폐렴 유병률 기반으로 학습한 인공지능 모델은 현시점의 폐렴 특성을 정확히 반영할 수 없음 등)8. 파편화된 데이터(Fragmented data): 인공지능 모델의 학습에 필요한 데이터가 하나의 형식 혹은 시스템으로 저장되지 않음 (예. 의료영상은 DICOM 형태로 저장되는 반면, 의료기록은 텍스트 형태로 저장됨 등) - 10 - 편향 (Bias) 1. 선택편향(Selection bias): 누락된 데이터로 인해 발생 가능하며 ① 데이터가 무작위로 수집되지 않음 ② 데이터가 의도하는 환자집단의 특성과 일치하지 않음 ③ 개인정보 등의 문제로 수집된 데이터를 제외할 때 인구통계학적 분포가 고르지 않음 등의 원인으로 발생2. 중첩변수(Confounding variables): 실제로 입력과 출력 간 상관관계가 없지만 제3의 중첩변수로 인해 상관관계가 있는 것처럼 보일 수 있음(예. ‘단 음식 섭취’와 ‘체중 증가’는 직접적인 원인-결과처럼 보일 수 있으나 실질적으로는 두 가지 모두 ‘높은 혈당’으로 인한 결과일 수 있음 등)3. 비정규성(Non-normality): 모든 집단이 정규 분포를 갖지 않음에도 오히려 목적으로 하는 대상 집단이 정규 분포를 갖는다고 가정함으로써 발생 가능4. 대리 변수(Proxy variables): 원하는 데이터 요소를 수집할 수 없는 경우 대체 방식을 사용함으로써 발생 가능(예. ‘고위험 치료 관리’가 필요한 환자를 식별하는 알고리즘에 대해 ‘의료적 수요’ 대신 ‘비용’을 데이터 요소로 수집할 경우, 의료비 지출이 상대적으로 낮은 가난한 사람들의 ‘의료적 수요’를 반영할 수 없음 등)5. 암시적 편향(Implicit bias): 개인의 정신 모델(mental model)에 기반하여 인지하지 못한 가정(예. 의사가 모든 환자를 동등하게 대하고자 하지만, 의사의 생각과 행동에 영향을 미칠 수 있는 특정 가설(가치관 등)을 갖고 있을 수 있음(예. 흑인 환자를 열등하게 생각해 약을 처방하지 않음))6. 집단 편향(Group attribution bias): 일반화의 오류(예. 한 집단에 대해서만 학습한 인공지능 모델이 똑같은 특성을 갖는 다른 집단에서는 정확히 동작하지 않을 수 있음 등)7. 실험자 편향(Experimental bias): 인공지능 모델이 실험자의 믿음과 일치하는 결과를 나타낼 때까지 학습시킴 - 11 -1) 설명가능성(explainability): 인공지능 모델이 어떻게 작동하는지에 대한 기술적 세부 사항을 나타내는데 사용2) 해석가능성(interpretability): 인공지능 모델이 얼마나 정확히 분석 가능한지를 나타내는데 사용 사용자(User) 1. 과잉 확신(Overconfidence): 인공지능 모델에 대한 사용자의 이전 경험으로 인해 해당 모델이 모든 상황에서 사용할 수 있다고 믿음2. 행동 실패(Failure to act): 사용자가 인공지능 모델을 신뢰하지 않고 무시함3. 인지된 위험(Perceived risk): 사용자가 실제보다 저위험으로 인식하여 인공지능 모델을 더 신뢰하거나 작업을 위임함4. 사용자 업무량, 시간 제약(User workload, Time constraints): 바쁜 사용자는 인공지능 모델을 더 신뢰하는 경향이 있음5. 자신감(Self-confidence): 사용자는 인공지능 모델이 ‘우월한 판단’을 한다고 믿고 따를 수 있음6. 사회적 신뢰 차이(Variation in social trust): 다른 사용자 집단 (예. 전문성 혹은 국가가 다름)은 인공지능 모델에 대한 다양한 신뢰 수준을 갖고 있어 해당 신뢰에 대한 개발자의 가정이 전체 사용자 집단에 적용되지 않을 수 있음적응형 시스템(Adaptive System)1. 연속 학습(Continuously learning): 인공지능 배포 이후에 지속적으로 데이터를 학습하는 것으로 품질이 낮은 데이터로 학습하면 시스템 성능이 저하될 수 있음 기타1. 지식 부족(Lack of knowledge): 데이터의 의미와 맥락에 대한 이해없는 데이터 축적 (예. 일반적으로 천식은 고위험군으로 초기 치료되어 사망률이 낮아 사망률 기반 인공지능 모델은 해당 질병을 고위험군으로 분류하지 못함) - 12 - Ⅳ 허가 심사 방안 1. 허가신청서 작성디지털의료기기의 허가신청서(이하 ‘신청서’)는 ｢ 디지털의료제품 허가·인증·신고·심사 및 평가 등에 관한 규정｣ (이하 ‘규정’)제10조부터 제21조까지의 조항에 따라 아래의 기재사항을 작성한다.[표3.디지털의료기기허가신청서] 생성형 인공지능 의료기기는 기계학습 가능 의료기기에 해당되어 기술문서 작성에 대한 사항은 ｢ 인공지능 의료기기의 허가·심사 가이드라인(민원인 안내서)｣ 에서 제시하는 ‘IV.허가·심사 방안’을 참고하여 1. 명칭 2. 제품코드 및 등급 3. 모양 및 구조 4. 부분품 또는 구성요소 5. 제조공정 6. 성능(기능) 또는 특성 7. 사용목적 8. 사용방법 9. 사용 시 주의사항10. 시험규격11. 제조원12. 저장방법 및 사용기간 - 13 - 작성할 수 있다.다만,동 가이드라인에서는 허가신청서 항목 중 생성형 인공지능 의료기기의 특성을 고려하여 적용할 사항을 반영하였으며,독립형 디지털의료기기소프트웨어를 예시로 제시하였다.가.모양 및 구조규정 제12조(모양 및 구조)의 ‘작용원리’는 신청제품이 입력정보를 이용하여 출력정보를 도출하는 과정에 사용된 생성형 인공지능 모델 (예.파운데이션모델(FM),거대언어모델(LLM),생성적적대신경망(GAN),변형오토인코더(VAE),확산모델(DM),시각언어모델(VLM),거대멀티모달모델(LMM)등)을 포함한 주요 모델에 대한 과학적(임상적)원리를 기재한다. F 작성 예시 흉부 X-ray 영상을 이용하여 정상과 비정상 소견을 자동으로 분석하여, 초안 판독문을 작성할 수 있다. 본 제품은 입력정보인 X-ray를 이용하여 상용 소프트웨어(SOUP)인 파운데이션 모델(예. Model ID:ChatGPT-35-turbo-0125)을 통해 초안 판독문을 생성한다. 생성된 초안판독문을 이용하여 의료진이 효율적으로 활용할 수 있도록 병변의 위치와 수치를 분석하고 질환 유무의 결과를 도출한다.(이하 생략)‘구조 및 정보통신체계도’는 상호운용기기,전자인터페이스,인프라 등 각 요소와 통신체계의 주요기능(통신목적 및 통신방법)을 포함하여 기재한다. - 14 - 신청제품과 호환되어 사용되는 상용 소프트웨어(예.파운데이션모델,API등)가 있는 경우 이에 대한정보를포함하여 기재한다. F 작성 예시1. 디지털의료기기 구조 및 정보통신체계도 - 15 - 나.부분품 또는 구성요소규정 제13조(부분품 또는 구성요소)의 ‘부분품 또는 구성요소’는 신청제품에 적용된 생성형 인공지능 알고리즘이 정상적으로 동작하기 위한 운영체제(OS),중앙처리장치(CPU),메모리(RAM),저장공간,그래픽처리장치(GPU)등의 하드웨어 요구사항을 포함한 운영환경을 기재한다.클라우드에 위치한 소프트웨어는 가상머신의 하드웨어 요구사항을 포함한 인스턴스 운영환경을 기재하며,소프트웨어의 버전을필수로 기재한다.제조사는 해당 소프트웨어의 현재 버전을 포함하여 소프트웨어의 이력을 관리하며,향후 새로운 기능 추가나 버그 수정 시 효율적으로 대응할 수 있도록 한다. F 작성 예시 1. 온프레미스 서버 형태일련번호소프트웨어의 명칭버전운영환경비고 1식약처(온프레미스)MFDS_Onpremises1.0.X1) 서버 운영환경 - OS: Windows 11 이상 - CPU: i9-14900 이상 - Memory: 64 GB 이상 - SSD: 2 TB 이상 - GPU: RTX 4090 이상 - Network : 100/1000 Mbps 이상최소사양 - 16 - 2. 클라우드 서버 형태 - RAM : 64GB 이상2) 사용자 운영환경 - OS: Windows 11 이상 - CPU: i5-14300 이상 - Memory: 16 GB 이상 - SSD: 500 GB 이상일련번호소프트웨어의 명칭버전운영환경비고 1식약처(클라우드)MFDS_Cloud1.0.X 1) 서버 운영환경 - AWS Cloud Platform - Instance Type: g6.4xlarge - OS: Ubuntu 20.04 LTS - vCPUs: 16 - Memory: 64 GB - SSD: 600 GB - GPU Memory: 22 GB2) 사용자 운영환경 - OS: Windows 11 - CPU: i5-14300 - Memory: 16 GB - SSD: 500 GB 권장사양 - 17 - 다.성능(기능)또는 특성규정 제15조(성능(기능)또는 특성)의 ‘성능(기능)또는 특성’은 신청제품의 주요기능으로 사용자가 입력하는 정보와 의료기기의 출력정보를 기재한다.출력정보는 생성형 인공지능 모델에 의해 생성되는 정보를 기재하고,거대언어모델을 이용하여 결과를 생성하는 경우 생성된 결과(예.판독문 등)의 신뢰성 및 유효성을 확인할 수 있는 항목을 기재한다.또한,①학습데이터의 정보,②학습데이터의 업데이트 예상 주기,③제3자가 제공하는 클라우드 서비스를 통해 개발ㆍ구현된 경우에는 클라우드의 서비스의 종류 및 구성 형태 등을 추가로 기재한다. F 작성 예시 1. 주요기능 가) 의료영상 입력 및 출력 정보 1) 입력정보: 흉부 X-ray 영상 2) 출력정보: 질환의 유무 표시 3) 생성정보: 초안 판독문 생성 나) 성능 1) 질환의 유무 표시 - 민감도 OO % 이상, 특이도 OO % 이상 2) 초안 판독문 생성 - 질환의 위치 및 수치를 포함한 판독문 신뢰성 평가 지표 (예. RADPEER, Bert Score) OO % 이상 - 18 - 다) 학습데이터 1) 학습데이터 정보 : 흉부 X-ray 데이터 300,000건 이상 2) 학습데이터의 업데이트 예상 주기 : 제조원에 의한 업데이트 1년 라) 클라우드의 서비스의 종류 및 구성 형태 : PaaS, 하이브리드 클라우드 적용 등 2. 디지털기술의 세부적인 특성 : 독립형 소프트웨어기술, 인공지능기술 ※ 디지털의료기기에 적용되는 디지털기술의 세부적인 유형 및 특성은 디지털의료제품 분류 및 등급지정 등에 관한 규정 [별표 1]을 참고하여 제시 - 19 - 라.사용 시 주의사항규정 제18조(사용 시 주의사항)의 ‘사용 시 주의사항’은 제한적인 임상환경을 통해 임상적 유효성을 검증하고,이를 고려하여 주의사항을 작성한다.일반적으로「의료기기 소프트웨어 허가·심사 가이드라인(민원인 안내서)」허가신청서 작성요령 및 예제를 참고하여 작성하되,생성형 인공지능 의료기기의 특성에 맞는 사용 시 주의사항을 추가적으로 기재한다.제품 사용에 활용되는 환자의 개인의료정보는 의료법과 개인정보보호법 아래에 사용되어야 함을 주의사항으로 기재한다.신청제품은 해당제품에 적용된 생성형 인공지능 의료기기로부터 생성되는 정보의 신뢰성이 고려되어야 하며,출력 정보 활용 시 해당분야 임상의의 체계적인 검토와 분석을 통해 제품을 사용하고 허가된 사용목적 및 적응증 외의 안전성ž유효성이 평가되지 않은 용도로는 사용하지 않도록 주의사항을 기재한다.특히,인공지능 기술이 적용된 디지털의료기기의 경우에는 환각(Hallucination),성능저하(Drift)등 인공지능 기술의 특성으로 발생할 수 있는 현상과 제품 사용상 주의 등에 관한 사항을 기재한다.아울러 유ž무선 통신을 사용하는 의료기기의 경우 전자적 침해행위로부터의 보호를 위한 주의사항을 기재하며,액세서리와 함께 사용하거나 상호운용기기와 연계하는 경우로서 액세서리 또는 전자 인터페이스 등에 대한 주의사항이 있는 경우 이를 기재한다. - 20 - 신청제품의 결과 분석에 상용 소프트웨어가 활용되는 경우 해당 소프트웨어는 제3자에 의해 별도로 관리되는 소프트웨어로,버전이 변경됨에 따라 제품의 성능에 영향을 줄 수 있으므로 상용 소프트웨어의 세부 버전 정보를 포함한 사용 시 주의사항을 기재한다. F 작성 예시 1. 경고 가) 본 제품은 검증 데이터에 포함된 흉부 X-ray의 소견들에 대해서만 성능을 보장합니다. 나) 판 독 문 은 상 용 소 프 트 웨 어 인 파 운 데 이 션 모 델 (M odel ID: ChatGPT- 35- turbo-0125)을 이 용 하 여 생 성 한 것 으 로 다 른 버 전 의 상 용 소 프 트 웨 어 의 결 과 와 다 를 수 있 습 니 다. 다) 신청제품에서 생성된 정보의 신뢰성을 확인하고, 출력 정보를 활용하기 전 반드시 해당분야 임상의가 체계적인 검토와 분석을 수행해야 합니다. 평가되지 않은 정보에 대해서는 주의가 필요합니다. 라) 결과 분석에 활용되는 상용 소프트웨어는 제3자에 의해 관리되며, 버전 변경 시 제품 성능에 영향을 줄 수 있으므로, 사용 시 해당 소프트웨어의 세부 버전 정보를 반드시 확인해야 합니다. 2. 일반적 주의사항 가) 본 제품은 생성형 인공지능 소프트웨어 의료기기입니다. 제품의 특성상 환각(예. 실제 존재하지 않는 데이터를 생성)이나 성능 저하(예. 예상과 다른 출력)가 발생할 가능성이 있으므로, 사용자는 생성된 결과를 충분히 검토하고, 필요 시 전문가의 의견을 참고하여 활용하시기 바랍니다. 나) 본 제품은 전자적 침해 행위로부터 안전하게 보호된 네트워크 환경(예. 방화벽 설정 및 암호화 된 연결을 지원하는 네트워크)에서만 사용해야 합니다. 또한, 사용자 PC와 함께 사용하는 액세서리(예. 입력장치, 디스플레이 모니터)나 상호 운용 기기(예.의료용 데이터 서버)와 연계할 경우, 해당 액세서리나 기기의 사양, 전자적 인터페이스 및 사용 시 주의사항을 확인해야 합니다.(이하 생략) - 21 - 2. 분석적 성능 검증가.성능 관련 제출자료생성형 인공지능 의료기기는 「디지털의료제품법」에 따른 ‘디지털의료기기소프트웨어’로서,규정 별표 1에 따른 별지 제2호 서식의 ‘디지털의료기기소프트웨어 적합성 확인보고서’와 ‘소프트웨어 검증 및 유효성 확인 자료’를 제출한다.이에 대한 작성방법은 「의료기기 소프트웨어 허가·심사 가이드라인(민원인 안내서)」를 참고할 수 있다[12].또한,생성형 인공지능 의료기기는 디지털의료제품법 시행규칙에 따라 ‘사용적합성에 관한 자료’와 ‘전자적 침해행위로부터의 보호 조치에 관한 자료’를 제출한다.사용적합성에 관한 자료는 「독립형 디지털의료기기 소프트웨어 사용적합성 허가·심사 가이드라인(민원인 안내서)」을 참고할 수 있다[13].전자적 침해행위로부터의 보호 조치에 관한 자료는 「의료기기의 사이버보안 허가·심사 가이드라인(민원인 안내서)」을 참고하고,해당 가이드라인의 ‘표 2.의료기기 사이버보안 요구사항’을 적용한 문서를 제출한다[14].특히,생성형 인공지능 의료기기는 [표 4]와 같이 전자적 침해행위로 인한 확장 프로그램 취약점,데이터 유출 등의 취약점이 발생할 수 있어 제품의 잠재적 위협을 효과적으로 관리하고 사용자와 데이터의 안전을 보장하기 위한 각별한 보호 조치가 필요하다[15]. - 22 - [표4.생성형인공지능의료기기의보안위협] 나.분석적 성능 검증 지표생성형 인공지능 의료기기는 다른 의료기기들과 마찬가지로 성능에 대한 검증이 필요하며 고유의 기술적 특성을 고려한 성능 검증방법이 적용되어야 한다.일반적인 인공지능 의료기기는「인공지능 의료기기의 허가·심사 가이드라인(민원인 안내서)」의 ‘2.성능 및 임상적 유효성 검증 항목’을 참고하여 성능 평가를 위한 지표를 설정할 수 있다[16]. 대표 보안 위협설 명데이터 유출 인공지능 모델을 사용할 때 환자 데이터 유출의 위험이 존재한다. 또한, 훈련 데이터 또는 대화 중 입력된 정보를 학습한 인공지능 모델의 답변들을 종합하여 특정 환자의 정보를 유추할 수 있다.플러그인 취약점 인공지능 모델의 기능 확장에 따라 새로운 보안 위협이 발생할 수 있다. 인공지능 모델이 플러그인을 통해 다양한 데이터와 플랫폼과 연결되면서 보안 위험이 커질 수 있다.확장 프로그램 취약점 인공지능과 연동되는 확장 프로그램이 악성 소프트웨어를 포함하거나 보안 조치가 부족해 보안 위협이 발생할 수 있다. 이러한 취약점은 환자 개인정보 유출이나 시스템 공격을 초래할 수 있다. API 취약점 API 키는 애플리케이션이 서로 통신할 때 사용하는 인증 정보이다. API 키를 제대로 관리하지 않으면, 키가 유출되어 악의적인 사용자가 중요한 정보에 접근하거나 비인가된 작업을 수행할 수 있다. API 키 관리가 불완전하거나 데이터와 명령 사이의 경계가 불명확할 때 API 취약점이 발생한다. 이는 API가 악용되어 데이터 유출이나 시스템 침해를 초래할 수 있다. - 23 - [표 5]는 인공지능 의료기기 중 거대언어모델이 적용된 제품에 특화된 성능 검증 지표를 예시로 제시한 것이며,해당 예시를 참고하여 거대언어모델이 적용된 생성형 인공지능 의료기기의 분석적 성능을 검증할 수 있다.[표5.거대언어모델이적용된의료기기의성능검증지표예시]항 목 설 명블루(Bilingual Evaluation Understudy, BLEU) 모델이 생성한 글과 참조표준 글 사이의 연속적 단어 나열의 일치 정도를 정밀도에 중점을 두고 평가하는 지표루지(Recall-Oriented Understudy for Gisting Evaluation, ROUGE) 모델이 생성한 글과 참조표준 글 사이의 연속적 단어 나열의 일치 정도를 민감도에 중점을 두고 평가하는 지표메테오(Metric for Evaluation of Translation with Explicit ORdering, METEOR) 모델이 생성한 글과 참조표준 글 사이의 연속적 단어 나열의 일치 정도를 F1 점수에 중점을 두고 평가하는 지표 분류 모델평가 지표정밀도 참조표준 내 연속적으로 나열된 단어 중 모델이 생성한 글에 포함되는 단어의 수 또는 참조표준에 따라 진양성인 단어들과 모델이 생성한 결과를 비교하여 정밀도/민감도/정확도/F1 Score를 산출민감도정확도F1 점수 - 24 - 블루(BLEU),루지(ROUGE),메테오(METEOR),분류 모델 평가지표(정밀도,민감도,정확도,F1점수)는 모델이 생성한 글와 참조표준 글 간의 일치 정도를 평가하며,버트 점수(BERTScore),그린(GREEN)은 단어의 의미적 유사성을 평가하여 글 간의 의미 일치 정도를 정량적으로측정한다.제품의 특성을 고려하여 위의 성능 평가 지표 중 적절한 성능 평가 지표를 선택하여 설정할 수 있으며,근거에 따른 별도의 성능 평가 지표를 설정할 수도 있다. 버트 점수(BERT Score) 모델이 생성한 글과 참조표준의 글을 각각 버트 점수라는 별도의 인공지능 모델을 이용해 단어들의 의미를 유사성이 있는 컴퓨터 연산을 위한 형태로 변환한 후 모델이 생성한 글과 참조표준 글 간의 일치 정도를 평가함. BLEU, ROUGE, METEOR와는 달리 단지 연속적 단어 나열의 일치가 아닌 의미의 일치 정도를 반영할 수 있음그린(Generative Radiology Report Evaluation and Error Notation, GREEN) 의료 데이터의 임상적 긍정과 부정에 민감한 평가 방법으로, 정규표현식을 사용하여 모델의 출력에서 오류 수를 분석하고 이를 통해 단순한 텍스트 일치 이상의 평가를 제공함. 이 과정에서 단어 및 구문 일치율을 측정하는 BLEU와 문장의 의미적 유사성을 평가하는 BERTScore를 상호보완적으로 활용할 수 있음[17] - 25 - 3. 임상적 유효성 확인임상시험을 통해 생성형 인공지능 의료기기의 임상적 유효성을 확인하고자 하는 경우 제품의 사용목적과 사용환경,의도된 환자 및 사용자프로필(임상임의 전공 및 경력,교육,지식 수준 등)등 실제 임상 환경을 반영하여야 한다.시험 데이터셋의 선정,임상시험 디자인,유효성 평가기준 및 평가방법 등 세부적인 임상시험 설계방법은 「인공지능 의료기기의 허가·심사 가이드라인(민원인 안내서)」의 ‘3.임상적 유효성 확인’과 「인공지능 의료기기 임상시험방법 설계 가이드라인(민원인 안내서)」을 적용할 수 있다[18].생성형 인공지능 의료기기 중 적응증이 다양하고 새로운 질환을 찾도록 정보를 생성해주는 경우 임상시험 소요 시간 및 비용 등 임상시험설계에 어려움이 있을 수 있다.다양한 적응증을 표방하는 생성형 인공지능에 대한 대표적인 평가예시로 [표 6]과 같이 의료인들에 의한 임상평가가 있다.5점의 점수 척도(①A,②B,③C,➃D,➄E)로 구성된 일반적인 정성적 점수 체계를이용하여 평가할 수도 있으며,이러한 평가방법을 통하여 의료영상(X-Ray,CT등)에서 여러 질환을 검출·진단하여 판독문을 생성하는 생성형 인공지능 의료기기의 판독 불일치 평가에 다음과 같은 예시처럼적용할 수 있다. - 26 - [표6.임상평가를위한점수체계예시] 충분한 숫자의 증례에 대해 이러한 점수 체계를 이용해 평가한 후 적합 판정을 받은 비율이 얼마나 되는지 등을 확인하며,적합 판정 비율에 대한 판단기준은 인공지능 의료기기의 사용목적,환경,대상환자,사용자 등 개별 임상상황을 고려하여 정한다.이때,평가를 진행하는 전문가 집단은 의료기기의 적응증과 임상시험목적 등에 적합한 전공과 경력을 갖춘 복수의 임상의로 구성되는 등 타당성이 확보되어야 하며,일부 임상상황에는 E처럼 낮은 점수가 발생하는 것이 허용되지 않을 수도 있다. 점수의 미 판정A 오류가 없음적합B 비 임상적 사항에 대한 오류만 있음적합C오류가 있으나 임상적으로 유의할 가능성이 낮음(unlikely to be clinically significant)적합또는부적합D오류가 있으며 임상적으로 유의할 가능성이 높음(likely to be clinically significant)부적합E오류가 있으며 환자에게 상당한 위해를 가할 가능성이 높음(likely to cause significant patient harm)부적합 ※ ‘C’는 인공지능 의료기기의 사용목적, 환경, 대상환자, 사용자 등 개별적 임상상황을 고려하여 적합 또는 부적합으로 고려될 수 있음 - 27 - 다른 평가방법으로는 의료인들에 의해 평가하는라드피어 점수 체계(RADPEERScoringSystem)와 같은 평가도구를 이용하여 임상적 유효성을검증할 수 있다.라드피어 점수 체계(RADPEERScoringSystem)는 미국영상의학회(AmericanCollegeofRadiology,ACR)에서 개발한 동료 평가 방법으로,영상의학과 전문의들의 영상 판독문 작성의 적절성을 평가하고 개선하기 위해 사용하고 있다[19-22].[표 7]과 같이 3점의 점수 척도(①판독에 동의,②이해할 수 있는 실수 수준의 판독상 불일치,③대부분 판독되어야 하는 소견의 판독상 불일치)로 구성되어 있으며,의료영상(X-Ray,CT등)에서 여러 질환을 검출·진단하여 판독문을 생성하는 생성형 인공지능 의료기기의 판독 불일치 평가에 적용할 수 있다.예를 들어,생성형 인공지능 의료기기로부터 나온 판독 결과와 임상의의 판독 결과를 비교하고자 하는 경우,전문가 집단이 라드피어 점수 체계에 따라 각 판독 결과를 평가하고 의료기기와 임상의의 판독 불일치도 등을 확인할 수 있다.[표7.라드피어점수체계(2016)]점수의미선택사항1판독에 동의2판독상의 불일치/일반적으로 예상되지 않는 소견 (이해할 수 있는 실수)a. 임상적으로 유의할 가능성이 낮음b. 임상적으로 유의할 가능성이 높음 - 28 - 생성형 인공지능 의료기기의 경우 ‘Ⅲ.생성형 인공지능 의료기기의 위험관리’의 [표 2]에 따라 환각(Hallucination),일관성이 없음(Inconsistency),연관성이 없음(Irrelevancy)등의 위해요인이 있을 수 있으며,필요한 경우 임상시험을 통해 부가적으로 이러한 위해요인을 평가할 수도 있다.또한,허가 이후에도 제품의 잠재적 이익 또는 위험성을 모니터링하기 위한 목적으로 실제 임상환경에서의 실사용데이터(RWD)를 수집·활용한 실사용증거(RWE)자료(※「의료기기 실사용증거(RWE)작용에 대한 가이드라인(민원인 안내서)」참조)를 마련하고 주기적으로 임상적 성능 검증을 수행할 것으로 권고한다[23]. 3판독상의 불일치/대부분의 경우 판독되어야 하는 소견a. 임상적으로 유의할 가능성이 낮음b. 임상적으로 유의할 가능성이 높음 - 29 - Ⅴ 참고문헌 1.OntheOpportunitiesandRisksofFoundationModels,R.Bommasani외(2021)2.GenerativeAIinMedicineandHealthcare:Promises,OpportunitiesandChallenges,P.ZhangandM.Boulos(2023)3.GenerativeAI,S.Feuerriegel,J.Hartmann,C.JanieschandP.Zschech(2023)4.LargeLanguageModelsinMedicine,A.Thirunavukarasu,D.Ting,K.Elangovan,L.Gutierrez,T.TanandD.Ting(2023)5.MachineLearningAIinMedicalDevices:AdaptingRegulatoryFrameworksandStandardstoEnsureSafetyandPerformance,AAMI(2020)6.ChallengesandProposedAdditionalConsiderationsforMedicalDeviceApprovalofLargeLanguageModelsBeyondConventionalAI,S.H.ParkandN.Kim(2024)7.디지털의료제품법,법률 제20139호,식품의약품안전처(2024)8.HowtoSafelyIntegrateLargeLanguageModelsIntoHealthCare,S.GottliebandL.Silvis(2023)9.HowtoRegulateGenerativeAIinHealthCare,D.BlumenthalandB.Patel(2024)10.ExecutiveOrderontheSafe,Secure,andTrustworthyDevelopmentandUseofArtificialIntelligence,TheWhiteHouse(2023)11.AAMITIR34971:2023ApplicationofISO14971toMachineLearninginArtificialIntelligence-Guide,AAMI(2023)12.의료기기 소프트웨어 허가·심사 가이드라인(민원인 안내서),식품의약품안전처(2023)13.독립형 디지털의료기기 소프트웨어 사용적합성 허가·심사 가이드라인(민원인 안내서),식품의약품안전처(2025) - 30 - 14.의료기기의 사이버보안 허가·심사 가이드라인(민원인 안내서),식품의약품안전처(2025)15.챗GPT등 생성형 AI활용 보안 가이드라인,국가사이버보안센터(2023)16.인공지능 의료기기 허가·심사 가이드라인(민원인 안내서),식품의약품안전처(2022)17.GREEN:GenerativeRadiologyReportEvaluationandErrorNotation,S.Ostmeier외(2024)18.인공지능 의료기기 임상시험방법 설계 가이드라인(민원인 안내서),식품의약품안전처(2022)19.Pre-trainedMultimodalLargeLanguageModelEnhanceDermatologicalDiagnosisUsingSkinGPT-4,J.Zhou외(2024)20.UnderstandingRadiologyDiscrepancies:ACaseCross-SectionalCTStudyinaTertiaryCareSetting,V.Vijayakumar외(2024)21.Forty-OneMillionRADPEERReviewsLater:WhatWeHaveLearnedandAreStillLearning,H.Chaudhry외(2019)22.ApplicationoftheRADPEERScoringLanguagetoInterpretationDiscrepanciesBetweenDiagnosticRadiologyResidentsandFacultyRadiologists,E.Maloney외(2012)23.의료기기 실사용증거(RWE)작용에 대한 가이드라인(민원인 안내서),식품의약품안전처(2023) [전문가협의체 위원]연 번소속직위성명비고1분당서울대병원교수김헌민의료계2서울아산병원교수박성호3 인하대학교교수이로운4차의과학대학교교수한현욱5서울아산병원교수김남국학계6분당서울대병원교수이충근7성균관대학교교수정규환8㈜메디컬에이아이대표권준명 산업계 9 ㈜슈파스대표김용환10㈜루닛RA부서장김윤진11㈜카카오헬스케어팀장박현배12㈜숨빗에이아이대표배웅13네이버클라우드㈜리더유한주14㈜디지털헬스케어파트너스대표최윤섭15㈜아보엠디코리아부사장허수정 16㈜딥노이드연구소장현지훈 생성형인공지능의료기기허가·심사가이드라인(민원인안내서)발 행 처 식품의약품안전처 식품의약품안전평가원발 행 일 2025년 1월 24일발 행 인강석연편 집 위 원 장 노혜원편 집 위 원강영규, 신희정, 서혁준, 한영민, 배영우, 김미선, 김현수, 전상우, 서지원, 김종엽, 조예진, 김병남, 이진수, 김기나 문 의 처우) 28159충북 청주시 흥덕구 오송읍 오송생명2로 187 의료기기심사부 디지털헬스규제지원과전화: 043-719-3948, 3988팩스: 043-719-3940 (우)28159충북 청주시 흥덕구 오송읍 오송생명2로 187오송보건의료행정타운 식품의약품안전처 식품의약품안전평가원 의료기기심사부 디지털헬스규제지원과TEL:043)719-3948,3988FAX:043)719-3940http://www.mfds.go.kr/medicaldevice [부패·공익신고안내]※신고자및신고내용은보호됩니다.‣식약처홈페이지“국민소통>신고센터>부패·공익신고상담”코너

Full text