病理圖像人工智能分析軟件臨床評價審評要點(2023年第23號)旨在指導注冊申請人對病理圖像人工智能分析軟件臨床評價注冊申報資料的準備及撰寫,同時也為技術審評部門提供參考。本審評要點是對病理圖像人工智能分析軟件的一般要求,申請人應依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由并提供相應的科學依據,同時依據產品的具體特性對注冊申報資料的內容進行充實和細化。
病理圖像人工智能分析軟件臨床評價審評要點
本審評要點旨在指導注冊申請人對病理圖像人工智能分析軟件臨床評價注冊申報資料的準備及撰寫,同時也為技術審評部門提供參考。
本審評要點是對病理圖像人工智能分析軟件的一般要求,申請人應依據產品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由并提供相應的科學依據,同時依據產品的具體特性對注冊申報資料的內容進行充實和細化。
本審評要點是供注冊申請人和技術審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,應在遵循相關法規的前提下使用本審評要點。如果有能夠滿足相關法規要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。
本審評要點是在現行法規和標準體系以及當前認知水平下制定,隨著法規和標準的不斷完善,以及科學技術的不斷發展,相關內容也將適時進行調整。
一、適用范圍
病理圖像人工智能分析軟件是指基于數字病理圖像,采用深度學習等人工智能技術實現對病理圖像的分割、檢測等功能的醫療器械。數字病理圖像包括經數據成像設備獲得的顯微鏡下細胞或組織圖像、全玻片數字掃描技術(Whole Slide Imaging, WSI)的病理圖像等。產品在醫療機構和/或醫學實驗室使用,可輔助病理醫師為疾病的診斷、預后、治療等提供信息,不能作為臨床診斷決策的唯一依據。
本審評要點基于全玻片數字掃描技術( whole slide imaging,WSI)的病理圖像人工智能分析軟件產品臨床評價進行闡述,用于經數據成像設備獲得的顯微鏡下細胞或組織圖像分析的相關產品臨床評價可以適當參考本審評要點。
二、臨床評價路徑
病理圖像人工智能分析軟件臨床評價應符合《醫療器械臨床評價技術指導原則》要求。影響該軟件性能因素包括核心算法、算法訓練等多個方面。針對兩個不同的分析軟件,即使采用的核心算法相同,但是,不同的分析軟件在算法訓練過程中使用的訓練集不同,不同訓練集的標注可能存在差異,因此,針對該類產品臨床性能的確認應采用臨床試驗的方式,不適合采用同品種比對的方式。
三、臨床試驗
在開展醫療器械臨床試驗之前,病理圖像人工智能分析軟件產品應完成產品開發,確保產品已經定型。基于該類產品的特點,產品在開發過程中需采用滿足要求的數據對算法進行訓練,在算法訓練過程中,應保證訓練集數據標注的質量以及訓練集具有足夠樣本量,確保經過訓練的軟件在臨床前研究中性能穩定。在軟件開發過程中,有時存在算法調優的情況。需要注意的是,用于開展臨床試驗的產品必須為完成算法訓練及調優的產品。產品臨床試驗啟動后不能對算法進行訓練或調優。產品應進行充分的臨床前研究,以保證產品臨床試驗過程中,不會對受試者產生額外的傷害。
1.臨床試驗機構
考慮到病理圖像判讀容易在機構和閱片醫師間產生差異,產品臨床試驗建議采用多中心臨床進行,臨床試驗機構數量建議不少于3家。臨床試驗機構應獲得國家藥品監督管理局備案認可。臨床試驗機構應具有嚴格的質量管理體系,執行實驗室內部日常質量控制。
臨床試驗建議選擇具有相關學科優勢的臨床試驗機構。臨床試驗中應根據試驗設計設定不同資歷的病理醫師參與試驗,病理醫師資歷劃分應合理。
2.臨床試驗目的
產品臨床試驗應該能夠充確認產品臨床性能,證明產品能夠實現其宣稱的預期用途。病理圖像人工智能分析軟件的臨床應用,應對病理醫師的診療活動有所獲益,如:提高病理醫師診斷準確性,提高病理醫師閱片重現性,縮短病理醫師閱片時間等。臨床試驗應確認主要評價指標的優效性。
3.臨床試驗設計
根據產品特點和產品性能評價需要,病理圖像人工智能分析軟件臨床試驗可能包括不同的臨床試驗目的,有必要針對各個臨床試驗目的,分別進行科學的臨床試驗設計,包括選擇適當的臨床試驗設計類型。本審評要點以提高病理醫師診斷準確性或縮短閱片時間為例,進行臨床試驗設計闡述。
此類產品臨床試驗一般需考慮開展對照研究,對照研究有多種設計方法,根據產品特征及臨床試驗實際,可選擇多閱片者多數據樣本(multiple reader multiple case,MRMC)、隨機交叉自身對照等試驗設計。如臨床試驗采用其他設計,在闡明設計科學合理的前提下,也可用于評價產品臨床性能。以下僅詳細闡述多閱片者多數據樣本(multiple reader multiple case,MRMC)、隨機交叉自身對照兩種設計。
3.1多閱片者多數據樣本(multiple reader multiple case,MRMC)設計
如采用此種設計,整個臨床試驗由協調研究者組織,各臨床試驗機構閱片者整體進行分組,各臨床試驗機構入組的病例共同組成分析集。臨床試驗將參與的閱片者分為兩組。兩組病理醫師分別在軟件的輔助下及未使用軟件的情況下對入組的病理圖像(或病理切片)進行判讀,判讀結果以臨床參考標準為準,分別評價軟件輔助下及未使用軟件的情況下病理醫師診斷準確性。
試驗過程分為兩個階段,第一組病理醫師第一階段在使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在不使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀。第二組醫師第一階段在不使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在使用軟件輔助的條件下完成所有病理圖像(或病理切片)的判讀。該試驗中醫師使用軟件輔助的判讀結果作為試驗組,不使用軟件輔助判讀的結果作為對照組,比較試驗組與對照組同臨床參考標準對比病理圖像(或病理切片)判讀的準確度。閱片過程中每名醫師需分別在使用軟件和不使用軟件的條件下都完成所有入組病理圖像(或病理切片)的閱片。
3.2隨機交叉自身對照設計
該設計應在每家臨床試驗機構單獨開展,臨床試驗協調研究者最終將各機構數據匯總統計。每家臨床試驗機構由資質滿足要求的研究者參與。臨床試驗過程中研究者開展兩個階段工作,一是,研究者使用軟件對病理圖像(或病理切片)進行判讀,二是,上述研究者未使用軟件分別對入組的病理圖像(或病理切片)進行判讀。判讀結果以臨床參考標準為準,分別評價軟件輔助下及未使用軟件的情況下病理醫師診斷準確性。
試驗過程將入組的病理圖像(或病理切片)隨機平均分為兩組,臨床試驗分為兩個階段,第一階段病理醫師在使用軟件輔助的條件下完第一組病理圖像(或病理切片)的判讀,同時在不使用軟件輔助的條件下完成第二組病理圖像(或病理切片)的判讀;經一定的洗脫期后,第二階段在不使用軟件輔助的條件下完成第一組病理圖像(或病理切片)的判讀,同時在使用軟件輔助的條件下完第二組病理圖像(或病理切片)的判讀。該試驗中醫師使用軟件輔助的判讀結果作為試驗組,不使用軟件輔助判讀的結果作為對照組,比較試驗組與對照組同臨床參考標準對比,病理圖像(或病理切片)判讀的準確度。閱片過程中每名醫師需分別在使用軟件和不使用軟件的條件下都完成所有入組病例圖像的閱片。
4.臨床試驗參考標準
臨床參考標準是指現有條件下臨床上可獲得的能夠用來確定受試者目標狀態的最佳方法,通常來自臨床和實驗室的醫學實踐,包括:現有條件下公認的、可靠的、權威的疾病診斷標準(如組織病理學檢查、影像學檢查、病原體分離培養鑒定、長期隨訪所得的結論等),疾病診療指南中明確的疾病診斷方法,行業內專家共識推薦的或臨床上公認的、合理的參考方法等。臨床參考標準可能是一種方法,也可能是多種方法相結合。
如根據產品臨床試驗要求,臨床試驗過程中需要以病理閱片結果作為參考標準。一般而言,病理閱片的參考標準為多位具有資深經驗的病理醫師組成的病理醫師專家組共同對病理切片進行判讀的結果,專家組中病理醫師的數量一般不少于3人。參考標準應明確病理結果判定的決策機制,特別是針對專家組中不同病理醫師判讀結果存在差異的情況下,應明確后續的處理措施及最終結果確定的依據。
5.臨床試驗入組人群
病理圖像人工智能分析軟件臨床研究入組的受試者應為產品預期適用人群。受試者應具有代表性,如針對腫瘤輔助診斷的產品,入組的受試者應包括各種組織類型、不同的腫瘤分級、分期以及相關良性疾病、其他易混淆、干擾病例等。
為了更加科學的評價產品性能,臨床試驗應包含部分病理醫師難以診斷的病例及陽性閾值臨近范圍內的病例。
根據產品評價要求,臨床試驗入組的病例應與算法訓練及調優的病例不同。
6.臨床評價指標
針對定性分析,臨床試驗評價指標特別是主要評價指標應根據臨床試驗目的及設計確定。臨床試驗主要評價指標為使用軟件的病理醫師與未使用軟件的病理醫師閱片與臨床參考標準對比的陽性一致率、陰性一致率;使用軟件的病理醫師與未使用軟件的病理醫師閱片效率;軟件獨立閱片與臨床參考標準的陽性一致率、陰性一致率等。
針對半定量/定量分析,臨床試驗應設置合理的評價指標如等級符合率、回歸分析的回歸系數、截距、相關系數和決定系數等。
臨床試驗應考慮整體的優效性評價,以定性分析為例,如:使用軟件的病理醫師與未使用軟件的病理醫師閱片同臨床參考標準對比的陽性一致率或陰性一致率的有效性;或者確保使用軟件的病理醫師與未使用軟件的病理醫師閱片同臨床參考標準對比的陽性一致率和陰性一致率的優效或非劣效前提下,閱片效率的優效性。
7.樣本量估算
樣本量一般根據臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關要素及其確定依據、樣本量的具體計算方法。
7.1確認軟件提高閱片準確性的樣本量估算
該類產品臨床試驗的主要評價指標為使用軟件作為輔助的病理醫師與未使用軟件的病理醫師在閱片準確性方面的差異。軟件輔助病理醫師閱片準確性與病理醫師單獨閱片相比,準確性具有顯著提升,軟件的臨床意義才能被確認。因此,建議采用優效性模型或優效性模型與非劣效性模型結合進行樣本量估算。
以定性產品為例,臨床試驗應根據陽性一致率估算陽性病例數量,根據陰性一致率估算陰性病例數量。臨床試驗可針對陽性一致率、陰性一致率均采用優效性模型進行樣本量估算;也可選擇其中一個指標采用優效性模型進行樣本量估算,另一個指標采用非劣效性模型進行樣本量估算。
7.2確認軟件縮短閱片時間的樣本量估算
該類產品臨床試驗的主要評價指標為使用軟件作為輔助的病理醫師與未使用軟件的病理醫師在閱片時間等方面的差異。軟件輔助病理醫師閱片時間與病理醫師單獨閱片相比,閱片效率具有顯著提升,同時,軟件輔助病理醫師閱片與病理醫師單獨閱片相比,閱片準確性應無顯著差異,軟件的臨床意義才能被確認。因此,建議針對閱片時間的評價采用優效性模型進行樣本量估算,同時針對陽性一致率和陰性一致率采用非劣效性模型或優效性模型進行樣本量估算,臨床試驗樣本量應能夠同時滿足上述要求。
臨床試驗樣本量估算還應考慮主要評價指標有臨床實際意義的界值、主要評價指標的相關參數(如預期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。針對確認軟件縮短閱片時間的樣本量估算,應確保總研究的Ⅱ類錯誤概率β設定不大于0.2。
若采用MRMC的試驗設計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法),并進一步明確受試醫師數量,顯著性α、把握度1-β、預計效應值,優效/非劣效界值,其中預計效應值可通過預試驗或調研并匯總分析目標病例檢出的診斷學研究文獻獲得。
8.統計分析
臨床試驗應采用合理的方式進行統計分析。以定性產品為例,臨床試驗中針對軟件作為輔助的病理醫師、未使用軟件的病理醫師、分析軟件閱片的準確性進行統計分析,應分別以臨床參考標準為對照,以2×2表的形式統計閱片結果的陽性一致率、陰性一致率及總一致率。同時針對二者的陽性一致率、陰性一致率及總一致率分別按照要求進行假設檢驗或區間分析。
確認軟件縮短閱片時間的臨床試驗還應針對閱片效率進行統計分析。
9.偏倚控制
為了控制臨床試驗的偏倚,研究過程中應針對病例/切片應進行設盲,使研究者在試驗過程中不知曉受試者疾病診斷或其他相關檢測等信息,從而避免引入偏倚。
臨床試驗涉及同一個病理醫師兩次閱片的情況,病理醫師在進行下一次閱片時應保留一段時間的記憶清除期(脫敏期),此段時間一般不少于兩周。每次閱片時建議人為納入一定數量的不同的干擾病例。干擾病例應同時具有陽性和陰性病例,將干擾病例混入分析組中,使研究者同時針對分析組中的病例及干擾病例進行操作,但干擾病例結果不納入統計分析。
針對適用于顯微鏡下組織或細胞圖像的產品,臨床試驗過程中應注意,臨床試驗開展過程應與產品臨床應用過程相符,即同一研究者參與顯微鏡下圖像的選擇與結果判讀全過程。
10.質量控制
臨床試驗開始前,應進行相關培訓,以確保研究者熟悉并掌握相關試驗方法,最大限度控制試驗誤差。整個試驗過程都應處于有效的質量控制下,最大限度保證試驗數據的準確性及可重復性。
臨床試驗應嚴格按照產品說明書進行操作,應根據相關要求進行必要的HE染色,應設置合理對照。
四、關于配套使用產品的要求
產品臨床試驗應明確配合使用的檢測試劑及圖像采集設備。產品配合使用的檢測試劑及圖像采集設備應固定,且與產品臨床前研究一致。
臨床試驗過程中軟件運行環境如:運行所需的硬件配置、軟件環境和網絡條件應與產品臨床前研究一致。其中硬件配置包括處理器、存儲器和外設器件,軟件環境包括系統軟件、支持軟件和安全軟件,網絡條件包括網絡架構(BS、CS)、網絡類型(廣域網、局域網、個域網)和帶寬。
五、產品適用范圍
病理圖像人工智能分析軟件僅在醫療機構與配套的檢測檢測試劑、病理圖像掃描儀配合使用。適用于病理檢測過程中對病理圖像的輔助識別,輔助病理人員識別出目標切片。本產品不單獨用于病理診斷,不單獨作為臨床診療決策依據,所有經軟件判讀的樣本最終結果需要醫師確認。該產品經培訓合格的醫師使用。圖像采集由指定型號的顯微鏡或圖像采集設備,并經培訓合格的人員對圖像質量進行認可。
六、參考文獻
[1] 原國家食品藥品監督管理局.醫療器械臨床試驗設計指導原則:食品藥品監管總局通告2018年第6號[Z].(2018-01-04)[2021-05-01].https://www.cmde.org.cn/CL0058/6
882.html.
[2] Xiao-Hua Zhou,Nancy A.Obuchowski,Donna K.McClish. 診斷醫學中的統計學方法(第二版) [M].北京:高等教育出版社,2016。
[3] 李衛.醫療器械臨床試驗統計方法(第二版) [M].北京:科學出版社,2016。