バイエル画像検査室
AI医療推進室
画像診断⽀援AIソフトウェアの性能評価
画像診断⽀援や読影⽀援のためのAI製品の導⼊を検討しているのですが、感度や特異度で性能を評価することはできますか?
客観的な性能評価の指標として参考にはなると思います。ただし、感度や特異度のみで性能を評価する際には前提条件に注意が必要です。
画像診断⽀援AIには、肺野部や縦隔部に対して読影時に有益となるROI(関⼼領域)を表⽰するものや、そのROIを疾患候補であるとして表現できるもの、また、ROI内の対象物に対しての体積や、過去検査と⽐較した体積倍加時間などの付加情報を表⽰できるものなど、ソフトウェアによって機能や特徴に違いがあります。
今回は、ROI表⽰機能に関して、感度と特異度による性能評価を⾏う際の注意点についてお話しします。
(画像診断AIソフトウェアにおける感度と特異度の解説については、前回の記事を参照ください。)
感度による性能評価の注意点
画像診断⽀援AIにおける性能を感度で評価する際には、それが症例単位での感度なのか、画像所⾒単位での感度なのかを理解しておく必要があります。⾔い換えると、画像所⾒の位置は関係なく画像所⾒が有ると指摘できたことを評価しているのか、画像所⾒の位置までも指摘できたことを評価しているのか、ということです。
症例単位で感度を求める場合
画像所⾒ありと認められる画像に対して、AIがROIを表⽰した確率(真陽性/(真陽性+偽陰性))が感度となります。
例えば、図1にように1つの画像所⾒が認められる画像に対してAIがROI表⽰をした場合、真陽性(正しくAIが指摘できた)となります。ただし、その画像の中の所⾒が無い部分に対してAIが誤ってROIを表⽰した場合にも、統計的には真陽性として分類される可能性がある点に注意が必要です。
画像所⾒単位で感度を求める場合
AIがROIを表⽰した場所と、画像所⾒ありと認められた場所が⼀致することで初めて真陽性と分類されます。
図1の例を画像所⾒単位で考えた場合は、本来の所⾒が有る場所にROIが表⽰されていないことから偽陰性として分類されます。
図1 所⾒とは異なる位置にROIを表⽰した例
同じ画像を⽤いた場合でも、どういった評価⽅法を取るかによってこのように真陽性や偽陰性の認識が異なることから、感度という評価指標が持つ意味合いも⼤きく変わってきます。従って、感度の⾼低で画像診断⽀援AIソフトウェアの性能を評価する際にはどういった評価⽅法を⽤いているかについても確認しておく必要があるといえます。
特異度による性能評価の注意点
画像診断⽀援AIにおいて、特異度による評価それ⾃体にも注意が必要です。ある症例において、病変があるのかないのかを判定する、といったいわゆるクラスを分類する様なソフトウェアにおいては、特異度による評価は⼀般的であると考えられます。しかし、画像中から画像所⾒がある場所を指摘することを⽬的としたROI表⽰機能の評価において、何をもって真陰性と識別するのかの定義が難しく、特異度という数値⾃⾝を評価指標として⽤いるのはハードルが⾼いと⾔えます。
その他の注意点
またどのような評価指標を参照する場合においても、検証に⽤いられるテストデータによって求められる結果が良くも悪くも変わってしまうことは念頭においておく必要があります。そのAIにとって難易度が低い症例ばかりを(故意ではないとしても)集めて検証を⾏うと、検証結果は良くなるということは⾔うまでもありません。
このように、論⽂などで公表されている感度や特異度を⽐較して、画像診断⽀援AIソフトウェアの評価を⾏うためには、その結果に⾄るまでのバックグラウンドまでしっかりと理解することが重要なのです。
1. 「次世代医療機器評価指標の公表について 別紙4 ⼈⼯知能技術を利⽤した医⽤画像診 断⽀援システムに関する評価指標」(令和元年5⽉23⽇付け薬⽣機審発0523第2号)
2. 「平成30年度次世代医療機器・再⽣医療等製品評価指標作成事業 ⼈⼯知能分野 審査 WG 報告書」(平成31年3⽉国⽴医薬品⾷品衛⽣研究所)
実際に導⼊された後に使⽤される環境を想定して、適切に選別されたテストデータを⽤いて評価を⾏うことが最も確実ということですね。