原始文章

這項系統性回顧比較了症狀評估應用程式(SAAs)和大型語言模型(LLMs)在自我分診準確性上的表現。從1549項研究中篩選出19項進行分析。結果顯示,SAAs的準確性中等但變異性大(11.5-90.0%),LLMs的準確性也中等(57.8-76.0%),變異性較低;一般人的準確性同樣中等(47.3-62.4%)。結論是,SAAs和LLMs不應被普遍推薦或反對,應根據具體情境和使用者特徵來評估其有效性。 PubMed DOI


站上相關主題文章列表

研究比較了不同診斷支援系統在緊急醫療情況下的表現,包括ChatGPT 3.5和4.0、WebMD症狀檢查器,以及Ada Health的系統。結果顯示ChatGPT 3.5準確但分類不穩,ChatGPT 4.0準確度較低但分類較穩。Ada和WebMD表現較好。建議在未監督情況下謹慎使用ChatGPT進行診斷,需改進分類和臨床評估。 PubMed DOI

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異,準確率高達89%,比起人類分類更準確。LLM表現與部分醫師評審相當,顯示將其整合到緊急室工作流程可能有助於改善分流流程,並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

這篇系統性回顧評估大型語言模型(LLMs)在醫療考試問題上的準確性,並與人類標準比較。回顧納入截至2023年9月10日的英文研究,最終選出32篇符合標準的研究。結果顯示,LLMs的整體準確性為0.61,而美國醫學執照考試(USMLE)為0.51。特別是ChatGPT的準確性達到0.64。研究建議LLMs可協助解決醫療需求,並提出RUBRICC框架,以確保在健康服務中優先考量病人安全與有效性。 PubMed DOI

這項研究評估了GPT-4在急診病人分診中所給的緊急嚴重指數(ESI)分數的準確性,並與經驗豐富的醫護人員進行比較。研究涵蓋100名急診病人,結果顯示GPT-4的中位數ESI分數為2.0,而人類評估者為3.0,顯示出顯著差異(p < 0.001),顯示GPT-4可能低估病人嚴重程度。雖然GPT-4提供了新方法,但其低估的傾向顯示在臨床應用中需進一步調整,強調謹慎整合AI技術的重要性。 PubMed DOI

針對大型語言模型(LLM)在回答感染預防問題的準確性和完整性進行的調查顯示,這些模型的準確率高達98.9%,完整性為94.6%。這顯示它們在這個領域的問題上是可靠的資源。研究結果指出,LLM可能成為感染預防諮詢的有價值補充,值得進一步探討在醫療環境中的應用,能增強決策能力,並為醫療專業人員提供額外支持。 PubMed DOI

最近大型語言模型(LLMs)在臨床推理方面的進展顯示出其在緊急醫療服務(EMS)中分診病人的潛力。一項研究測試了ChatGPT 4o Mini在美國某大城市的真實數據中,優先處理救護車請求的能力。結果顯示,該模型與經驗豐富的救護員意見一致的比例達76.5%,而在救護員達成共識的情況下,這一比例高達93.8%。這些發現顯示LLMs在緊急護理中可能成為有價值的工具,但仍需進一步研究以確定最佳應用方式。 PubMed DOI

這項研究指出,使用臨床醫師撰寫的標準案例小品來評估症狀評估應用程式(SAAs)存在限制。研究提出了一種新方法,稱為RepVig框架,透過真實的線上病患互動來抽取案例小品,更能反映實際的自我分診情況。結果顯示,這些具代表性的案例小品能提升準確性與安全性,並且在一般民眾及大型語言模型(如GPT-4和Claude)中,過度分診的傾向也較高。研究建議應用這種更具情境相關性的抽樣方法來評估SAAs。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI