原始文章

這項系統性回顧比較了症狀評估應用程式(SAAs)和大型語言模型(LLMs)在自我分診準確性上的表現。從1549項研究中篩選出19項進行分析。結果顯示,SAAs的準確性中等但變異性大(11.5-90.0%),LLMs的準確性也中等(57.8-76.0%),變異性較低;一般人的準確性同樣中等(47.3-62.4%)。結論是,SAAs和LLMs不應被普遍推薦或反對,應根據具體情境和使用者特徵來評估其有效性。 PubMed DOI


站上相關主題文章列表

這項研究評估了AI語言模型GPT-3在診斷和分診的表現,並與一般人和醫生進行比較,使用了48個醫療案例。結果顯示,GPT-3在88%的案例中準確診斷,優於一般人(54%),但低於醫生(96%)。在分診準確性方面,GPT-3達70%,接近一般人(74%),但仍低於醫生(91%)。雖然GPT-3對預測的信心合理,但在急迫案例中準確性下降,偶爾會將緊急案例降為次要。總體而言,GPT-3的診斷表現不錯,但分診效果仍不如醫生。 PubMed DOI

這項研究指出,使用臨床醫師撰寫的標準案例小品來評估症狀評估應用程式(SAAs)存在限制。研究提出了一種新方法,稱為RepVig框架,透過真實的線上病患互動來抽取案例小品,更能反映實際的自我分診情況。結果顯示,這些具代表性的案例小品能提升準確性與安全性,並且在一般民眾及大型語言模型(如GPT-4和Claude)中,過度分診的傾向也較高。研究建議應用這種更具情境相關性的抽樣方法來評估SAAs。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在處理眼科緊急情況的表現,並與英國國民健康服務(NHS)111的系統進行比較。研究涵蓋21個緊急情境問題,測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示,93%的LLM回應至少得分為「良好」,顯示它們提供的資訊正確且無重大錯誤。整體來看,這些模型在提供即時資訊和指導方面,顯示出作為有效工具的潛力,能提升患者護理及醫療可及性。 PubMed DOI

大型語言模型(LLMs)在臨床實踐中有潛力提升病人教育與賦權,提供更個人化的醫療服務。然而,目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究,主要集中於GPT-3.5和GPT-4,應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制,包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

慢性病是全球主要死因,LLMs(像ChatGPT)在管理慢性病上有潛力,能提供準確、易懂的健康建議,幫助病人自我管理和獲得支持。專業型LLMs表現更好,但目前證據有限,還有隱私、語言和診斷等挑戰。臨床應用還在初期,未來需加強資料安全、專業化和與穿戴裝置整合。 PubMed DOI

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究,發現LLM診斷準確率雖不錯,但多數研究有偏誤,且準確度還不及醫師。不過,若小心運用,未來LLM有望成為醫療智慧助理。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這項研究發現,規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上,都比大型語言模型(LLaMA2-13B、LLaMA3-8B)表現更好。不過,LLMs 在某些情境下也有優勢。整體來說,LLMs 在公平性和泛化能力上還有待加強,未來需提升訓練資料和標註品質。 PubMed DOI