原始文章

這篇系統性回顧評估大型語言模型(LLMs)在醫療考試問題上的準確性,並與人類標準比較。回顧納入截至2023年9月10日的英文研究,最終選出32篇符合標準的研究。結果顯示,LLMs的整體準確性為0.61,而美國醫學執照考試(USMLE)為0.51。特別是ChatGPT的準確性達到0.64。研究建議LLMs可協助解決醫療需求,並提出RUBRICC框架,以確保在健康服務中優先考量病人安全與有效性。 PubMed DOI


站上相關主題文章列表

人工智慧如ChatGPT等模型正在改革醫療領域。ChatGPT能生成類似人類文本,有助於改善醫療實踐、患者護理,促進醫患互動。在疫情管理中,ChatGPT傳遞重要信息至關重要。它可協助外科諮詢、簡化醫學教育,並協助疾病診斷。研究指出ChatGPT在醫療保健領域的應用、限制、挑戰,顯示其對創新及學術研究的潛力。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了ChatGPT模型(ChatGPT-3.5和GPT-4)在醫學、藥學、牙醫學和護理學的健康執照考試表現。分析了23項研究後發現,ChatGPT-3.5的準確率介於36%到77%,而GPT-4則在64.4%到100%之間,整體準確率為70.1%。GPT-4的表現優於ChatGPT-3.5,藥學的準確率最高,其次是醫學、牙醫學和護理學。研究指出問題集範圍狹窄及研究間變異性大,建議未來需進一步研究以擴展問題類型及提升AI模型。 PubMed DOI

這項研究透過文獻分析,評估大型語言模型(LLMs)在眼科考試問題上的準確性。研究於2024年3月進行,納入14項研究,主要測試ChatGPT-3.5、ChatGPT-4、Bard和Bing Chat等模型。結果顯示,LLMs的整體準確率為0.65,其中ChatGPT-4表現最佳(0.74),而ChatGPT-3.5最低(0.52)。在不同主題中,「病理學」表現最佳(0.78),而「眼科的基本原則」最弱(0.52)。研究建議未來應加入影像問題,以更全面評估LLMs的能力。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI