原始文章

紅隊測試對於識別和解決大型語言模型在醫療領域的意外行為非常重要,因為這可能影響病人的安全與公平性。在一項針對80名臨床醫生和技術專業人員的研究中,我們測試了GPT-3.5和GPT-4.0等模型,發現376個提示中有20.1%的回應不當。GPT-3.5的不當回應率為25.8%,而GPT-4.0為16%。值得注意的是,GPT-3.5中21.5%被認為適當的回應,在更新模型中卻被視為不當。這強調了持續進行紅隊測試的重要性,以確保醫療應用的安全性、準確性和公平性。 PubMed DOI


站上相關主題文章列表

最近生成式人工智慧的進展,特別是像ChatGPT這類工具,顯示出在醫療保健中提升決策支持、教育和病人參與的潛力。不過,必須進行徹底評估以確保其臨床使用的可靠性和安全性。2023年的一項回顧分析了41篇學術研究,強調了ChatGPT在醫學領域的有效性,並指出其表現因專科和語言環境而異。雖然展現了潛力,但仍需克服一些挑戰。總體而言,持續改進對於成功整合至醫療保健至關重要,以改善病人護理結果。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究比較了大型語言模型(如GPT-3.5和GPT-4)與傳統機器學習方法(如梯度提升樹)在使用電子健康紀錄預測臨床結果的效果。結果顯示,傳統機器學習在預測性能和模型校準上均優於大型語言模型,且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳,但其預測性能卻有所下降。總體來看,傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試,但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現,結果顯示其正確率僅31%,且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確,但整體表現未達及格標準。研究強調了LLMs的局限性,並呼籲需建立更全面的自我診斷數據集,以提升其在醫療中的可靠性。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫學領域的應用潛力巨大,但也帶來了準確性和可靠性的挑戰。研究顯示,LLMs能提供正確的疾病管理資訊,但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性,以及臨床使用的驗證。總之,雖然LLMs能提升醫學教育和決策,但仍需謹慎評估,以確保其在臨床中的安全與有效性。 PubMed DOI

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊,尤其遇到不合理的提問時。研究發現,經過優化提問和微調訓練後,模型能更好拒絕不合邏輯的請求,錯誤資訊大幅減少,且不影響整體表現。這顯示訓練時要重視邏輯一致性,才能確保醫療應用安全。 PubMed DOI

這項研究發現,ChatGPT-4.0在乳癌治療建議上,只有46%完全符合專家團隊意見,且重複問答一致性僅39%。它在早期乳癌表現較好,但遇到複雜或基因相關情境就明顯不足,常缺乏臨床細節。總結來說,目前ChatGPT在乳癌多專科照護上,準確度和穩定性都有限,使用時要特別小心。 PubMed DOI

這項研究發現,ChatGPT能快速產出真實的心血管臨床案例,有助於教學情境設計,但內容常有錯誤、資訊不全或不符護理標準。專家審查仍是確保臨床正確性和教學品質的關鍵步驟。 PubMed DOI

這項研究發現,GPT-4在臨床倫理兩難情境下,能給出明確且積極的建議,與倫理原則的符合度高達86%。不過,遇到墮胎或代理孕母等議題時表現較弱,最低僅60%。雖然GPT-4有助於臨床決策,但偶爾會出錯或無法完全遵守倫理標準,實際應用上還是有侷限。 PubMed DOI