原始文章

紅隊測試對於識別和解決大型語言模型在醫療領域的意外行為非常重要,因為這可能影響病人的安全與公平性。在一項針對80名臨床醫生和技術專業人員的研究中,我們測試了GPT-3.5和GPT-4.0等模型,發現376個提示中有20.1%的回應不當。GPT-3.5的不當回應率為25.8%,而GPT-4.0為16%。值得注意的是,GPT-3.5中21.5%被認為適當的回應,在更新模型中卻被視為不當。這強調了持續進行紅隊測試的重要性,以確保醫療應用的安全性、準確性和公平性。 PubMed DOI


站上相關主題文章列表

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

人工通用智能(AGI)和大型語言模型如ChatGPT的興起為改變醫療保健帶來了希望,可以增進病人照護、改善醫療服務的可及性,並簡化臨床運作。但整合到醫療領域需謹慎,以降低風險,如提供錯誤建議、侵犯隱私、製造假資料、過度依賴AGI培訓醫生,以及固化偏見。有效監督和規範對於管理風險、確保AGI安全有效應用於醫療至關重要。克服挑戰,AGI可提升病人照護、醫學知識和醫療實踐,造福社會。 PubMed DOI

大型語言模型(LLMs)如ChatGPT-3.5在醫學教育中有應用,可填補知識空白、協助鑑別診斷、挑戰假設、支援決策、改善護理管理,甚至進行困難對話、倫理教學。儘管有擔憂,但已有行為準則指導使用。ChatGPT對病房學習有潛力,但仍需進一步研究。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

本研究比較了兩個版本的ChatGPT(3.5和4.0)在生成重症醫療建議的能力。結果顯示,ChatGPT 4.0在適當性上得分顯著高於3.5,但在一致性和可讀性方面差異不大。兩個版本都會產生錯誤資訊,顯示在缺乏專業知識的情況下使用這些工具的風險。這強調了臨床醫師需了解LLM的優缺點,以確保在重症醫療中安全有效地使用這些工具。研究已註冊於 https://osf.io/8chj7/。 PubMed DOI

這項研究探討了ChatGPT在模擬災難病人分診的有效性,使用了391個病人案例和九個提示進行測試,總共產生了35,190次模擬分診。結果顯示,99.7%的查詢得到了有效的START評分,但變異性顯著。準確性為63.9%,過度分診率32.9%,不足分診率3.1%。研究結論指出,ChatGPT在醫療分診中表現不佳,提醒在臨床使用AI工具時需謹慎,並強調進行嚴謹的統計評估的重要性。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究比較了大型語言模型(如GPT-3.5和GPT-4)與傳統機器學習方法(如梯度提升樹)在使用電子健康紀錄預測臨床結果的效果。結果顯示,傳統機器學習在預測性能和模型校準上均優於大型語言模型,且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳,但其預測性能卻有所下降。總體來看,傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試,但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現,結果顯示其正確率僅31%,且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確,但整體表現未達及格標準。研究強調了LLMs的局限性,並呼籲需建立更全面的自我診斷數據集,以提升其在醫療中的可靠性。 PubMed DOI