原始文章

這項研究探討了先驗機率對大型語言模型(LLM)在放射學診斷中的影響。研究分析了322個放射學案例,並在三種情境下測試LLM:無上下文、帶測驗上下文及初級護理上下文。結果顯示,提供測驗上下文時,LLM的診斷準確率顯著提升至70.2%,而無上下文時為64.9%。但在初級護理情境下,準確率降至59.9%。這顯示LLM可能根據先前信息調整診斷,強調在臨床中提供相關上下文的重要性。 PubMed DOI


站上相關主題文章列表

研究發現大型語言模型(LLMs)在神經學委員會風格考試中,LLM 2比LLM 1表現更好,接近及格分數,有些類別甚至超越人類。兩者在較簡單問題上表現較佳,但在較難問題上表現較差。LLM 2在臨床神經學應用有潛力,顯示在醫療保健領域LLM有發展空間,未來有望更加突顯其價值。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

一項研究評估了大型語言模型(LLMs)在回答醫學腫瘤學考試問題時的準確性和安全性。最佳的LLM以高準確度回答問題,但錯誤引起了安全疑慮,這表明有必要開發和評估LLMs,以改善臨床醫學腫瘤學等高風險臨床環境中醫護人員的經驗和病人護理。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

使用大型語言模型(LLM)能顯著提升醫生在複雜管理推理任務上的表現,超越傳統資源。在一項針對92位醫生的隨機對照試驗中,使用GPT-4的醫生在管理推理任務中得分較高。研究顯示,LLM的協助能改善管理決策、診斷決策及特定案例的表現,顯示其在複雜臨床情境中做出決策的能力,特別是在缺乏明確答案的情況下。 PubMed DOI

這項研究評估大型語言模型(LLM)對醫師診斷推理的影響,與傳統資源相比。研究於2023年11月29日至12月29日進行,參與者來自多所學術機構的醫師,分為兩組:一組使用LLM和傳統資源,另一組僅用傳統資源。結果顯示,LLM組的中位診斷推理分數為76%,略高於傳統組的74%,但差異不顯著(P = .60)。不過,LLM的單獨表現比傳統資源高出16個百分點(P = .03),顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在放射學的表現,為期三個月,使用美國放射學會的診斷訓練考試練習題。共測試了四個模型:GPT-4、GPT-3.5、Claude 和 Google Bard。結果顯示,GPT-4 準確率最高,達 78%,其次是 Google Bard(73%)、Claude(71%)和 GPT-3.5(63%)。值得注意的是,GPT-4 的準確率隨時間下降,而 Claude 則有所提升。研究強調 LLMs 在放射學的知識豐富,但在臨床應用前需持續基準測試以確保可靠性。 PubMed DOI

這項研究探討了告知大型語言模型(LLMs)放射學案例的測驗性質如何提升診斷準確性。先前研究顯示,LLMs在影像診斷上表現不錯,但缺乏測驗格式的背景知識,影響表現。研究分析了150個放射學案例,使用GPT-4o和Claude 3.5 Sonnet兩個模型,並評估了提供背景信息對診斷準確性的影響。結果顯示,告知測驗背景顯著改善了模型的診斷表現,特別是對Claude 3.5 Sonnet和GPT-4o的主要診斷。這些發現強調了背景信息在LLM診斷中的重要性,為未來研究提供指導。 PubMed DOI

大型語言模型(LLMs)在臨床環境中有潛力,但在提供可靠的預測概率上常遇挑戰,這對透明度和知情決策很重要。研究顯示,明確提示生成的概率在六個開源LLMs和五個醫療數據集上表現不如隱含概率,尤其在小型LLMs和不平衡數據集上更明顯。這強調了謹慎解讀結果的必要性,並呼籲開發更好的概率估計方法及進一步研究,以提升LLMs在臨床應用的可行性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),Mistral-7B-Instruct 和 Llama3-70B-chat-hf,使用660名患者的電子健康紀錄來預測敗血症、心律不整和充血性心臟衰竭等病症的診斷機率。結果顯示,傳統的極端梯度提升(XGB)分類器在所有任務中表現優於LLMs。雖然LLM嵌入+XGB的表現接近XGB,但口頭信心和標記對數的效果較差。研究建議未來應結合LLMs與數值推理,以提升診斷準確性,並強調目前LLMs在臨床應用上仍需改進。 PubMed DOI