原始文章

這項研究評估了使用大型語言模型(LLM)在大型學術醫院中正確路由程序請求的效果與成本。研究發現,GPT-4模型的準確率高達96.4%,顯著優於其他模型,但在晚上和週末的表現較差。使用OpenAI API時,GPT-4每個請求約$0.03,而GPT-3.5-turbo則便宜得多,僅需$0.0006。整體來看,這項研究顯示低成本的提示式LLMs在醫院中能有效協助醫生和協調員管理請求,並減少培訓需求。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究探討了提示工程對大型語言模型(LLM),特別是GPT-4,在醫療提供者回應病人詢問時的影響。研究持續8個月,參與者有27位醫療提供者,主要評估LLM生成訊息的使用情況及提供者的情感變化。 結果顯示,7605條訊息中僅17.5%被使用,負面情感顯著減少,但整體使用量卻下降。隨著護士的加入,使用量提升至35.8%。雖然提示工程改善了內容質量,但整合LLM進工作流程仍面臨挑戰,未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在簡化介入放射學(IR)報告的表現,重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳,錯誤率最低,特別是在內容和信任方面。量性評估顯示,GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性,並指出所有模型仍需改進以減少錯誤。 PubMed DOI

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現,分析了10,000次就診。結果顯示,這兩個模型的準確性都不如住院醫師,GPT-4-turbo平均低8%,而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好,但特異性較低,顯示出建議過於謹慎。研究指出,儘管LLMs在臨床應用上有潛力,但在成為可靠的醫療決策支持系統前,仍需大幅改進。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究探討了GPT-4在癌症護理電話諮詢中分類病人意圖的效果,並與傳統深度學習模型如LSTM和BERT進行比較。研究使用了430,355句的數據,發現GPT-4的準確率達85.2%,明顯優於LSTM(73.7%)和BERT(71.3%)。特別是在處理複雜查詢如「治療」和「症狀」時,GPT-4的表現提升超過15%。研究指出,雖然GPT-4在醫療應用中展現潛力,但仍需改進提示設計和類別定義,未來將探索與人類監督的混合系統。 PubMed DOI

最近大型語言模型(LLMs)在臨床推理方面的進展顯示出其在緊急醫療服務(EMS)中分診病人的潛力。一項研究測試了ChatGPT 4o Mini在美國某大城市的真實數據中,優先處理救護車請求的能力。結果顯示,該模型與經驗豐富的救護員意見一致的比例達76.5%,而在救護員達成共識的情況下,這一比例高達93.8%。這些發現顯示LLMs在緊急護理中可能成為有價值的工具,但仍需進一步研究以確定最佳應用方式。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT,在填寫血管質量倡議(VQI)程序數據庫的有效性。研究針對三種手術進行,結果顯示LLMs的準確率相當高,CEA為84.0%、EVAR為92.2%、LEB為84.3%。排除少見指標後,準確率更提升至CEA的95.5%、EVAR的94.8%和LEB的93.2%。兩個模型(gpt-35-turbo和gpt-4)之間性能差異不大,且分析成本低。整體而言,LLMs能有效協助填寫VQI數據庫,建議進一步研究以提升準確性。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI