原始文章

這項研究評估了使用大型語言模型(LLM)在大型學術醫院中正確路由程序請求的效果與成本。研究發現,GPT-4模型的準確率高達96.4%,顯著優於其他模型,但在晚上和週末的表現較差。使用OpenAI API時,GPT-4每個請求約$0.03,而GPT-3.5-turbo則便宜得多,僅需$0.0006。整體來看,這項研究顯示低成本的提示式LLMs在醫院中能有效協助醫生和協調員管理請求,並減少培訓需求。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 PubMed DOI

這項研究探討經過微調的大型語言模型(LLM)在放射科CT檢查協議分配中的應用。研究分析了4,268例對比增強的胸部和腹部CT,並根據臨床指徵等訓練LLM。經過15個時期的微調後,模型準確率達到0.923和0.963,靈敏度為0.907。 評估結果顯示,LLM提升了住院醫師和放射科醫生的準確性,住院醫師的準確率從0.913提升至0.936,且閱讀時間分別縮短14%和12%。總體而言,LLM能有效提升CT協議的效率與診斷準確性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究評估了基於GPT-4的RadOnc-GPT在前列腺癌治療相關訊息回覆的有效性,旨在減輕臨床團隊的工作負擔。該模型與梅奧診所的電子健康紀錄整合,分析了90位非轉移性前列腺癌患者的158條訊息。結果顯示,RadOnc-GPT在同理心上稍勝臨床團隊,並在其他方面得分相當。雖然模型能為護理人員節省每條訊息5.2分鐘,臨床醫生則節省2.4分鐘,但仍存在上下文不足和知識缺口等限制。整體而言,該模型有助於提升醫療效率與溝通質量。 PubMed DOI

這項研究用標準化、針對人類優化的提示語,讓大型語言模型標註六家醫院的放射科報告,結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語,LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

這篇研究發現,GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時,準確率都超過九成,表現和專業醫師差不多,錯誤建議也很少。雖然這些AI有潛力協助放射科決策,但實際應用前還是要嚴格驗證和監督,確保病人安全。 PubMed DOI