Prompt engineering on leveraging large language models in generating response to InBasket messages.
利用大型語言模型生成 InBasket 訊息回應的提示工程。 J Am Med Inform Assoc 2024-07-19

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程，優化提示，提升回應質量。經過三次迭代後，臨床醫師對草擬回應的接受度從62%提升至84%，且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳，76%的病人無法分辨人類與LLM生成的回應。研究顯示，根據醫師和病人的反饋來精煉提示，能有效生成有用的醫療建議。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Use of ChatGPT Large Language Models to Extract Details of Recommendations for Additional Imaging From Free-Text Impressions of Radiology Reports.
使用 ChatGPT 大型語言模型從放射科報告的自由文本印象中提取額外影像建議的細節。 AJR Am J Roentgenol 2025-01-29

本研究探討大型語言模型（LLMs）在從放射科報告中提取額外影像檢查建議（RAIs）的有效性。研究回顧了250份報告，確認231份包含RAIs，並使用自然語言處理算法進行分析。結果顯示，GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5，顯示出LLMs在確保影像檢查建議及時完成的潛力，可能有助於減少診斷延遲。 PubMed DOI

Leveraging Large Language Models to Generate Clinical Histories for Oncologic Imaging Requisitions.
利用大型語言模型生成腫瘤影像檢查申請的臨床歷史。 Radiology 2025-02-04

這項研究探討大型語言模型（LLMs）在自動生成腫瘤影像檢查申請的臨床歷史的應用，資料來自207名接受CT掃描的癌症患者。研究顯示，GPT-4在提取關鍵腫瘤學參數方面表現優異，F1分數達0.983。LLM生成的歷史中，主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史，且差異具統計意義。放射科醫生更偏好LLM生成的歷史，認為其提供更完整的解讀，降低傷害風險。總之，LLM能準確創建全面的腫瘤影像臨床歷史，受到醫生青睞。 PubMed DOI

Efficacy of Fine-Tuned Large Language Model in CT Protocol Assignment as Clinical Decision-Supporting System.
微調大型語言模型在 CT 協議分配中的效能作為臨床決策支持系統。 J Imaging Inform Med 2025-02-05

這項研究探討經過微調的大型語言模型（LLM）在放射科CT檢查協議分配中的應用。研究分析了4,268例對比增強的胸部和腹部CT，並根據臨床指徵等訓練LLM。經過15個時期的微調後，模型準確率達到0.923和0.963，靈敏度為0.907。評估結果顯示，LLM提升了住院醫師和放射科醫生的準確性，住院醫師的準確率從0.913提升至0.936，且閱讀時間分別縮短14%和12%。總體而言，LLM能有效提升CT協議的效率與診斷準確性。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Retrospective Comparative Analysis of Prostate Cancer In-Basket Messages: Responses From Closed-Domain Large Language Models Versus Clinical Teams.
前瞻性比較分析前列腺癌 In-Basket 訊息：封閉領域大型語言模型與臨床團隊的回應。 Mayo Clin Proc Digit Health 2025-03-25

這項研究評估了基於GPT-4的RadOnc-GPT在前列腺癌治療相關訊息回覆的有效性，旨在減輕臨床團隊的工作負擔。該模型與梅奧診所的電子健康紀錄整合，分析了90位非轉移性前列腺癌患者的158條訊息。結果顯示，RadOnc-GPT在同理心上稍勝臨床團隊，並在其他方面得分相當。雖然模型能為護理人員節省每條訊息5.2分鐘，臨床醫生則節省2.4分鐘，但仍存在上下文不足和知識缺口等限制。整體而言，該模型有助於提升醫療效率與溝通質量。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Evaluation of large language models in generating pulmonary nodule follow-up recommendations.
大型語言模型在產生肺結節追蹤建議之評估 Eur J Radiol Open 2025-05-20

這篇研究發現，GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時，準確率都超過九成，表現和專業醫師差不多，錯誤建議也很少。雖然這些AI有潛力協助放射科決策，但實際應用前還是要嚴格驗證和監督，確保病人安全。 PubMed DOI

原始文章

站上相關主題文章列表