Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Fine-tuning large language models for improved health communication in low-resource languages.
為低資源語言改善健康溝通的大型語言模型微調。 Comput Methods Programs Biomed 2025-02-23

這項研究提出了一種方法，旨在為越南語這種低資源語言的醫療資訊創建訓練數據集，以微調大型語言模型（LLMs）。目的是改善醫療資訊的獲取，增強發展中國家的醫療溝通。研究過程中，選擇基礎模型並彙編約337,000對提示-回應對，使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型，顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私，但高計算需求和成本仍是挑戰，研究呼籲關注醫療差距，促進全球健康公平。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Fine-Tuning Large Language Models for Specialized Use Cases.
針對專門使用案例微調大型語言模型。 Mayo Clin Proc Digit Health 2025-04-10

大型語言模型（LLMs）是先進的人工智慧系統，透過預測單詞序列來生成文本，改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM，以適應特定任務或領域。這篇評論探討了微調的各種方法，概述了一般步驟，並提供醫學子專科的例子，最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

Enhancing medical coding efficiency through domain-specific fine-tuned large language models.
透過領域專屬微調大型語言模型提升醫療編碼效率 Npj Health Syst 2025-05-05

用ICD-10資料微調大型語言模型後，自動醫療編碼的準確度大幅提升。模型在代碼與描述配對的精確率從不到1%躍升到97%；應用在臨床紀錄上，精確匹配率達69.2%，分類匹配率87.2%。這能有效減少人工處理時間和錯誤。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

Leveraging large language models for accurate classification of liver lesions from MRI reports.
運用大型語言模型精確分類MRI報告中的肝臟病灶 Comput Struct Biotechnol J 2025-06-12

這項研究用88份真實MRI肝臟病灶報告，測試多款大型語言模型的分類能力。結果發現，Claude 3.5 Sonnet準確率最高，勝過GPT-4o等其他模型。雖然LLM有潛力協助醫療診斷，但臨床應用前還需更多驗證，嚴謹測試也很重要。 PubMed DOI

A novel fine-tuning and evaluation methodology for large language models on IoT raw data summaries (LLM-RawDMeth): A joint perspective in diabetes care.
物聯網原始數據摘要大型語言模型之新穎微調與評估方法（LLM-RawDMeth）：糖尿病照護的整合觀點 Comput Methods Programs Biomed 2025-06-14

這項研究用專家指導的模糊邏輯和提示工程，微調GPT模型，讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%，顯示AI有助於糖尿病管理，能把複雜數據轉成實用資訊，減輕醫護人員負擔。 PubMed DOI

Fine-tuning open-source large language models to improve their performance on radiation oncology tasks: A feasibility study to investigate their potential clinical applications in radiation oncology.
微調開源大型語言模型以提升其在放射腫瘤學任務中的表現：探討其於放射腫瘤學臨床應用潛力的可行性研究 Med Phys 2025-07-16

這項研究用7,903筆放射腫瘤科資料微調LLaMA2-7B和Mistral-7B模型，提升它們在治療建議、治療選擇和ICD-10診斷預測三大任務的表現。微調後模型的準確度和臨床相關性都明顯進步，超過六成AI產生的治療方案被醫師認可，顯示未來在臨床應用上很有潛力。 PubMed DOI

原始文章

站上相關主題文章列表