Prompt engineering on leveraging large language models in generating response to InBasket messages.
利用大型語言模型生成 InBasket 訊息回應的提示工程。 J Am Med Inform Assoc 2024-07-19

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程，優化提示，提升回應質量。經過三次迭代後，臨床醫師對草擬回應的接受度從62%提升至84%，且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳，76%的病人無法分辨人類與LLM生成的回應。研究顯示，根據醫師和病人的反饋來精煉提示，能有效生成有用的醫療建議。 PubMed DOI

Leveraging Open-Source Large Language Models for Data Augmentation in Hospital Staff Surveys: Mixed Methods Study.
利用開源大型語言模型進行醫院員工調查的數據增強：混合方法研究。 JMIR Med Educ 2024-11-19

這項研究探討了開源大型語言模型（LLMs），如LLaMA和Alpaca，在早期COVID-19疫情期間的醫院員工調查中進行數據增強。研究分為兩步：首先用LLM生成合成數據，然後用三種分類器對這些數據進行主題分類。最佳結果來自LLaMA 7B，設定溫度0.7，生成100個合成數據點，結合RoBERTa進行分類，平均AUC達0.87。結果顯示，開源LLM能顯著提升醫療領域小型數據集的文本分類表現，並強調隱私與倫理考量的重要性，指向未來醫學教育和病人護理的研究方向。 PubMed DOI

Performance and Reproducibility of Large Language Models in Named Entity Recognition: Considerations for the Use in Controlled Environments.
大型語言模型在命名實體識別中的表現與可重複性：在受控環境中使用的考量。 Drug Saf 2024-12-11

最近在人工智慧（AI）領域，特別是大型語言模型（LLMs）如GPT-3.5和GPT-4，顯示出在醫療應用上的潛力。本研究探討將這些模型整合進良好實踐（GxP）驗證系統的可行性，重點在效能和可重複性。研究比較外部和內部託管的模型在命名實體識別（NER）和關係提取的表現，發現Zephyr-7b-beta模型在少樣本學習中表現優於GPT-3.5。儘管GPT-4的表現不錯，但在可重複性上仍有挑戰，建議利用GPT模型生成註釋提案作為微調訓練數據的基礎。 PubMed DOI

Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data.
大型語言模型生成合成臨床數據集：可行性及與真實世界圍手術數據的比較分析。 Front Artif Intell 2025-02-20

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據，以解決隱私法規和數據稀缺的問題。研究分為兩個階段：第一階段根據13個臨床參數創建了6,166個案例的結構化數據集，數據合理且準確；第二階段則利用真實的圍手術期數據集VitalDB生成數據，結果顯示92.31%的參數與VitalDB相似，且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據，未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

QUEST-AI: A System for Question Generation, Verification, and Refinement using AI for USMLE-Style Exams.
QUEST-AI：用於USMLE風格考試的AI題目生成、驗證與優化系統 Pac Symp Biocomput 2025-04-29

這篇研究介紹 QUEST-AI 系統，利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試，多數 AI 出的題目都很合格，且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

Comparative Analysis of Data Generation Techniques for Breast Cancer Research Using Artificial Intelligence.
運用人工智慧於乳癌研究之資料生成技術的比較分析 AMIA Annu Symp Proc 2025-05-26

這篇研究發現，ChatGPT在臨床專業有限時，能協助產生乳癌研究用的合成資料，但資料品質很依賴提示語設計和產生方法。要讓合成資料在醫療研究中可靠，必須重視有效的提示語設計和謹慎的資料合成技術。 PubMed

Generative Artificial Intelligence to Automate the Adaptation of Excel Health Economic Models and Word Technical Reports.
運用生成式人工智慧自動化調整 Excel 健康經濟模型與 Word 技術報告 Value Health 2025-06-16

大型語言模型（LLMs）能自動化調整 Excel 健康經濟模型和技術報告到新情境，準確率高、成本低。只要幾分鐘、幾美元就能完成，且調整結果幾乎完美。這方法有望加快健康科技評估流程，讓病患更快取得治療。 PubMed DOI

原始文章

站上相關主題文章列表