Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

Using Synthetic Health Care Data to Leverage Large Language Models for Named Entity Recognition: Development and Validation Study.
使用合成健康照護數據來利用大型語言模型進行命名實體識別：開發與驗證研究。 J Med Internet Res 2025-03-18

這項研究針對低資源語言，特別是愛沙尼亞語，開發命名實體識別（NER）模型，目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據，作者提出三步驟方法：首先，利用本地訓練的GPT-2生成合成醫療數據；接著，使用GPT-3.5-Turbo和GPT-4對這些數據進行標註；最後，微調NER模型並測試真實醫療文本。研究結果顯示，藥物提取的F<sub>1</sub>分數為0.69，程序提取為0.38，顯示出在藥物識別上的有效性，並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

Few-shot biomedical NER empowered by LLMs-assisted data augmentation and multi-scale feature extraction.
少量樣本生物醫學命名實體識別（NER）透過大型語言模型輔助的數據增強和多尺度特徵提取。 BioData Min 2025-04-04

這篇論文探討生物醫學文本中的命名實體識別（NER）挑戰，特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足，可能會影響語義，且忽略多尺度句子特徵。為了解決這些問題，他們提出利用ChatGPT生成多樣化的數據，並採用動態卷積捕捉多尺度語義，結合PubMedBERT增強特徵表示。實驗結果顯示，這種方法在四個生物醫學NER數據集上表現優於現有模型，顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Zero-shot learning for clinical phenotyping: Comparing LLMs and rule-based methods.
臨床表型判別的零樣本學習：比較大型語言模型（LLMs）與規則式方法 Comput Biol Med 2025-04-24

這項研究發現，GPT-4o 在不用人工標註的情況下，能準確又有效率地從電子病歷資料做慢性病分類，表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97，macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法，還能進一步提升準確度，讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

Exploring ChatGPT 3.5 for structured data extraction from oncological notes.
運用 ChatGPT 3.5 於腫瘤學病歷結構化資料擷取之探討 AMIA Jt Summits Transl Sci Proc 2025-06-12

研究發現，ChatGPT能準確從非結構化臨床紀錄中擷取癌症病患的關鍵資料，如Gleason分數和年齡（F1=0.99），對安寧照護和疼痛狀態的辨識也不錯（F1=0.86）。但few-shot提示有時反而降低準確度，加入背景資訊也未必有幫助。整體來說，ChatGPT有潛力協助電子病歷資料結構化，促進醫療研究資料共享。 PubMed

Exploring the value of ChatGPT in selecting antidiabetic agents for type 2 diabetes.
探討 ChatGPT 在選擇第二型糖尿病抗糖尿病藥物的價值 Diabetes Obes Metab 2025-07-23

這項研究發現，ChatGPT 4.0在建議第二型糖尿病藥物時，對單一藥物治療的建議最接近醫師，但治療越複雜一致性就越低。用少量範例提示能提升準確度，尤其在單一和雙重治療上，但三重治療還是不理想。總結來說，ChatGPT適合輔助簡單病例決策，但複雜治療還需加強。 PubMed DOI

原始文章

站上相關主題文章列表