Evaluation of LLMs accuracy and consistency in the registered dietitian exam through prompt engineering and knowledge retrieval.
透過提示工程和知識檢索評估大型語言模型在註冊營養師考試中的準確性和一致性。 Sci Rep 2025-01-09

這篇論文探討了大型語言模型（LLMs）在營養與飲食應用中的表現，特別是針對註冊營養師（RD）考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性，並分析了不同提示技術的效果。結果顯示，GPT-4o在使用帶自我一致性的思考鏈（CoT-SC）時表現最佳，而Gemini 1.5 Pro在零提示（ZS）下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

Zero-shot learning for clinical phenotyping: Comparing LLMs and rule-based methods.
臨床表型判別的零樣本學習：比較大型語言模型（LLMs）與規則式方法 Comput Biol Med 2025-04-24

這項研究發現，GPT-4o 在不用人工標註的情況下，能準確又有效率地從電子病歷資料做慢性病分類，表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97，macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法，還能進一步提升準確度，讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Large language models for intelligent RDF knowledge graph construction: results from medical ontology mapping.
用於智慧型 RDF 知識圖譜建構的大型語言模型：醫學本體映射的研究結果 Front Artif Intell 2025-05-12

這篇論文提出用大型語言模型（像 GPT-4o）自動化醫療術語對應 SNOMED CT 等本體，建立 RDF 知識圖譜。研究比較六種系統，發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多，能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

LLMonFHIR: A Physician-Validated, Large Language Model-Based Mobile Application for Querying Patient Electronic Health Data.
LLMonFHIR：經醫師驗證、基於大型語言模型的行動應用程式，用於查詢病患電子健康資料 JACC Adv 2025-05-15

這項研究推出 LLMonFHIR 行動 App，運用大型語言模型，幫助慢性心血管病人用多種語言、不同難度，甚至語音方式，查詢自己的電子健康紀錄。初步測試顯示，醫師認為 App 回覆正確、好懂又實用。雖然在健康摘要和檢驗數據查詢上還有改進空間，但 LLMonFHIR 有助於解決語言和健康素養障礙，讓病人更容易掌握自己的健康資訊。 PubMed DOI

Using large language models (LLMs) to apply analytic rubrics to score post-encounter notes.
使用大型語言模型（LLMs）應用分析性評分規準於後診紀錄評分 Med Teach 2025-05-17

這項研究發現，大型語言模型（LLMs）在有明確、結構化提示下，能準確且一致地評分醫學生臨床紀錄，但如果只給簡單指示，結果會不穩定。LLM有時會算錯總分，需要外部協助。整體來說，經過優化後，LLM有潛力成為醫學教育自動評分工具，但針對更複雜的評分系統還需進一步研究。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

LLMs-based Few-Shot Disease Predictions using EHR: A Novel Approach Combining Predictive Agent Reasoning and Critical Agent Instruction.
基於LLMs的少樣本疾病預測：結合預測代理推理與關鍵代理指導的電子健康紀錄新方法 AMIA Annu Symp Proc 2025-05-26

這項研究利用大型語言模型（LLMs）把電子健康紀錄（EHR）結構化資料轉成自然語言，並應用在疾病預測。LLMs分別扮演「預測者」和「評論者」兩種角色，負責預測結果和給予改進建議。結果顯示，在樣本數少的情況下，這種方法的預測表現不輸傳統監督式學習，對醫療應用很有發展潛力。 PubMed

A Large Language Model Outperforms Other Computational Approaches to the High-Throughput Phenotyping of Physician Notes.
大型語言模型在醫師筆記高通量表現型分析中優於其他計算方法 AMIA Annu Symp Proc 2025-05-26

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現，GPT-4表現最好，顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具，有助於推動精準醫療發展。 PubMed

Dynamic few-shot prompting for clinical note section classification using lightweight, open-source large language models.
使用輕量級開源大型語言模型進行臨床紀錄分段分類的動態少樣本提示 J Am Med Inform Assoc 2025-06-03

這項研究發現，透過 embedding similarity 動態挑選最相關範例來做 few-shot prompting，可以大幅提升開源輕量級 LLM 在臨床紀錄分類的表現。這方法比 zero-shot 最多提升 39.3% macro F1 分數，也比靜態 few-shot 高出 21.1%，證明在臨床 NLP 任務上很有實用價值。 PubMed DOI

原始文章

站上相關主題文章列表