LLMonFHIR: A Physician-Validated, Large Language Model-Based Mobile Application for Querying Patient Electronic Health Data.
LLMonFHIR：經醫師驗證、基於大型語言模型的行動應用程式，用於查詢病患電子健康資料 JACC Adv 2025-05-15

這項研究推出 LLMonFHIR 行動 App，運用大型語言模型，幫助慢性心血管病人用多種語言、不同難度，甚至語音方式，查詢自己的電子健康紀錄。初步測試顯示，醫師認為 App 回覆正確、好懂又實用。雖然在健康摘要和檢驗數據查詢上還有改進空間，但 LLMonFHIR 有助於解決語言和健康素養障礙，讓病人更容易掌握自己的健康資訊。相關文章 PubMed DOI 推理

Extracting Multifaceted Characteristics of Patients With Chronic Disease Comorbidity: Framework Development Using Large Language Models.
利用大型語言模型萃取慢性疾病共病患者的多面向特徵：架構發展 JMIR Med Inform 2025-05-15

這項研究開發了一套用大型語言模型自動從電子病歷中萃取多重慢性病患者資料的系統，在中國1,225位患者資料測試下，簡單特徵準確度高達99.6%，複雜特徵也有94.4%。這方法大幅提升效率與可靠性，減少人工處理，但資訊格式標準化仍是挑戰，且系統具高度彈性，適合各種研究或政策需求。相關文章 PubMed DOI 推理

AI-Assisted Hypothesis Generation to Address Challenges in Cardiotoxicity Research: Simulation Study Using ChatGPT With GPT-4o.
AI輔助假說生成以解決心臟毒性研究挑戰：使用ChatGPT與GPT-4o的模擬研究 J Med Internet Res 2025-05-15

這項研究發現，ChatGPT（GPT-4o）能提出許多新穎又有創意的心臟毒性研究想法，例如用單細胞RNA定序、AI風險預測、機器學習分析心電圖等。雖然部分計畫太過理想化，但整體來說，AI有助於激發創新研究方向，未來有機會提升心臟毒性預測和照護品質。相關文章 PubMed DOI 推理

Careful design of Large Language Model pipelines enables expert-level retrieval of evidence-based information from syntheses and databases.
精心設計的大型語言模型（Large Language Model, LLM）流程可實現專家級的循證資訊檢索，來自綜合分析與資料庫。 PLoS One 2025-05-15

這項研究發現，只要經過細心設計和調整，大型語言模型（LLMs）在回答保育問題時，表現可媲美人類專家。但如果直接用沒客製化的 LLMs，結果可能很差，甚至會產生誤導資訊。總結來說，LLMs 有潛力幫助專家更有效利用保育證據，但一定要針對專業領域優化才行。相關文章 PubMed DOI 推理

Evaluating Generative AI in Mental Health: Systematic Review of Capabilities and Limitations.
精神健康領域中生成式 AI 的評估：能力與侷限性的系統性回顧 JMIR Ment Health 2025-05-15

這篇系統性回顧發現，生成式AI像ChatGPT在心理健康領域有潛力，但目前在診斷、文化敏感度和情感互動上還有不少限制。多數研究評估方式較簡單，無法全面反映AI實力。使用者對信任度和情感連結也有疑慮。未來需要更進階的評估和長期研究，才能真正發揮AI在心理健康照護的價值。相關文章 PubMed DOI 推理

A comparative analysis of large language models versus traditional information extraction methods for real-world evidence of patient symptomatology in acute and post-acute sequelae of SARS-CoV-2.
SARS-CoV-2 急性及後急性症狀群患者症狀學真實世界證據中，大型語言模型與傳統資訊擷取方法之比較分析 PLoS One 2025-05-15

這項研究發現，規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上，都比大型語言模型（LLaMA2-13B、LLaMA3-8B）表現更好。不過，LLMs 在某些情境下也有優勢。整體來說，LLMs 在公平性和泛化能力上還有待加強，未來需提升訓練資料和標註品質。相關文章 PubMed DOI 推理

The Role of Chatbots in Enquiry-Based Learning for Oral Health Students-An Exploratory Study.
聊天機器人在口腔健康學生探究式學習中的角色—一項初步研究 Eur J Dent Educ 2025-05-15

這項研究比較四款聊天機器人在口腔健康探究式學習的表現。結果發現，ChatGPT 3.5 最會出自我評量題，Microsoft Copilot 答題最準。不同機器人在不同主題和難度下表現不一，簡單題目答得比較好。整體來說，聊天機器人有潛力，但還沒辦法完全取代真人老師。相關文章 PubMed DOI 推理

Interobserver agreement between artificial intelligence models in the thyroid imaging and reporting data system (TIRADS) assessment of thyroid nodules.
人工智慧模型在甲狀腺影像與報告資料系統（TIRADS）評估甲狀腺結節中的觀察者間一致性 Endocrine 2025-05-15

這項研究比較了ChatGPT、Google Gemini和Claude三款AI在解讀甲狀腺結節惡性風險時，針對三大TIRADS系統的表現。分析90個案例後發現，三者評估結果有一定一致性，但在風險判斷上還是有明顯差異。提醒大家，臨床上用AI輔助判斷時，還是要多加小心，不要完全依賴AI結果。相關文章 PubMed DOI 推理

The Ethics of Speaking (of) AIs Through the Lens of Natural Language.
透過自然語言視角探討人工智慧（AI）發聲的倫理 J Bioeth Inq 2025-05-15

這篇文章用後人類主義角度，探討跟大型語言模型互動時的倫理問題，認為倫理行動力是人跟機器共同產生的。作者批評只用訓練資料來判斷 AI 的道德性太過片面，也提醒大家別把 LLMs 擬人化。文章建議，討論 LLM 倫理時，應該關注語言如何轉化成文化意義，並考慮模型的黑箱特性和開發者的公開說明。最後呼籲大家重新思考人性和倫理的定義。相關文章 PubMed DOI 推理

Predicting Immunotherapy Response in Unresectable Hepatocellular Carcinoma: A Comparative Study of Large Language Models and Human Experts.
不可切除性肝細胞癌免疫治療反應之預測：大型語言模型與人類專家之比較研究 J Med Syst 2025-05-15

這項研究發現，結合多種大型語言模型（如Gemini-GPT）在預測肝細胞癌免疫治療反應上，表現和資深醫師差不多，甚至比資淺醫師更好。不過，模型的敏感度還是比資深醫師低。整體來說，這些AI工具未來有機會協助醫師做臨床決策。相關文章 PubMed DOI 推理

LLM 相關三個月內文章 / 第 112 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 112 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1