Reproducible generative artificial intelligence evaluation for health care: a clinician-in-the-loop approach.
可重現的生成式人工智慧於醫療照護之評估：臨床醫師參與的循環式方法 JAMIA Open 2025-06-17

研究團隊開發了一套五大面向的評估框架，專門用來檢視生成式AI在醫療領域的表現。實測結果顯示，ClinicalKey AI的正確率和有用性都超過九成，潛在有害回答極低。這個框架能有效全面評估AI，但主觀判斷和危害共識仍有待加強，未來可作為AI臨床應用的重要參考。相關文章 PubMed DOI 推理

Defining the Boundaries of AI Use in Scientific Writing: A Comparative Review of Editorial Policies.
科學寫作中 AI 使用界限之界定：編輯政策的比較性回顧 J Korean Med Sci 2025-06-17

生成式AI快速改變醫學寫作，期刊如JKMS明訂AI不能列為作者，但允許在文中揭露AI協助內容，並需詳述工具、指令及用途。AI偵測工具目前不可靠，重點在於強化倫理與透明揭露，才能兼顧出版誠信與創新發展。相關文章 PubMed DOI 推理

Developing and Evaluating the Use of ChatGPT as a Screening Tool for Nurses Conducting Structured Literature Reviews: Proof of Concept Study Results.
開發與評估 ChatGPT 作為護理人員進行結構性文獻回顧篩選工具的可行性：概念驗證研究結果 J Clin Nurs 2025-06-17

這項研究測試用 ChatGPT 協助護理教育領域做系統性文獻回顧時，篩選摘要的可行性。作者用四種 ChatGPT 版本篩選 400 篇摘要，並和人類研究者比較。結果發現，ChatGPT-3.5 Turbo 篩選速度最快且漏掉的相關文獻最少，反而新版 ChatGPT-4 漏掉更多。大型語言模型能幫助護理人員省時又不影響品質，但還是要主動學習和實際操作，才能發揮最大效益。相關文章 PubMed DOI 推理

The applications of ChatGPT and other large language models in anesthesiology and critical care: a systematic review.
ChatGPT 及其他大型語言模型在麻醉學與重症醫學中的應用：系統性回顧 Can J Anaesth 2025-06-16

這篇系統性回顧發現，大型語言模型像ChatGPT、GPT-4等，已經開始應用在麻醉和重症醫學，包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯，但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師，但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。相關文章 PubMed DOI 推理

The dawn of a new era: can machine learning and large language models reshape QSP modeling?
新時代的曙光：機器學習與大型語言模型能否重塑QSP建模？ J Pharmacokinet Pharmacodyn 2025-06-16

AI 和機器學習正大幅改變定量系統藥理學（QSP），像自動化資料擷取、混合模型和大型語言模型等新工具，讓 QSP 建模更簡單、協作性更高，有助加速和個人化藥物開發。不過，驗證、倫理、法規和整合複雜生物資料等挑戰仍待克服。整體來說，AI/ML 將徹底革新 QSP，推動治療創新。相關文章 PubMed DOI 推理

ChatGPT versus DeepSeek in head and neck cancer staging and treatment planning: guideline-based study.
ChatGPT 與 DeepSeek 在頭頸癌分期與治療規劃之比較：依循指引的研究 Eur Arch Otorhinolaryngol 2025-06-16

模擬研究發現，DeepSeek 在頭頸癌治療計畫擬定上比 ChatGPT 更準確，兩者在腫瘤分期表現差不多。雖然正確率有統計意義，但目前還無法取代多專科團隊，較適合輔助臨床流程。未來應聚焦開發安全且能客製化的腫瘤科 AI。相關文章 PubMed DOI 推理

Artificial Intelligence-Based Hospital Malnutrition Screening: Validation of a Novel Machine Learning Model.
基於人工智慧的醫院營養不良篩檢：新型機器學習模型的驗證 Appl Clin Inform 2025-06-16

這個AI模型結合電子病歷和大型語言模型，能準確找出住院病人有營養不良風險，表現比傳統護理師篩檢工具更好，AUC最高達0.95。它也能更有效預測再住院和死亡風險，有助提升醫院營養不良偵測效率。相關文章 PubMed DOI 推理

Generative Artificial Intelligence to Automate the Adaptation of Excel Health Economic Models and Word Technical Reports.
運用生成式人工智慧自動化調整 Excel 健康經濟模型與 Word 技術報告 Value Health 2025-06-16

大型語言模型（LLMs）能自動化調整 Excel 健康經濟模型和技術報告到新情境，準確率高、成本低。只要幾分鐘、幾美元就能完成，且調整結果幾乎完美。這方法有望加快健康科技評估流程，讓病患更快取得治療。相關文章 PubMed DOI 推理

Assessment of Large Language Model Performance on Medical School Essay-Style Concept Appraisal Questions: Exploratory Study.
大型語言模型在醫學院論述型概念評量題表現之評估：探索性研究 JMIR Med Educ 2025-06-16

Microsoft Copilot（原本叫 Bing Chat）用的是 GPT-4 技術，寫申論題的表現跟醫學生差不多，評分老師常常分不出 AI 和真人寫的差別。這代表未來 AI 影響下，學生和老師都更需要加強批判性思考和反思能力。相關文章 PubMed DOI 推理

Reliability of Large Language Model Knowledge Across Brand and Generic Cancer Drug Names.
大型語言模型對於品牌與學名癌症藥物名稱知識的可靠性 JCO Clin Cancer Inform 2025-06-16

這項研究發現，GPT-3.5-turbo-0125、GPT-4-turbo 和 GPT-4o 在腫瘤科藥物品牌名和學名的配對上表現很好，但在較複雜的臨床任務（如藥物交互作用判斷、診斷副作用等）則表現不穩定，甚至有偏誤。特別是 GPT-3.5-turbo-0125 偏好用品牌名。總結來說，這些模型在簡單任務上可靠，但臨床應用還需更嚴謹的評估與改進。相關文章 PubMed DOI 推理

LLM 相關三個月內文章 / 第 4 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 4 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1