Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。相關文章 PubMed DOI 推理

Real-time automated billing for tobacco treatment: developing and validating a scalable machine learning approach.
即時自動化菸草治療計費：開發與驗證可擴展的機器學習方法 JAMIA Open 2025-06-13

CigStopper 是一套自動化工具，運用機器學習來判斷臨床紀錄中是否該收取戒菸諮詢費用（CPT 99406/99407）。研究團隊用模擬醫師寫法的病歷訓練模型，決策樹和隨機森林效果最好（PRC AUC 0.857，F1 0.835）。這系統有助減少行政負擔、提升收費準確度，未來有望應用於臨床。相關文章 PubMed DOI 推理

Annotation of biological samples data to standard ontologies with support from large language models.
結合大型語言模型輔助，將生物樣本數據註釋至標準本體的研究 Comput Struct Biotechnol J 2025-06-13

這篇研究用微調過的GPT大型語言模型，來自動把生物樣本標籤對應到本體論術語，減少人工註解負擔。實驗結果顯示，GPT模型在細胞株和細胞類型的召回率高達88–97%，但精確度只有47–64%。雖然能提升註解效率，但精確度還有進步空間，專家審查仍不可少。相關文章 PubMed DOI 推理

Exploring the medical ethical limitations of GPT-4 in clinical decision-making scenarios: a pilot survey.
GPT-4 在臨床決策情境中醫學倫理限制之探討：初步調查 Front Public Health 2025-06-13

這項研究發現，GPT-4在臨床倫理兩難情境下，能給出明確且積極的建議，與倫理原則的符合度高達86%。不過，遇到墮胎或代理孕母等議題時表現較弱，最低僅60%。雖然GPT-4有助於臨床決策，但偶爾會出錯或無法完全遵守倫理標準，實際應用上還是有侷限。相關文章 PubMed DOI 推理

Corrigendum: Can ChatGPT help patients understand radiopharmaceutical extravasations?
更正啟事：ChatGPT 能幫助病人了解放射性藥物外滲嗎？ Front Nucl Med 2025-06-13

重點摘要：這則通知是針對 DOI: 10.3389/fnume.2024.1469487 這篇文章進行更正。相關文章 PubMed DOI 推理

Answering real-world clinical questions using large language model, retrieval-augmented generation, and agentic systems.
運用大型語言模型、檢索增強生成與代理系統來解答真實世界臨床問題 Digit Health 2025-06-13

像 ChatGPT-4 這類通用型 LLM，回答臨床問題時常缺乏實用或有根據的建議。反觀專門設計的 OpenEvidence 和 ChatRWD，表現明顯更好。OpenEvidence 在有文獻時特別強，ChatRWD 則能在沒研究時給出可行建議。兩者結合，有望大幅提升臨床決策的循證支持。相關文章 PubMed DOI 推理

Artificial intelligence in perioperative medicine education: A feasibility test of case-based learning.
人工智慧於圍手術期醫學教育中的應用：以案例導向學習進行可行性測試 J Perioper Pract 2025-06-13

研究發現，大型語言模型（如ChatGPT）在協助圍手術期醫學教學時，能正確回答99.3%的案例式問題，且沒有捏造答案；遇到不會的問題也會直接拒答，顯示AI在醫學教育上相當可靠。相關文章 PubMed DOI 推理

ChatGPT as a rising force: Can AI bridge information gaps in Occupational Risk Prevention?
ChatGPT 崛起的新勢力：AI 能否彌補職業風險預防中的資訊落差？ Work 2025-06-13

這項研究比較了ChatGPT-3.5和4在職業風險預防選擇題的表現，GPT-3.5正確率56.8%，GPT-4為73.9%。兩者在專業題目上都容易出錯，且錯誤類型相似。雖然GPT-4表現較好，但在職業健康領域應用上仍有限。建議持續驗證、訓練和針對地區調整，以提升可靠度。相關文章 PubMed DOI 推理

Evaluating the Reliability and Quality of Sarcoidosis-Related Information Provided by AI Chatbots.
AI 聊天機器人所提供有關 Sarcoidosis 資訊之可靠性與品質評估 Healthcare (Basel) 2025-06-13

這項研究發現，採用檢索增強技術的AI聊天機器人（如ChatGPT-4o Deep Research等）在提供結節病資訊時，比一般AI更準確可靠。不過，他們的回答多半太艱深，病人不易看懂，而且給的實際建議也不夠明確。整體來說，AI雖然能提供高品質資訊，但在易讀性和實用性上還有進步空間。相關文章 PubMed DOI 推理

The Usability of Neurological Occupational Therapy Case Studies Generated by ChatGPT.
由 ChatGPT 生成的神經學職能治療個案研究之可用性 Healthcare (Basel) 2025-06-13

**重點摘要：** 這項研究評估了使用 ChatGPT 來產生職能治療個案研究的可行性。五個由 AI 生成的神經學個案由十位專家進行審查，專家們對這些個案在真實性、完整性以及教育價值方面都給予高度評價。雖然專家認為這些個案很有幫助，但它們對學生學習的實際影響還需要進一步測試。相關文章 PubMed DOI 推理

LLM 相關三個月內文章 / 第 10 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 10 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1