Multiple large language models versus experienced physicians in diagnosing challenging cases with gastrointestinal symptoms.
多個大型語言模型與經驗豐富的醫生在診斷具有挑戰性的腸胃症狀病例中的比較。 NPJ Digit Med 2025-02-05

這項研究比較了大型語言模型（LLMs）與人類腸胃科醫生在挑戰性腸胃病例中的診斷能力。研究分析了67個病例，發現LLM Claude 3.5 Sonnet的準確率達76.1%，明顯高於腸胃科醫生的45.5%。這顯示先進的LLMs能成為腸胃科醫生的有力工具，提供高效且具成本效益的診斷支持。 PubMed DOI

Enhancing Malignancy Detection and Tumor Classification in Pathology Reports: A Comparative Evaluation of Large Language Models.
提升病理報告中惡性腫瘤偵測與腫瘤分類的能力：大型語言模型的比較評估 Stud Health Technol Inform 2025-04-24

這項研究用GPT-4o和Llama3.3等大型語言模型，測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示，這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀，有機會讓癌症登記流程更快、更可靠，提升公共衛生和臨床照護品質。 PubMed DOI

Assessing the diagnostic accuracy of ChatGPT-4 in the histopathological evaluation of liver fibrosis in MASH.
ChatGPT-4 在 MASH 肝纖維化組織病理學評估中的診斷準確性評估 Hepatol Commun 2025-04-30

這項研究發現，ChatGPT-4-vision 能用數位肝臟切片影像判讀MASH肝纖維化分期，表現接近專業病理醫師。給予範例影像後，準確率最高達88%，尤其在辨識晚期纖維化（F4）更突出。分期結果也和膠原蛋白測量高度相關，顯示大型語言模型有潛力協助病理診斷。 PubMed DOI

Large language models for extracting histopathologic diagnoses of colorectal cancer and dysplasia from electronic health records.
運用大型語言模型從電子健康紀錄中擷取大腸直腸癌與異生症的組織病理診斷 medRxiv 2025-05-02

這項研究發現，開源大型語言模型（LLMs）能準確從電子病歷的病理報告中，萃取癌症和異型增生等重要診斷，連複雜案例也適用。只用簡單「是/否」提示，在美國退伍軍人健康管理局資料庫中，診斷準確率超過93%。這方法不但省資源、設定簡單，還能大規模應用，對臨床和研究都很有幫助。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Utilizing Deep Learning to Identify Electron-Dense Deposits in Renal Biopsy Electron Microscopy Images.
運用深度學習於腎臟切片電子顯微鏡影像中辨識電子高密度沉積物 Am J Nephrol 2025-05-19

這項研究用ResNet18深度學習模型，訓練超過4,000張腎臟切片EM影像，能自動判斷電子緻密沉積物的位置，AUC高達0.928–0.987，表現比資深醫師還好。團隊也開發網頁工具，讓臨床醫師能快速上傳影像並獲得自動判讀結果，提升效率與一致性。 PubMed DOI

Large language models for dermatological image interpretation - a comparative study.
皮膚科影像判讀之大型語言模型比較研究 Diagnosis (Berl) 2025-05-27

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現，GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大，有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說，這些模型在皮膚科影像判讀有潛力，但目前還有不少限制，未來需結合臨床資料才能更可靠。 PubMed DOI

Diagnostic Performance of Publicly Available Large Language Models in Corneal Diseases: A Comparison with Human Specialists.
公開大型語言模型在角膜疾病診斷表現之評估：與人類專科醫師的比較 Diagnostics (Basel) 2025-05-28

這項研究發現，GPT-4.o 在診斷角膜疾病的準確率最高（80%），但還是比不上人類角膜專科醫師（92.5%）。雖然 GPT-4.o 等大型語言模型有潛力，但在複雜病例上表現不穩定，目前只能當作輔助工具，臨床決策還是得靠專家判斷。 PubMed DOI

Artificial Intelligence-Based Hospital Malnutrition Screening: Validation of a Novel Machine Learning Model.
基於人工智慧的醫院營養不良篩檢：新型機器學習模型的驗證 Appl Clin Inform 2025-06-16

這個AI模型結合電子病歷和大型語言模型，能準確找出住院病人有營養不良風險，表現比傳統護理師篩檢工具更好，AUC最高達0.95。它也能更有效預測再住院和死亡風險，有助提升醫院營養不良偵測效率。 PubMed DOI

Clinical Application of Large Language Models in Generating Pathologic Images.
大型語言模型於產生病理影像的臨床應用 JCO Clin Cancer Inform 2025-07-02

這項研究發現，DALL·E 3 能生成高品質的前列腺癌病理影像，特別是 Gleason 5 分級，對教學有幫助。雖然細胞核細節還不夠精細，但整體表現不錯。不過，AI 影像有被濫用的風險，技術人員和醫師必須密切合作並加強監督。 PubMed DOI

原始文章

站上相關主題文章列表