The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Diagnostic performance of advanced large language models in cystoscopy: evidence from a retrospective study and clinical cases.
先進大型語言模型在膀胱鏡檢查中的診斷表現：來自回顧性研究和臨床案例的證據。 BMC Urol 2025-03-29

這項研究評估了大型語言模型（LLMs）在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像，結果顯示整體診斷準確率為89.2%。其中，ChatGPT-4 V的準確率為82.8%，Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤，ChatGPT-4 V達92.2%；膀胱炎檢測則高達94.5%。然而，對良性前列腺增生的準確率較低，分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具，但需進一步提升其診斷準確性。 PubMed DOI

Development of a Synthetic Oncology Pathology Dataset for Large Language Model Evaluation in Medical Text Classification.
用於大型語言模型醫學文本分類評估的合成腫瘤病理資料集開發 Stud Health Technol Inform 2025-04-24

這項研究用大型語言模型（像是 Copilot、ChatGPT Plus、Perplexity Pro）生成227份腫瘤病理報告的合成資料集，涵蓋前列腺癌、肺癌和乳癌，惡性與良性比例平均。資料集經專業癌症登記員驗證，完全沒用到真實病患資料，可作為AI病理報告分類的標準測試集，兼顧隱私與可重現性。 PubMed DOI

Enhancing Malignancy Detection and Tumor Classification in Pathology Reports: A Comparative Evaluation of Large Language Models.
提升病理報告中惡性腫瘤偵測與腫瘤分類的能力：大型語言模型的比較評估 Stud Health Technol Inform 2025-04-24

這項研究用GPT-4o和Llama3.3等大型語言模型，測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示，這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀，有機會讓癌症登記流程更快、更可靠，提升公共衛生和臨床照護品質。 PubMed DOI

Synthetic medical education in dermatology leveraging generative artificial intelligence.
運用生成式人工智慧於皮膚科的合成醫學教育 NPJ Digit Med 2025-05-04

GPT-4 這類大型語言模型能產出高品質、完整又準確的臨床案例，對醫學教育很有幫助，專家也給予高度肯定，認為風險和偏見都很低。不過，目前在族群多元性上還有待加強。未來若能補足這點，LLM 有機會讓醫學教育更大規模、也更客製化。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

Evaluating generative AI models for explainable pathological feature extraction in lung adenocarcinoma grading assessment and prognostic model construction.
用於肺腺癌分級評估與預後模型建構之可解釋性病理特徵擷取的生成式AI模型評估 Int J Surg 2025-05-28

這項研究比較三款主流視覺生成式AI（GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro）在辨識與分級肺腺癌組織學型態的表現。結果發現，Claude-3.5-Sonnet的分級準確率最高，穩定性也不錯，且結合臨床資料後，預後預測效果佳。整體來說，生成式AI，尤其是Claude-3.5-Sonnet，對肺腺癌病理評估和預後有很大幫助。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

AI's ability to interpret unlabeled anatomy images and supplement educational research as an AI rater.
AI 解讀未標註解剖影像及作為 AI 評分者輔助醫學教育研究之能力 Anat Sci Educ 2025-07-11

這項研究發現，ChatGPT-4o 和 Claude 3.5 Sonnet 在解讀未標註解剖圖的正確率都只有中等，差異不大。雖然 ChatGPT o1-preview 當 AI 評分員時，和專家評分有不錯的一致性，但目前這些 AI 還不夠穩定，暫時不適合直接用在解剖學教學。不過，AI 評分助手在教育研究上有發展潛力，未來還需要再改進。 PubMed DOI

原始文章

站上相關主題文章列表