Evaluating Large Language Model (LLM) Performance on Established Breast Classification Systems.
評估大型語言模型 (LLM) 在既定乳腺分類系統上的表現。 Diagnostics (Basel) 2024-07-27

醫學研究人員越來越多地使用先進的語言模型（LLMs），如ChatGPT-4和Gemini，來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力，以協助整形外科醫生做出更好的診斷和治療決策。研究中創建了五十個臨床情境來評估分類準確性，結果顯示Gemini的準確率高達98%，而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4，顯示出其在整形外科實踐中的潛力，未來有望增強診斷支持和決策能力。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

Generative AI chatbots for reliable cancer information: Evaluating web-search, multilingual, and reference capabilities of emerging large language models.
生成式 AI 聊天機器人提供可靠癌症資訊：評估新興大型語言模型的網路搜尋、多語言及參考能力。 Eur J Cancer 2025-02-08

最近大型語言模型（LLMs）在即時搜尋和多語言支持上有了顯著進展，但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示，英語回應中沒有臨床錯誤，但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用，但39%的英語引用來自.com網站，質量堪憂。此外，英語回應的閱讀水平普遍較高，非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進，持續的基準測試是必要的。 PubMed DOI

A preliminary investigation into the potential, pitfalls, and limitations of large language models for mammography interpretation.
大型語言模型在乳房X光檢查解讀中的潛力、陷阱與限制的初步研究。 Discov Oncol 2025-02-24

這項研究評估了GPT-4在解讀乳房X光影像的表現，使用了120張影像，分為有發現和無發現兩類。GPT-4的正確識別率為53.3%，在微鈣化和腫塊的識別上，敏感度為50.0%，特異度為37.5%。研究顯示出許多假陽性和假陰性，並出現幻覺現象，顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險，呼籲對醫療AI工具進行專門訓練和驗證，以確保其臨床可靠性與安全性。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

Can ChatGPT detect breast cancer on mammography?
ChatGPT 能夠在乳房攝影檢查中偵測乳癌嗎？ J Med Screen 2025-04-22

這項研究發現，基於ChatGPT的工具在乳房X光片找腫塊的表現還可以，但在判斷乳房密度、腫瘤大小、位置、微鈣化和淋巴結侵犯等細節時，準確度不高。跟放射科醫師的BI-RADS評分一致性也只有普通到中等。總結來說，目前這類AI還不適合用在乳癌篩檢的全面影像分析。 PubMed DOI

The Role of Large Language Models (LLMs) in Breast Imaging Today and in the Near Future.
大型語言模型（LLMs）在乳房影像學現今及近期未來的角色 J Magn Reson Imaging 2025-05-05

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力，可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過，目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具，無法取代醫師，導入臨床還需嚴謹訓練和監督。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Large Language Models as a Consulting Hotline for Patients With Breast Cancer and Specialists in China: Cross-Sectional Questionnaire Study.
大型語言模型作為中國乳癌患者與專科醫師的諮詢熱線：橫斷式問卷研究 JMIR Med Inform 2025-05-27

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示，英文版 ChatGPT 答案最準確、最實用，特別適合一般病患提問。不過，兩款 LLM 在專業問題上表現都不佳，且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策，資料安全和法律風險也需注意，未來還要進一步研究。 PubMed DOI

原始文章

站上相關主題文章列表