Pre-trained multimodal large language model enhances dermatological diagnosis using SkinGPT-4.
使用 SkinGPT-4 預先訓練的多模式大型語言模型增強皮膚科診斷。 Nat Commun 2024-07-05

LLMs在醫學診斷上有潛力，尤其在皮膚科。SkinGPT-4結合視覺轉換器和LLM，訓練過大量數據後，能準確診斷皮膚問題。已通過真實案例驗證，可提供互動治療建議。 PubMed DOI

Claude 3 Opus and ChatGPT With GPT-4 in Dermoscopic Image Analysis for Melanoma Diagnosis: Comparative Performance Analysis.
Claude 3 Opus 與 ChatGPT 在皮膚鏡影像分析中對於黑色素瘤診斷的比較性能分析。 JMIR Med Inform 2024-08-06

最近在人工智慧（AI）和大型語言模型（LLMs）方面的進展，特別是在皮膚科，顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT（GPT-4）在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示，Claude 3 Opus在惡性區分上表現較佳，敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力，但仍存在錯誤，強調了AI與臨床醫生合作的重要性，以開發更可靠的診斷工具。 PubMed DOI

Evaluating text and visual diagnostic capabilities of large language models on questions related to the Breast Imaging Reporting and Data System Atlas 5<sup>th</sup> edition.
評估大型語言模型在與乳腺影像報告與數據系統 Atlas 第五版相關問題的文本和視覺診斷能力。 Diagn Interv Radiol 2024-09-09

這項研究評估大型語言模型（LLMs）在解釋乳腺影像報告及提供臨床建議的表現，分為兩個步驟： 1. **文本評估**：比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳（90%），超過一般放射科醫師（78%）和乳腺放射科醫師（82%）。 2. **視覺評估**：測試五個多模態LLMs在100張乳腺超音波影像上的表現，Claude 3.5 Sonnet以59%準確率領先。研究顯示，雖然LLMs在文本評估中表現良好，但視覺診斷能力有限，需在放射科醫師監督下使用，以避免誤診。 PubMed DOI

Assessing the Impact of ChatGPT in Dermatology: A Comprehensive Rapid Review.
評估 ChatGPT 在皮膚科的影響：一項綜合快速回顧。 J Clin Med 2024-10-16

人工智慧（AI）在皮膚科的應用迅速發展，特別是 ChatGPT 成為患者教育和臨床決策的重要工具。本研究評估了 ChatGPT 在皮膚科的有效性與挑戰，發現其在回答常見皮膚病問題上表現良好，但在複雜病例診斷上仍有困難，且存在信息準確性和倫理問題。未來應謹慎整合 ChatGPT，解決數據隱私和算法偏見等挑戰，並強調其應輔助而非取代醫生的角色。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Exploring the Role of Large Language Models in Melanoma: A Systematic Review.
探討大型語言模型在黑色素瘤中的角色：系統性回顧。 J Clin Med 2024-12-17

本系統性回顧評估大型語言模型（LLMs）在黑色素瘤護理中的應用、優點與挑戰。透過PubMed和Scopus資料庫搜尋截至2024年7月23日的研究，納入九項研究，分為病人教育、診斷和臨床管理三類。結果顯示，LLMs在病人教育上準確性高，但可讀性常超過建議水平；在診斷上，多模態LLMs如GPT-4V能區分黑色素瘤與良性病變，但準確性受影響；在管理建議上，ChatGPT較為可靠，但仍需加強個性化決策能力。未來研究應聚焦於利用多樣化的皮膚科數據庫進行模型微調。 PubMed DOI

Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

Beyond the Surface: Assessing GPT-4's Accuracy in Detecting Melanoma and Suspicious Skin Lesions From Dermoscopic Images.
超越表面：評估 GPT-4 在從皮膚鏡影像中檢測黑色素瘤和可疑皮膚病變的準確性。 Plast Surg (Oakv) 2025-02-21

本研究探討ChatGPT-4在皮膚病變識別的有效性，特別是黑色素瘤的檢測。結果顯示，GPT-4在黑色素瘤的準確率為68.5%，敏感性52.5%，特異性72.5%，與臨床診斷有顯著差異。對於可疑病變的檢測表現較佳，但仍未能與臨床診斷完全匹配。研究指出，需改進算法並擴大數據集，以提升準確性和普遍性。限制因素包括樣本量小及數據來源的特定性。 PubMed DOI

Evaluating and addressing demographic disparities in medical large language models: a systematic review.
評估與解決醫學大型語言模型中的人口統計差異：系統性回顧。 Int J Equity Health 2025-02-26

這項研究回顧了大型語言模型（LLMs）在醫療領域中所引發的人口統計偏見，並強調了相關的擔憂。從2018年到2024年，分析了24項研究，發現91.7%的研究識別出偏見，性別偏見最為普遍（93.7%），種族或民族偏見也高達90.9%。雖然偏見檢測有所改善，但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升，解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

A Comparative Analysis of the Performance of Large Language Models and Human Respondents in Dermatology.
大型語言模型與人類受訪者在皮膚科表現的比較分析。 Indian Dermatol Online J 2025-03-24

這項研究探討大型語言模型（LLMs），如ChatGPT和Microsoft Bing Chat，在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性，並評估了人工幻覺的情況。研究於2023年8月進行，包含60個問題。結果顯示，Bing Chat的表現最佳，平均正確率為78.2%，ChatGPT為59.8%，人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳，而ChatGPT在較難問題上較強。研究指出，儘管LLMs表現優於人類，但在某些領域準確性仍不足，需制定規範以防止濫用。 PubMed DOI

原始文章

站上相關主題文章列表