Visual-textual integration in LLMs for medical diagnosis: A preliminary quantitative analysis.
大型語言模型在醫學診斷中的視覺-文本整合：初步定量分析。 Comput Struct Biotechnol J 2025-01-24

這項研究探討了多模態大型語言模型（LLMs），特別是GPT-4o和Claude Sonnet 3.5，如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試，結果顯示在只有文本的情況下，GPT-4o的準確率為70.8%，遠超醫生的39.5%。當加入圖片時，所有參與者的表現都有提升，尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%，而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強，以達到人類醫生的表現。 PubMed DOI

A Comparative Analysis of the Performance of Large Language Models and Human Respondents in Dermatology.
大型語言模型與人類受訪者在皮膚科表現的比較分析。 Indian Dermatol Online J 2025-03-24

這項研究探討大型語言模型（LLMs），如ChatGPT和Microsoft Bing Chat，在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性，並評估了人工幻覺的情況。研究於2023年8月進行，包含60個問題。結果顯示，Bing Chat的表現最佳，平均正確率為78.2%，ChatGPT為59.8%，人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳，而ChatGPT在較難問題上較強。研究指出，儘管LLMs表現優於人類，但在某些領域準確性仍不足，需制定規範以防止濫用。 PubMed DOI

Dermacen analytica: A novel methodology integrating multi-modal large language models with machine learning in dermatology.
Dermacen analytica：一種將多模態大型語言模型與機器學習整合於皮膚科的新方法。 Int J Med Inform 2025-03-28

這項研究提出了一種新穎的人工智慧方法，幫助皮膚科醫生診斷皮膚疾病，模擬專業診斷過程。它結合了影像分析、語言模型和機器學習工具，採用多種AI技術來提升決策能力。測試數據集顯示，準確率達87%，顯示出良好的推理和診斷能力。這項研究不僅驗證了AI在皮膚科的應用潛力，還提出了未來實施的策略框架，以改善病人經驗。 PubMed DOI

Evaluating Sex and Age Biases in Multimodal Large Language Models for Skin Disease Identification from Dermatoscopic Images.
評估多模態大型語言模型在從皮膚鏡影像識別皮膚疾病時的性別和年齡偏見。 Health Data Sci 2025-04-02

這項研究評估了多模態大型語言模型（LLMs）在識別皮膚疾病的應用，並檢視性別和年齡的偏見。研究中使用了ChatGPT-4和LLaVA-1.6，結果顯示它們的準確率和F1分數超過了多個深度學習模型，但仍低於最佳的視覺變壓器模型。值得注意的是，ChatGPT-4和LLaVA-1.6在性別和年齡方面沒有偏見，顯示出在皮膚科應用中的潛力。未來需進一步研究以確保這些模型在醫療中的可靠性與公平性。 PubMed DOI

A Systemic Review of Large Language Models and Their Implications in Dermatology.
大型語言模型及其在皮膚科的影響之系統性回顧。 Australas J Dermatol 2025-04-06

這篇論文針對大型語言模型在皮膚科的應用進行全面評估，探討如何整合各種病人數據，如人口統計、臨床影像、醫療訪談和基因資訊。論文強調這些模型能提升診斷準確性、治療建議及病人教育。透過回顧現有研究，旨在識別主要挑戰並探索未來機會，最終目標是改善病人健康結果及與醫療提供者的互動。 PubMed DOI

Evaluating the Diagnostic and Treatment Capabilities of GPT-4 Vision in Dermatology: A Pilot Study.
GPT-4 Vision 在皮膚科診斷與治療能力之評估：初步研究 J Cutan Med Surg 2025-05-06

這項研究發現，GPT-4V在診斷皮膚病時，單用文字的準確率很高（89%），只看圖片就明顯下降（54%），圖片加文字也沒更好。治療建議方面，GPT-4V表現不錯但還沒達到專家水準，圖片加文字時最好。整體來說，GPT-4V適合當輔助工具，尤其擅長處理文字，但圖片判讀和多模態整合還需加強。 PubMed DOI

Diagnostic Performance of Publicly Available Large Language Models in Corneal Diseases: A Comparison with Human Specialists.
公開大型語言模型在角膜疾病診斷表現之評估：與人類專科醫師的比較 Diagnostics (Basel) 2025-05-28

這項研究發現，GPT-4.o 在診斷角膜疾病的準確率最高（80%），但還是比不上人類角膜專科醫師（92.5%）。雖然 GPT-4.o 等大型語言模型有潛力，但在複雜病例上表現不穩定，目前只能當作輔助工具，臨床決策還是得靠專家判斷。 PubMed DOI

Image-Based Diagnostic Performance of LLMs vs CNNs for Oral Lichen Planus: Example-Guided and Differential Diagnosis.
口腔扁平苔癬的影像診斷表現：大型語言模型（LLMs）與卷積神經網路（CNNs）的比較—以範例引導與鑑別診斷為例 Int Dent J 2025-06-07

這項研究發現，雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯，但在診斷口腔扁平苔癬時，整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選，LLMs還不適合直接應用於臨床。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

A Multimodal Large Language Model as an End-to-End Classifier of Thyroid Nodule Malignancy Risk: Usability Study.
多模態大型語言模型作為甲狀腺結節惡性風險的端對端分類器：可用性研究 JMIR Form Res 2025-08-19

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現，發現商業版 o3 準確度和一致性最好，但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助，但提升有限。總結來說，這些 AI 工具還不夠成熟，還需要再改進才能安全用在臨床診斷上。 PubMed DOI

原始文章

站上相關主題文章列表