原始文章

這項研究評估了多模態大型語言模型(LLMs)在識別皮膚疾病的應用,並檢視性別和年齡的偏見。研究中使用了ChatGPT-4和LLaVA-1.6,結果顯示它們的準確率和F1分數超過了多個深度學習模型,但仍低於最佳的視覺變壓器模型。值得注意的是,ChatGPT-4和LLaVA-1.6在性別和年齡方面沒有偏見,顯示出在皮膚科應用中的潛力。未來需進一步研究以確保這些模型在醫療中的可靠性與公平性。 PubMed DOI


站上相關主題文章列表

LLMs在醫學診斷上有潛力,尤其在皮膚科。SkinGPT-4結合視覺轉換器和LLM,訓練過大量數據後,能準確診斷皮膚問題。已通過真實案例驗證,可提供互動治療建議。 PubMed DOI

最近在人工智慧(AI)和大型語言模型(LLMs)方面的進展,特別是在皮膚科,顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT(GPT-4)在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示,Claude 3 Opus在惡性區分上表現較佳,敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力,但仍存在錯誤,強調了AI與臨床醫生合作的重要性,以開發更可靠的診斷工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

人工智慧(AI)在皮膚科的應用迅速發展,特別是 ChatGPT 成為患者教育和臨床決策的重要工具。本研究評估了 ChatGPT 在皮膚科的有效性與挑戰,發現其在回答常見皮膚病問題上表現良好,但在複雜病例診斷上仍有困難,且存在信息準確性和倫理問題。未來應謹慎整合 ChatGPT,解決數據隱私和算法偏見等挑戰,並強調其應輔助而非取代醫生的角色。 PubMed DOI

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

本系統性回顧評估大型語言模型(LLMs)在黑色素瘤護理中的應用、優點與挑戰。透過PubMed和Scopus資料庫搜尋截至2024年7月23日的研究,納入九項研究,分為病人教育、診斷和臨床管理三類。結果顯示,LLMs在病人教育上準確性高,但可讀性常超過建議水平;在診斷上,多模態LLMs如GPT-4V能區分黑色素瘤與良性病變,但準確性受影響;在管理建議上,ChatGPT較為可靠,但仍需加強個性化決策能力。未來研究應聚焦於利用多樣化的皮膚科數據庫進行模型微調。 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI

本研究探討ChatGPT-4在皮膚病變識別的有效性,特別是黑色素瘤的檢測。結果顯示,GPT-4在黑色素瘤的準確率為68.5%,敏感性52.5%,特異性72.5%,與臨床診斷有顯著差異。對於可疑病變的檢測表現較佳,但仍未能與臨床診斷完全匹配。研究指出,需改進算法並擴大數據集,以提升準確性和普遍性。限制因素包括樣本量小及數據來源的特定性。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域中所引發的人口統計偏見,並強調了相關的擔憂。從2018年到2024年,分析了24項研究,發現91.7%的研究識別出偏見,性別偏見最為普遍(93.7%),種族或民族偏見也高達90.9%。雖然偏見檢測有所改善,但有效的減緩策略仍在開發中。隨著LLMs在醫療決策中的重要性上升,解決這些偏見對建立公平的人工智慧系統至關重要。未來研究應考慮更廣泛的人口因素及非西方文化背景。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Microsoft Bing Chat,在皮膚科、性病學和麻風問題上的回答效果。研究比較了這些AI模型與12位研究所學生的準確性,並評估了人工幻覺的情況。 研究於2023年8月進行,包含60個問題。結果顯示,Bing Chat的表現最佳,平均正確率為78.2%,ChatGPT為59.8%,人類受訪者則為43%。Bing Chat在簡單和中等難度問題上表現更佳,而ChatGPT在較難問題上較強。研究指出,儘管LLMs表現優於人類,但在某些領域準確性仍不足,需制定規範以防止濫用。 PubMed DOI