原始文章

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI


站上相關主題文章列表

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

最近的研究探討大型語言模型(LLMs)在臨床決策和考試問題回答的有效性,特別是視覺語言模型(VLMs)的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示,所有LLMs在文本問題中均達及格,但只有GPT-4在圖像問題中超過及格,表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現,顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

最近生成式人工智慧的進展,特別是像GPT-4 V這樣的多模態模型,顯示出在分析視覺和文本數據方面的潛力,對醫療保健,尤其是眼科,可能帶來重大影響。本研究評估了GPT-4 V在診斷眼部疾病的能力,結果顯示提供臨床背景能顯著提升診斷準確性。沒有背景時,GPT-4 V的正確率為47.5%,有背景時提升至67.5%。這顯示GPT-4 V能有效整合視覺與文本信息,對改善眼科病患護理有潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究比較三款多模態大型語言模型在解讀放射影像的表現,發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字,都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說,善用提示工程和豐富輸入資料,有助提升 LLMs 在放射科的應用效能。 PubMed DOI

這項研究發現,GPT-4在診斷複雜眼科病例時,如果只有圖片沒文字,準確率會明顯下降;但有圖片說明時,表現就會提升。整體來說,GPT-4的表現和部分眼科醫師差不多,但還不及最頂尖的專家。顯示它目前在眼科影像判讀上還有進步空間,但未來有潛力成為臨床輔助工具。 PubMed DOI

這項研究比較GPT-4、GPT-4V和GPT-4o三種AI在眼科診斷題的表現,發現多模態的GPT-4o準確率最高(77.1%),明顯優於其他模型,也比一般大眾好。結果顯示,結合圖片能大幅提升AI診斷能力,多模態AI在醫療應用上很有潛力。 PubMed DOI

這項研究發現,GPT-4o 和 Claude Sonnet 3.5 這兩款AI模型,經過少量範例訓練後,診斷OCT影像的準確率最高可達73%。雖然還不如專業深度學習模型,但在日常眼科診斷、特別是判斷正常個案時,已展現輔助潛力。未來需更多研究結合影像和臨床資料來提升表現。 PubMed DOI

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現,GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大,有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說,這些模型在皮膚科影像判讀有潛力,但目前還有不少限制,未來需結合臨床資料才能更可靠。 PubMed DOI