原始文章

這項研究評估了多模態人工智慧模型在NEJM影像挑戰中的表現,並與人類集體智慧進行比較。結果顯示,人工智慧在臨床診斷上有潛力,但也有其限制。Anthropic的Claude 3系列在準確性上超越了人類平均水平,但人類集體決策的表現仍優於所有人工智慧模型。此外,GPT-4 Vision Preview在較簡單問題上反應更有效,特別是對小圖像和長文字的問題。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT 4.0在放射學診斷測驗中整體準確率為57.86%,不同部位準確率有差異,頭頸部最高。結論指出,人工智慧模型或許可提升放射學診斷能力,對病患照護及醫學教育有正面影響。 PubMed DOI

最新研究指出,GPT-4V在醫學挑戰中超越了人類醫生,尤其在多選問題上表現更準確。研究還探討了GPT-4V在NEJM圖像挑戰中的表現,包括圖像理解、醫學知識回憶和多模態推理。結果顯示,GPT-4V在多選問題上比人類醫生更準確,即使醫生出錯時也是如此。然而,在圖像理解方面,GPT-4V常提供不完整的解釋。在應用於臨床前,有必要進一步評估其推理能力。 PubMed DOI

這項研究評估了將影像資料整合到一個多模式人工智慧系統ChatGPT-4V中對醫學診斷的影響。研究發現,相較於僅有文字的版本,加入影像資料並未顯著提高診斷準確性,視覺元素的貢獻低於預期。這項研究強調了進一步發展人工智慧系統以有效利用視覺資訊,提升醫療保健領域診斷能力的重要性。 PubMed DOI

最近研究顯示,具視覺功能的GPT-4V在某些醫療挑戰中超越人類醫師,特別是在多選題準確性上。透過《新英格蘭醫學雜誌》的影像挑戰,我們分析了GPT-4V在影像理解、醫學知識回憶和多模態推理的表現。結果顯示,GPT-4V的多選題準確率為81.6%,人類醫師則為77.8%。不過,GPT-4V在影像理解方面的推理常有缺陷,出現率高達35.5%。儘管準確率高,研究強調在GPT-4V能有效應用於臨床前,需更深入評估其推理能力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了兩個大型語言AI模型,Claude 3 Opus和Claude 3.5 Sonnet,在放射影像和臨床歷史下的診斷表現。測試分為三種條件:僅臨床歷史、臨床歷史加影像發現,以及臨床歷史加關鍵影像。結果顯示,Sonnet的表現普遍較佳,尤其在條件3中,正確診斷率達30.1%。統計分析顯示,加入關鍵影像和臨床歷史能顯著提高診斷準確性。總體而言,提供全面資料能提升這兩個AI模型的診斷能力。 PubMed DOI

這項研究指出,人工智慧(AI)在兒童放射學的應用上存在重大差距,特別是針對最新的大型語言模型(LLMs),如GPT-4、Gemini 1.5 Pro和Claude 3 Opus。測試結果顯示,這些模型在90張兒童放射影像中,正確診斷率僅27.8%,部分正確率13.3%,錯誤率高達58.9%。研究顯示,儘管多模態LLMs能處理多種輸入,但目前仍缺乏準確解讀兒童放射影像的專業能力。 PubMed DOI

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了具視覺功能的GPT-4V在眼科診斷玻璃體視網膜疾病的表現。研究在巴斯科姆·帕爾默眼科診所進行,分析了2010年至2023年的病人數據。結果顯示,GPT-4V在開放式問題中的診斷準確率為13.7%,而多選題為31.3%。該模型能準確識別後玻璃體脫離等病症,但在開放式問題的有效性有限,顯示出提供複雜醫療建議的挑戰。總體而言,GPT-4V在臨床護理中仍有潛力。 PubMed DOI