原始文章

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 PubMed DOI


站上相關主題文章列表

這項研究指出,人工智慧(AI)在兒童放射學的應用上存在重大差距,特別是針對最新的大型語言模型(LLMs),如GPT-4、Gemini 1.5 Pro和Claude 3 Opus。測試結果顯示,這些模型在90張兒童放射影像中,正確診斷率僅27.8%,部分正確率13.3%,錯誤率高達58.9%。研究顯示,儘管多模態LLMs能處理多種輸入,但目前仍缺乏準確解讀兒童放射影像的專業能力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI

這項研究評估了幾款先進的多模態大型語言模型(LLMs),如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro,針對日本核醫學考試(JNMBE)問題的表現。分析了92道問題,結果顯示在使用文字和圖片的情況下,模型的準確性並無顯著差異。GPT-4o和Claude 3 Opus在多模態下的準確率為54.3%,而僅用文字時達71.7%。Gemini 1.5 Pro的表現則較差。研究指出,當前LLMs在核醫學的診斷能力不足,需加強圖片資訊的使用,以提升其在教育和實踐中的有效性。 PubMed DOI

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射科考試問題時的表現,特別是當問題包含影像時。研究選取了280個問題,測試了三個模型:GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet,使用多模態、僅影像和僅文字三種提示格式。 結果顯示,GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%,而Claude 3.5 Sonnet在僅文字(63%)和多模態(66%)的表現上明顯優於僅影像(48%)。整體來看,這些模型未能有效利用影像來提升表現,顯示出進一步研究的潛力。 PubMed DOI

這項研究評估了多模態大型語言模型(LLMs)在解讀放射影像的準確性,並與不同經驗的人類讀者進行比較。研究回顧了272個案例,使用了如GPT-4 Omni等LLMs,並收集了初任教職放射科醫師、臨床醫師和醫學生的回應。 主要發現包括:GPT-4 Omni的準確率為59.6%,超過醫學生的47.1%,但仍低於初任教職的80.9%和訓練中的放射科醫師的70.2%。LLMs在較長文本輸入下表現較佳,顯示文本長度對準確性有顯著影響。總體來說,LLMs的準確性不錯,但仍需注意文本長度的影響。 PubMed DOI

最近的研究探討大型語言模型(LLMs)在臨床決策和考試問題回答的有效性,特別是視覺語言模型(VLMs)的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示,所有LLMs在文本問題中均達及格,但只有GPT-4在圖像問題中超過及格,表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現,顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

最近生成式人工智慧的進展,特別是像GPT-4 V這樣的多模態模型,顯示出在分析視覺和文本數據方面的潛力,對醫療保健,尤其是眼科,可能帶來重大影響。本研究評估了GPT-4 V在診斷眼部疾病的能力,結果顯示提供臨床背景能顯著提升診斷準確性。沒有背景時,GPT-4 V的正確率為47.5%,有背景時提升至67.5%。這顯示GPT-4 V能有效整合視覺與文本信息,對改善眼科病患護理有潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI