原始文章

這項研究比較了ChatGPT-4o、Grok和Gemini三款AI在解讀腦部MRI的表現。Gemini在找出病灶最厲害,Grok則最會分辨MRI序列。不過,三款AI目前都還不夠準確,還不能直接用在臨床上,未來還需要再改進,醫療應用上要特別小心。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

本研究探討大型語言模型(LLMs)在放射學職場管理的有效性,評估了ChatGPT-3.5、ChatGPT-4.0、Gemini及Gemini Advanced的表現。透過31個問題的回應,評估者使用4分制指標進行評分。結果顯示,ChatGPT-4.0在所有類別中表現最佳,且有顯著差異。Gemini Advanced也優於Gemini,顯示出對ChatGPT-3.5的趨勢。所有回應均未被評為「不足」,顯示LLMs能有效提升放射學職場管理效率。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Google Gemini,在神經外科考試影像問題上的表現。共分析379個問題,結果顯示GPT-4o的正確率為51.45%,明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出,且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高,但兩者在影像問題上的表現仍不及傳統考試,顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

這項研究評估了流行的視覺大型語言模型(VLLMs),特別是OpenAI的GPT-4V和Google的Gemini,對於從視網膜影像中識別眼病的表現。研究使用了44張來自新加坡眼病流行病學研究的視網膜照片。結果顯示,GPT-4V在預設模式下的檢測準確率最高,達97.1%,但所有模型在提供診斷描述的質量上普遍較差。研究強調了專業VLLMs在醫療領域的必要性,以及人類監督在臨床眼科中的重要性。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力,可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過,目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具,無法取代醫師,導入臨床還需嚴謹訓練和監督。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI