原始文章

這項研究比較了ChatGPT-4o、Grok和Gemini三款AI在解讀腦部MRI的表現。Gemini在找出病灶最厲害,Grok則最會分辨MRI序列。不過,三款AI目前都還不夠準確,還不能直接用在臨床上,未來還需要再改進,醫療應用上要特別小心。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現,結果顯示隨著溫度設定提高,準確性也增加。儘管放射科醫師整體表現較佳,尤其在高溫度下,但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究探討了大型語言模型(LLMs),如ChatGPT-4o、ChatGPT-3.5和Google Gemini,在輔助放射學研究中的效能。進行了兩個實驗: 1. **生物統計學與數據視覺化**:測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳,正確回答7個問題,且生成的程式碼錯誤較少。 2. **深度學習**:評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼,並透過互動修正錯誤。 總體而言,LLMs對放射學研究有幫助,但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Google Gemini,在神經外科考試影像問題上的表現。共分析379個問題,結果顯示GPT-4o的正確率為51.45%,明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出,且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高,但兩者在影像問題上的表現仍不及傳統考試,顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力,可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過,目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具,無法取代醫師,導入臨床還需嚴謹訓練和監督。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI