原始文章

這項研究評估了ChatGPT和Gemini在根據歐洲放射學會iGuide解釋成人腦部CT轉診的表現。結果顯示,歐洲影像轉診指導方針的採用不佳,導致許多不必要的CT掃描。雖然ChatGPT在分析美國指導方針時表現良好,但在這項研究中,兩個聊天機器人在辯護CT轉診方面的表現有限,特別是對模糊案例。研究建議,雖然聊天機器人有潛力,但仍需改進以應對真實世界的挑戰。自訂預測模型的表現則顯著優於聊天機器人。 PubMed DOI


站上相關主題文章列表

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在神經放射學案例的診斷表現。結果顯示,放射科醫師的準確率比ChatGPT高。GPT-4V的ChatGPT表現更差。總結來說,ChatGPT在挑戰性案例的診斷上不如放射科醫師。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了兩個AI語言模型,ChatGPT 4.0和Google Gemini,在回答79個兒科放射學問題上的表現。結果顯示,ChatGPT 4.0的準確率為83.5%,而Google Gemini則為68.4%,差異顯著(p=0.0255,RR=1.221)。雖然ChatGPT 4.0整體上表現較佳,但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入,以更全面評估AI模型在放射學的有效性。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示,ChatGPT-4o的準確性最高,達87%,而ChatGPT-3.5雖然速度最快,但準確性最低,僅50.5%。Google Gemini Advanced的準確性為82.6%,而Google Gemini的失敗率較高,達12%。總體來看,雖然這些模型展現潛力,但在臨床應用前仍需改進。 PubMed DOI

這項研究評估了ChatGPT在泌尿科醫學影像解讀的有效性,特別是CT和MRI影像。結果顯示,ChatGPT在14%的CT和28%的MRI案例中準確識別首要診斷,雖然無顯著差異,但加入器官指導後,CT影像的準確率提升了18%。整體來看,雖然ChatGPT的初步有效性有限,但在用戶指導下,其表現可顯著改善,顯示AI在臨床應用中的潛力與限制。 PubMed DOI

這項研究評估了AI工具ChatGPT和Google Gemini在製作腹部超音波、CT掃描和MRI病患教育手冊的效果。研究於2024年6月進行,持續一週,分析了字數、句子數、可讀性和內容可靠性等指標。結果顯示,除了ChatGPT的字數和年級水平較高外,兩者在大多數指標上差異不大。兩個工具的內容在可讀性和可靠性上相似,但字數和複雜度的差異顯示需要更好地調整內容,以符合不同病患的識字能力。 PubMed DOI

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現,並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示,ChatGPT-4o識別病變的準確率為95.7%,但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%,遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好,但在診斷上仍需改進,未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI