原始文章

這項研究評估了ChatGPT和Gemini在根據歐洲放射學會iGuide解釋成人腦部CT轉診的表現。結果顯示,歐洲影像轉診指導方針的採用不佳,導致許多不必要的CT掃描。雖然ChatGPT在分析美國指導方針時表現良好,但在這項研究中,兩個聊天機器人在辯護CT轉診方面的表現有限,特別是對模糊案例。研究建議,雖然聊天機器人有潛力,但仍需改進以應對真實世界的挑戰。自訂預測模型的表現則顯著優於聊天機器人。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了AI工具ChatGPT和Google Gemini在製作腹部超音波、CT掃描和MRI病患教育手冊的效果。研究於2024年6月進行,持續一週,分析了字數、句子數、可讀性和內容可靠性等指標。結果顯示,除了ChatGPT的字數和年級水平較高外,兩者在大多數指標上差異不大。兩個工具的內容在可讀性和可靠性上相似,但字數和複雜度的差異顯示需要更好地調整內容,以符合不同病患的識字能力。 PubMed DOI

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現,並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示,ChatGPT-4o識別病變的準確率為95.7%,但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%,遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好,但在診斷上仍需改進,未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

這項研究評估了ChatGPT和Gemini在複雜腫瘤病例中的醫療決策有效性,並與多學科腫瘤委員會(MTB)專家進行比較。研究在墨西哥城的醫療中心進行,回顧了98個病例。結果顯示,AI系統在影像學檢查的協議程度較低,但在手術和放射治療方面則中等。ChatGPT在手術和化療決策上表現優於Gemini。研究指出,這兩個AI系統在腫瘤學上有潛力,但仍需進一步研究以提升其臨床應用。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在根據低劑量電腦斷層掃描(LDCT)報告分配Lung-RADS分數的表現。分析了242份報告,測試了四個模型:ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示,ChatGPT-4o準確率最高,達83.6%,而ChatGPT-3.5為70.1%。反應時間方面,ChatGPT-3.5最快,約4秒。雖然ChatGPT-4o表現優於其他模型,但仍未達到人類放射科醫生的準確性,未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性,並與經驗豐富的外科醫生進行比較。結果顯示,ChatGPT-4o的準確率最高,但精確度較低;DeepSeek-V3表現中等,偶爾漏掉正確方案;而Gemini 1.5則表現不佳。結論指出,雖然AI能增強臨床流程,但在複雜案例中仍無法取代人類專業,且需解決倫理問題才能廣泛應用。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI