原始文章

這項研究評估了三個生成式人工智慧(GAI)系統的診斷準確性,包括Gemini Advanced、Gemini和Bard,透過分析392份病例報告來比較它們生成鑑別診斷清單的能力。結果顯示,Gemini的表現最佳,前10名清單中納入最終診斷的比率為76.5%。雖然Gemini Advanced的準確性較低,但整體來說,Gemini在診斷準確性上優於Bard。研究強調這些系統尚未經過臨床驗證,未來仍需改進。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變(OPMLs)的準確性,特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示,GPT 4o在文本診斷中表現最佳,正確回答27個案例,其次是GPT 4.0、3.5和Gemini。在影像識別方面,GPT 4o也優於Gemini。不過,這些模型的準確性仍未達到專家水平,顯示出中等到良好的協議程度。研究指出,雖然人工智慧在診斷OPMLs上有潛力,但整合進臨床實踐時需謹慎。 PubMed DOI

最近生成式人工智慧(AI)在皮膚科診斷的應用上有了新進展,但臨床準確性仍需進一步評估。一項研究比較了三個AI模型與專業皮膚科醫生的診斷表現,結果顯示這些AI模型的準確性與專家相當,甚至在某些罕見和複雜案例中表現更佳。不過,研究樣本量小且可能存在選擇偏差,未來需要更大且多樣化的數據集來驗證AI的臨床實用性。 PubMed DOI

這項研究評估了ChatGPT和Gemini在複雜腫瘤病例中的醫療決策有效性,並與多學科腫瘤委員會(MTB)專家進行比較。研究在墨西哥城的醫療中心進行,回顧了98個病例。結果顯示,AI系統在影像學檢查的協議程度較低,但在手術和放射治療方面則中等。ChatGPT在手術和化療決策上表現優於Gemini。研究指出,這兩個AI系統在腫瘤學上有潛力,但仍需進一步研究以提升其臨床應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

本研究探討AI模型(如GPT-3.5和GPT-4)在急診科生成病症鑑別診斷的表現,並與急診科醫師的準確性進行比較。結果顯示,ChatGPT-4的準確率為85.5%,略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面,ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值,建議未來進一步探索AI在醫療中的應用。 PubMed DOI

這項研究比較了經驗豐富的社區護理師與先進的生成式人工智慧(GenAI)在診斷準確性和臨床決策能力的表現。研究於2024年5至6月進行,114名以色列護理師參與,並針對四個醫療案例進行問卷調查。同時,收集了三個GenAI模型的回應。結果顯示,在10字限制下,護理師的準確性優於GenAI,雖然GenAI回應速度較快,但常顯得冗長。研究認為,儘管GenAI有潛力輔助護理,但目前人類醫師在臨床推理上仍具優勢,需進一步研究才能有效取代護理專業知識。 PubMed DOI

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain,在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時,DXplain雖然正確診斷次數較多,但差異不顯著。有檢驗數據後,三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力,有望提升診斷支援效果。 PubMed DOI

這項研究比較了多款主流大型語言模型(如Claude、GPT、Gemini)在臨床診斷上的表現。結果顯示,這些AI在常見病例的診斷準確率都超過九成,Claude 3.7甚至有滿分表現;在複雜案例中,Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調,未來應把AI工具實際整合進臨床與醫學教育,提升照護品質。 PubMed DOI