原始文章

這項研究評估了三個生成式人工智慧(GAI)系統的診斷準確性,包括Gemini Advanced、Gemini和Bard,透過分析392份病例報告來比較它們生成鑑別診斷清單的能力。結果顯示,Gemini的表現最佳,前10名清單中納入最終診斷的比率為76.5%。雖然Gemini Advanced的準確性較低,但整體來說,Gemini在診斷準確性上優於Bard。研究強調這些系統尚未經過臨床驗證,未來仍需改進。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT-3對臨床案例診斷的正確率為93.3%,但醫師的正確率高達98.3%,且更擅長辨識頂級診斷。ChatGPT-3生成的診斷清單中,醫師間一致性為70.5%。總結來說,AI聊天機器人在診斷方面有潛力,但排序仍有改進空間。 PubMed DOI

研究比較了Google Bard與醫師的診斷準確性,結果顯示醫師表現較佳,尤其在案例報告方面。然而,Google Bard在常見案例中表現與醫師相當,顯示其有進步空間。生成式人工智慧如Google Bard未來有望提升診斷準確性。 PubMed DOI

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現,結果顯示隨著溫度設定提高,準確性也增加。儘管放射科醫師整體表現較佳,尤其在高溫度下,但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-4、GPT-4o 和 Gemini Advanced—在解讀心電圖(ECGs)的表現,並與心臟科醫生及急診醫學專家的表現進行比較。研究結果顯示,心臟科醫生的表現始終優於這些模型,急診醫學專家在常規心電圖評估中也超越了GPT-4o。雖然GPT-4o在某些挑戰性案例中展現潛力,但整體準確性和一致性仍不及人類專家,顯示在臨床應用中使用這些模型存在風險。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例,使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示,ChatGPT-4的前10名診斷中,最終診斷納入率最高,達86.7%,其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者,突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

診斷罕見兒科疾病相當具挑戰性,因為這些疾病的表現複雜。本研究評估了三種大型語言模型(LLMs)的診斷表現:GPT-4、Gemini Pro,以及一個整合Human Phenotype Ontology的自訂模型(GPT-4 HPO),針對61個罕見疾病進行分析。結果顯示,GPT-4的準確率為13.1%,而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力,但仍需改進以便更好地融入臨床實踐。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

最近,LLaMA3的生成式人工智慧在大型語言模型的診斷性能上有顯著提升。一項研究分析了392篇2022至2023年發表的案例報告,結果顯示LLaMA3在79.6%的案例中將最終診斷列入前10名,而LLaMA2僅49.7%。此外,LLaMA3在前5名和首要診斷的表現也更佳,分別為63%對38%和33.9%對22.7%。整體來看,LLaMA3的診斷性能改善了近1.5倍,但在臨床應用上仍需謹慎,因為這些AI模型尚未獲得醫學診斷的批准。 PubMed DOI