原始文章

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI


站上相關主題文章列表

這項分析評估了AI文本生成器的表現,特別是ChatGPT和Google Gemini在回答臨床問題時的表現。結果顯示,ChatGPT提供的文獻資訊相對準確,但在臨床內容上有不一致的情況。相比之下,Google Gemini則產生了完全虛構的引用和摘要。雖然這兩個工具的回應看起來可信,但實際上存在不準確性,這讓它們作為臨床資訊來源的可靠性受到質疑。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究系統性評估了兩個語言學習模型,ChatGPT-4.0 和 Google Bard 的 Gemini Advanced,在眼科問題的回答表現。使用眼科知識評估計畫的題庫,測試了260道選擇題。結果顯示,ChatGPT-4.0 在文字問題上的準確率為57.14%,高於 Gemini Advanced 的46.72%;在簡單問題上,ChatGPT-4.0 得分68.99%,而 Gemini Advanced 為49.61%。在圖像問題上,ChatGPT-4.0 的正確率為39.58%,Gemini Advanced 為33.33%。研究結論認為,ChatGPT-4.0 在眼科選擇題上表現較佳,顯示其在醫學教育中的潛力,但仍需進一步評估其可靠性。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示,ChatGPT-4o的準確性最高,達87%,而ChatGPT-3.5雖然速度最快,但準確性最低,僅50.5%。Google Gemini Advanced的準確性為82.6%,而Google Gemini的失敗率較高,達12%。總體來看,雖然這些模型展現潛力,但在臨床應用前仍需改進。 PubMed DOI

這項研究評估了三種AI模型—ChatGPT-4、ChatGPT-3.5和Google Gemini—在提供多囊卵巢症候群(PCOS)資訊的有效性。結果顯示,ChatGPT-4和3.5在回答準確性和質量上優於Gemini,但Gemini的可讀性較高,讓回答更易懂。此外,Gemini的錯誤資訊傾向較低。總體來看,ChatGPT-4和3.5在臨床上可成為教育患者的有用工具,未來AI技術的進步可能進一步提升其效用。 PubMed DOI

這項研究比較了ChatGPT和Google Gemini生成的病患教育指南,主題包括MRI檢查、乳房攝影篩檢及MR環境中的物品安全性。研究發現,ChatGPT的平均字數和句子數都高於Google Gemini,但可讀性分數顯示ChatGPT的內容更易讀。相似性分數方面,ChatGPT的分數較低,顯示其內容與現有文本的相似度較低。整體來看,雖然兩者在可靠性上相似,但在可讀性和相似性上有所不同。 PubMed DOI

這項研究評估了幾款自然語言處理聊天機器人(如ChatGPT、Gemini和Bing)對冠狀動脈疾病(CAD)問題的回答準確性。每個機器人回答了五十個問題,並由兩位心臟科醫生評分。結果顯示,ChatGPT的正確回答達86%,而Gemini和Bing分別為68%和60%。在重現性方面,ChatGPT得分88%,Gemini為84%,Bing則是70%。總體來看,ChatGPT在提供CAD資訊的準確性和可靠性上表現最佳,顯示其在患者教育上的潛力。 PubMed DOI

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題,結果顯示兩者的平均分數相近(3.55對3.57),且正確回答比例也相似(71.0%對78.4%)。在CDC問題上,兩者的正確率都很高,但在國際指導方針問題上則表現不佳。整體而言,雖然在CDC和社交媒體問題上表現良好,但在指導方針的準確性上仍有待加強。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI