原始文章

這項研究發現,ChatGPT-4o在回答小兒夜間遺尿常見問題時,正確率最高(92.5%),表現優於Gemini和Copilot。雖然ChatGPT-4o在簡單醫療問題上很可靠,但AI建議還是要搭配醫師專業判斷使用。 PubMed DOI


站上相關主題文章列表

這項研究評估了十個熱門AI聊天機器人(如GPT-4)的女性尿失禁患者資訊的可讀性與品質。研究使用特定提示,透過EQIP技術和QUEST工具來評估內容品質,並計算八種可讀性公式的平均值。結果顯示,聊天機器人之間的品質差異明顯,Gemini得分最高,Grok最低。可讀性方面,Grok最易讀,Mistral則最複雜。這些結果顯示,AI聊天機器人需改進,以提升女性尿失禁患者資訊的可讀性與品質。 PubMed DOI

這項研究評估了三種AI模型—ChatGPT-4、ChatGPT-3.5和Google Gemini—在提供多囊卵巢症候群(PCOS)資訊的有效性。結果顯示,ChatGPT-4和3.5在回答準確性和質量上優於Gemini,但Gemini的可讀性較高,讓回答更易懂。此外,Gemini的錯誤資訊傾向較低。總體來看,ChatGPT-4和3.5在臨床上可成為教育患者的有用工具,未來AI技術的進步可能進一步提升其效用。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量,並透過病人教育材料評估工具(PEMAT)檢視可理解性和可行性。結果顯示,回應質量高(中位分數4),可理解性良好(中位72.7%),但可行性較差(中位20%)。可讀性較難,Claude 3.0提供最可靠的回應,而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究比較三款AI聊天機器人回答腕隧道症候群相關問題的表現。ChatGPT-4o 回答最詳細,但 AMBOSS GPT 的答案最常被 UpToDate 證實,正確率最高。總結來說,GPT-4o 資訊多,AMBOSS GPT 則較可靠。 PubMed DOI

這項研究比較了ChatGPT-3.5、Copilot和Gemini三款聊天機器人,發現它們回答根管再治療相關問題時,內容都太難懂,超過一般病人能輕鬆理解的程度。雖然Gemini表現最好,但還是沒達到理想的衛教標準,顯示這些AI工具未來還需要加強,才能真正幫助病人了解醫療資訊。 PubMed DOI

這項研究比較了三款AI聊天機器人在土耳其醫學專科考試急診醫學題目的表現,發現 Copilot 錯誤率最低,Gemini 錯誤率最高。三款AI在創傷、外科、燒燙傷和小兒題目表現較差,遇到機率題時錯誤率也會增加。雖然AI能輔助學習,但不建議當作醫學考試的主要讀書工具。 PubMed DOI

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示,ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分,平均3.98/4,特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說,ChatGPT目前最可靠,但所有AI還需進一步改進和臨床驗證。 PubMed DOI

研究比較了ChatGPT、Google Gemini和Microsoft Copilot在小兒眼科選擇題的表現,Copilot正確率最高(74%),也最容易閱讀。雖然這些AI對學習有幫助,但答案不一定完全正確,使用時還是要多加留意。 PubMed DOI

這項研究比較了三款AI聊天機器人回答兒童O型腿和X型腿問題的表現。結果發現,ChatGPT和Gemini的答案比Copilot更正確、內容也更完整,但三者在表達清楚度和錯誤資訊風險上差不多。整體來說,AI可以協助提供健康資訊,但在兒科醫療領域,專家審核還是很重要。 PubMed DOI