原始文章

這項研究比較了兩個聊天機器人,ChatGPT-4 和 Google Gemini,對於良性肛門疾病問題的回答。研究者提出30個問題,專家評估後發現兩者的回應都相當適當且全面,但 Google Gemini 在適當性、全面性及參考資料方面表現更佳,且評估一致性較高。語言複雜度方面,ChatGPT 的回答較難理解,適合的閱讀水平高於 Google Gemini。總體來看,Google Gemini 更適合提供良性肛門疾病的資訊。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT生成的胃腸科資訊的質量與可讀性,特別針對對話式和定義式問題的回應。三位認證的胃腸科醫生使用5點李克特量表評估回應的適當性,涵蓋六個類別。結果顯示,44%的對話式回應和69%的定義式回應被認為適當,但與胃腸急症相關的回應則全都不適當。可讀性評估顯示這些內容需大學程度的閱讀能力。總體而言,雖然ChatGPT能生成一般適合的回應,但在適當性和可讀性上仍需改進,才能成為可靠的醫療資訊來源。 PubMed DOI

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

這項研究比較了ChatGPT和Google Gemini生成的病患教育指南,主題包括MRI檢查、乳房攝影篩檢及MR環境中的物品安全性。研究發現,ChatGPT的平均字數和句子數都高於Google Gemini,但可讀性分數顯示ChatGPT的內容更易讀。相似性分數方面,ChatGPT的分數較低,顯示其內容與現有文本的相似度較低。整體來看,雖然兩者在可靠性上相似,但在可讀性和相似性上有所不同。 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT-4和Google Gemini在鼻竇炎患者教育的有效性。研究人員提出109個問題,涵蓋一般知識、診斷、治療、手術和併發症,並由專業耳鼻喉科醫生評估回答。結果顯示,ChatGPT-4在診斷方面表現優異,獲得滿分,而Google Gemini在治療類別中則有較多不準確的回答。整體來看,ChatGPT-4在準確性和全面性上明顯優於Google Gemini。 PubMed DOI

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題,結果顯示兩者的平均分數相近(3.55對3.57),且正確回答比例也相似(71.0%對78.4%)。在CDC問題上,兩者的正確率都很高,但在國際指導方針問題上則表現不佳。整體而言,雖然在CDC和社交媒體問題上表現良好,但在指導方針的準確性上仍有待加強。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

這項研究分析了三款AI聊天機器人(ChatGPT、Perplexity和Gemini)在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字,評估這些機器人提供的資訊是否易懂且可靠。結果顯示,所有機器人的可讀性均高於六年級水平,表示資訊難以理解。Perplexity在質量評估中表現最佳,但整體而言,這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量,以更好地幫助患者。 PubMed DOI

勃起功能障礙(ED)是影響男性性健康的常見問題。本研究評估了兩個AI聊天機器人,ChatGPT和Gemini,對ED相關問題的回答質量。研究發現,ChatGPT成功回答所有15個問題,而Gemini則未能回答兩個。質量評估顯示,Gemini的低質量回答較多,且兩位泌尿科醫生對ChatGPT的評分一致性為92%,Gemini則為95%。雖然這些AI能快速回應,但仍無法取代醫療專業人員的護理,需進一步改進。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛,許多人會在就醫前尋找健康資訊。研究發現,這三款聊天機器人的可讀性均超過六年級水平,其中Gemini最佳。質量方面,Gemini得分較高,而Perplexity在可靠性評估中表現較好。總體來說,這些聊天機器人的回應難以閱讀,且可靠性和質量較低,無法取代專業醫療諮詢,建議改善可讀性並加強專家監督。 PubMed DOI