原始文章

勃起功能障礙(ED)是影響男性性健康的常見問題。本研究評估了兩個AI聊天機器人,ChatGPT和Gemini,對ED相關問題的回答質量。研究發現,ChatGPT成功回答所有15個問題,而Gemini則未能回答兩個。質量評估顯示,Gemini的低質量回答較多,且兩位泌尿科醫生對ChatGPT的評分一致性為92%,Gemini則為95%。雖然這些AI能快速回應,但仍無法取代醫療專業人員的護理,需進一步改進。 PubMed DOI


站上相關主題文章列表

本研究探討人工智慧,特別是自然語言處理模型如ChatGPT,對於男性根治性前列腺切除術後勃起功能障礙(ED)患者的教育與知情同意的潛力。結果顯示,雖然ChatGPT能提供有關陰莖假體植入手術的資訊,但其質量和可理解性仍不足以幫助患者做出知情決策。評估結果顯示資訊的清晰度高,但複雜主題的理解度較低,顯示出改進AI生成內容的必要性。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量,並透過病人教育材料評估工具(PEMAT)檢視可理解性和可行性。結果顯示,回應質量高(中位分數4),可理解性良好(中位72.7%),但可行性較差(中位20%)。可讀性較難,Claude 3.0提供最可靠的回應,而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

這項研究比較了ChatGPT和Google Gemini在回答周邊動脈疾病(PAD)相關問題的表現。共評估72個常見問題和63個基於歐洲心臟病學會指導方針的問題。結果顯示,ChatGPT在準確性和滿意度上優於Google Gemini,分別有70.8%和69.8%的回答獲得最高評分GQS 5,而Google Gemini則為55.6%和50.8%。不過,Google Gemini的回應速度較快。總體來看,ChatGPT在準確性和滿意度上表現更佳。 PubMed DOI

這項研究比較了兩個聊天機器人,ChatGPT-4 和 Google Gemini,對於良性肛門疾病問題的回答。研究者提出30個問題,專家評估後發現兩者的回應都相當適當且全面,但 Google Gemini 在適當性、全面性及參考資料方面表現更佳,且評估一致性較高。語言複雜度方面,ChatGPT 的回答較難理解,適合的閱讀水平高於 Google Gemini。總體來看,Google Gemini 更適合提供良性肛門疾病的資訊。 PubMed DOI

這項研究評估了五款AI聊天機器人在歐洲泌尿學會的在職評估測試中的表現。596道問題來自2017至2022年的考試,分為知識型和數據解釋型。結果顯示,除了Claude 3.5外,其他四款聊天機器人均達到60%以上的及格分數,其中Copilot Pro表現最佳,得分71.6%。Claude 3.5則明顯落後,得分僅56.2%。雖然這些聊天機器人具備理論知識,但在分析和解釋能力上仍有待加強。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛,許多人會在就醫前尋找健康資訊。研究發現,這三款聊天機器人的可讀性均超過六年級水平,其中Gemini最佳。質量方面,Gemini得分較高,而Perplexity在可靠性評估中表現較好。總體來說,這些聊天機器人的回應難以閱讀,且可靠性和質量較低,無法取代專業醫療諮詢,建議改善可讀性並加強專家監督。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Llama—對早洩問題的回應,分析了它們對25個常見問題的回答。可讀性透過FRES和FKGL分數評估,質量則用修改版DISCERN (mDISCERN)和EQIP分數來衡量。結果顯示,三者的可讀性相似,但在質量上,Llama得分最高(72.2),Gemini次之(67.6),ChatGPT最低(63.1),差異顯著。mDISCERN方面,ChatGPT中位數為2,Gemini和Llama均為3,顯示資訊質量的明顯差異。總體來看,Llama在質量上表現最佳。 PubMed DOI

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示,ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分,平均3.98/4,特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說,ChatGPT目前最可靠,但所有AI還需進一步改進和臨床驗證。 PubMed DOI

這項研究比較了ChatGPT-4、Gemini Pro和Llama 3.1三款AI聊天機器人在陰莖增大資訊上的表現。結果顯示,Llama 3.1在資訊可靠性和品質上表現最佳,但三款AI的回答都偏難懂,沒有提供容易理解的答案。 PubMed DOI