原始文章

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Llama—對早洩問題的回應,分析了它們對25個常見問題的回答。可讀性透過FRES和FKGL分數評估,質量則用修改版DISCERN (mDISCERN)和EQIP分數來衡量。結果顯示,三者的可讀性相似,但在質量上,Llama得分最高(72.2),Gemini次之(67.6),ChatGPT最低(63.1),差異顯著。mDISCERN方面,ChatGPT中位數為2,Gemini和Llama均為3,顯示資訊質量的明顯差異。總體來看,Llama在質量上表現最佳。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT對勃起功能障礙(ED)相關問題的回答,包括準確性、易讀性和可重複性。ChatGPT在疾病流行病學和治療風險以及諮詢方面提供了準確的回答,但對治療選項的理解不完整。回答通常易讀,但有時對一般患者來說過於專業。在不同問題領域中,可重複性有所不同。 PubMed DOI

這項研究評估了五個人工智慧聊天機器人對於有關勃起功能障礙的熱門搜尋查詢的回應。Bard使用最簡單的語言和易讀性,而Copilot提供了最高品質的回應。然而,這些聊天機器人都未達到必要的易讀性標準,但新的聊天機器人模型正在進行改進,以提供更好的指導給患者。 PubMed DOI

研究發現,ChatGPT 3.5和ChatGPT 4在處理勃起功能障礙相關問題時比BARD更準確。建議加強人工智慧醫學資訊的品質,以提供可靠的勃起功能障礙資訊。 PubMed DOI

這項研究評估了ChatGPT對於有關早洩的常見問題所產生回應的品質、易讀性和理解度。研究結果顯示對於ChatGPT提供的資訊品質和理解度存在疑慮,指出有改進的必要。所產生的文字被發現較為複雜且難以理解,特別是與治療選項相關的內容。該研究建議ChatGPT並非全面醫療建議的替代品。 PubMed DOI

人工智慧聊天機器人如ChatGPT對醫療資訊分享有顯著影響,尤其在泌尿學領域,像IPP手術。研究發現,ChatGPT在回答IPP手術問題時,有70%的回答優秀,20%令人滿意,只需少量澄清,但也有10%需要大量澄清。總體而言,ChatGPT在提供基於證據的資訊給患者方面有潛力,但仍有改進的空間。 PubMed DOI

這項研究評估了ChatGPT在男性學主題上的資訊準確性,針對患者和醫學生進行測試。研究人員提出120個與男性生殖健康相關的問題,並由兩位專家泌尿科醫生評分。結果顯示,50%的回答獲得1分,4.0版本稍好,達55.4%。常見問題的整體準確率為85.2%,而指導方針問題為81.5%。雖然ChatGPT的回答令人滿意,但仍有不完整之處,建議在泌尿科醫生指導下使用,以增進對男性學問題的理解。 PubMed DOI

越來越多患者在網上尋找健康資訊,尤其是像佩羅尼氏病這種敏感疾病。大型語言模型(LLM)聊天機器人展現了提供資訊的潛力,但對於PD的準確性和可讀性仍不明朗。研究評估了四個LLM在回答PD查詢時的資訊質量,結果顯示在有提示的情況下,資訊質量提升至高水平,但平均閱讀水平為12.9年級,超過大多數患者的理解能力。雖然LLM在患者教育上有潛力,但仍需臨床背景和人類提示來提升效果,並需教育患者與醫生如何有效互動。 PubMed DOI

大型語言模型(LLM)聊天機器人被用來提供泌尿科疾病資訊,特別是良性前列腺增生手術。研究評估了四個聊天機器人的資訊質量,結果顯示未提示時資訊質量中等,但使用特定提示後顯著改善。回應準確性高達98%,但可讀性較差,超過大多數美國人的閱讀水平。總體來看,這些聊天機器人有助於患者教育,但需注意提示方式和語言複雜性,以提升其效益。 PubMed DOI

勃起功能障礙(ED)是影響男性性健康的常見問題。本研究評估了兩個AI聊天機器人,ChatGPT和Gemini,對ED相關問題的回答質量。研究發現,ChatGPT成功回答所有15個問題,而Gemini則未能回答兩個。質量評估顯示,Gemini的低質量回答較多,且兩位泌尿科醫生對ChatGPT的評分一致性為92%,Gemini則為95%。雖然這些AI能快速回應,但仍無法取代醫療專業人員的護理,需進一步改進。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT、Gemini、Perplexity和Copilot)提供的性傳播疾病資訊的可靠性和可讀性。結果顯示,Perplexity和Copilot的資訊較為可靠,但所有聊天機器人的可讀性都未達到建議的六年級標準,對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性,以便讓更多人能理解。 PubMed DOI