原始文章

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Llama—對早洩問題的回應,分析了它們對25個常見問題的回答。可讀性透過FRES和FKGL分數評估,質量則用修改版DISCERN (mDISCERN)和EQIP分數來衡量。結果顯示,三者的可讀性相似,但在質量上,Llama得分最高(72.2),Gemini次之(67.6),ChatGPT最低(63.1),差異顯著。mDISCERN方面,ChatGPT中位數為2,Gemini和Llama均為3,顯示資訊質量的明顯差異。總體來看,Llama在質量上表現最佳。 PubMed DOI


站上相關主題文章列表

越來越多患者在網上尋找健康資訊,尤其是像佩羅尼氏病這種敏感疾病。大型語言模型(LLM)聊天機器人展現了提供資訊的潛力,但對於PD的準確性和可讀性仍不明朗。研究評估了四個LLM在回答PD查詢時的資訊質量,結果顯示在有提示的情況下,資訊質量提升至高水平,但平均閱讀水平為12.9年級,超過大多數患者的理解能力。雖然LLM在患者教育上有潛力,但仍需臨床背景和人類提示來提升效果,並需教育患者與醫生如何有效互動。 PubMed DOI

這項研究比較了兩個聊天機器人,ChatGPT-4 和 Google Gemini,對於良性肛門疾病問題的回答。研究者提出30個問題,專家評估後發現兩者的回應都相當適當且全面,但 Google Gemini 在適當性、全面性及參考資料方面表現更佳,且評估一致性較高。語言複雜度方面,ChatGPT 的回答較難理解,適合的閱讀水平高於 Google Gemini。總體來看,Google Gemini 更適合提供良性肛門疾病的資訊。 PubMed DOI

這項研究分析了三款AI聊天機器人(ChatGPT、Perplexity和Gemini)在低背痛相關問題上的可讀性、可靠性和回應質量。研究使用25個常見搜尋關鍵字,評估這些機器人提供的資訊是否易懂且可靠。結果顯示,所有機器人的可讀性均高於六年級水平,表示資訊難以理解。Perplexity在質量評估中表現最佳,但整體而言,這些聊天機器人的回應質量和可靠性都偏低。研究建議未來應提升AI聊天機器人的資訊清晰度與質量,以更好地幫助患者。 PubMed DOI

勃起功能障礙(ED)是影響男性性健康的常見問題。本研究評估了兩個AI聊天機器人,ChatGPT和Gemini,對ED相關問題的回答質量。研究發現,ChatGPT成功回答所有15個問題,而Gemini則未能回答兩個。質量評估顯示,Gemini的低質量回答較多,且兩位泌尿科醫生對ChatGPT的評分一致性為92%,Gemini則為95%。雖然這些AI能快速回應,但仍無法取代醫療專業人員的護理,需進一步改進。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛,許多人會在就醫前尋找健康資訊。研究發現,這三款聊天機器人的可讀性均超過六年級水平,其中Gemini最佳。質量方面,Gemini得分較高,而Perplexity在可靠性評估中表現較好。總體來說,這些聊天機器人的回應難以閱讀,且可靠性和質量較低,無法取代專業醫療諮詢,建議改善可讀性並加強專家監督。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT、Gemini、Perplexity和Copilot)提供的性傳播疾病資訊的可靠性和可讀性。結果顯示,Perplexity和Copilot的資訊較為可靠,但所有聊天機器人的可讀性都未達到建議的六年級標準,對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性,以便讓更多人能理解。 PubMed DOI

研究比較六款聊天機器人回答中年健康問題的表現,發現 Meta AI 答案最準確、最有條理,Perplexity 最容易閱讀。整體來說,這些聊天機器人對中年健康教育有幫助,但表現有差異,選擇合適的工具很重要。 PubMed DOI

這項研究發現,經過提示優化的AI聊天機器人(像Alice)在提供正確、準確和安全的健康資訊上,比標準版ChatGPT表現更好。不過,所有AI偶爾還是會出錯,所以只能當作輔助工具,不能取代醫療專業人員。未來若要廣泛應用,還需要持續改進並由人員監督。 PubMed DOI

這項研究比較了ChatGPT-4、Gemini Pro和Llama 3.1三款AI聊天機器人在陰莖增大資訊上的表現。結果顯示,Llama 3.1在資訊可靠性和品質上表現最佳,但三款AI的回答都偏難懂,沒有提供容易理解的答案。 PubMed DOI