原始文章

這項研究全面評估了多款AI聊天機器人(如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®)生成的醫療資訊的可讀性和質量。結果顯示,Bard®的可讀性最佳,而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平,顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高,但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性,以有效教育病人。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT使用DISCERN工具評估關於勃起功能障礙的衝擊波治療的線上內容的質量和易讀性的能力。結果顯示ChatGPT的評估與已建立的工具和人類評估者之間存在差異,顯示其目前能力的局限性。需要進一步研究探索人工智慧在客觀評估線上醫學內容中的角色。 PubMed DOI

比較三個AI聊天機器人對「姑息療護」、「支持性照護」和「安寧療護」的表現,發現ChatGPT最佳,Bing Chat最差。雖然ChatGPT準確性高,仍有錯誤和遺漏,參考資料不可靠,易讀性待提升。研究強調AI在提供姑息療護資訊時存在問題,呼籲進一步研究以提升其準確性和可靠性。 PubMed DOI

研究比較了ChatGPT、Bard和perplexity對硬腦膜下血腫問題的回答品質、可靠性和易讀性。結果顯示,這些回答有點難懂,但Bard的回答比其他兩個更容易看懂。總的來說,Bard的表現最好,perplexity在某些特定情況下也不錯。這三個聊天機器人的回答都比較高級,適合用來教育患者。 PubMed DOI

研究使用AI聊天機器人改善網路上有關癌症的健康資訊易讀性,以ChatGPT 4.0修改不同癌症網站內容,提升至高中新生水準。AI內容保持高準確性、相似性和品質,有效提升病患健康資訊存取和理解,可能減少健康素養不同帶來的醫療差異。 PubMed DOI

這項研究評估了五個聊天機器人(A、B、C、D、E)在提供心臟病學、腫瘤學和銀屑病資訊的表現。主要發現包括:聊天機器人C的回應最短,A的回應最長;可讀性分數從D的16.3到A的39.8不等,顯示可讀性差異;Gunning Fog指數顯示理解文本所需的教育程度範圍廣;Dale-Chall分數則反映詞彙熟悉度。總體來說,雖然這些聊天機器人能提供可靠資訊,但回應的長度、質量和可讀性差異顯著,使用者應謹慎驗證資訊。 PubMed DOI

這項研究評估了四款熱門AI聊天機器人(ChatGPT、Microsoft Copilot、Google Gemini和Meta AI)提供的心臟導管插入術病人教育材料的可讀性。研究發現,這些聊天機器人的平均可讀性分數為40.2,顯示閱讀難度較高,年級水平從Meta AI的9.6到ChatGPT的14.8不等,皆高於建議的六年級水平。Meta AI的回應最簡單,而ChatGPT則最複雜。雖然這些AI能回答醫療問題,但可讀性可能不適合所有病人。 PubMed DOI

這項研究探討了人工智慧(AI)在印度等多元文化環境中,如何改善臨終關懷(EOLC)資訊的獲取。研究比較了ChatGPT和Google Gemini生成的病人資訊手冊(PILs),分析了可讀性、情感、準確性、完整性和適用性等因素。 主要發現顯示,Google Gemini在可讀性和可操作性上優於ChatGPT,兩者在情感表達、準確性和完整性上都表現良好。研究強調AI在提升EOLC病人教育的潛力,並呼籲持續改進以確保具備同情心和文化敏感性。 PubMed DOI

這項研究評估了ChatGPT-4對前列腺癌常見問題的回答質量。研究人員制定了八個問題,並由四位評審使用多種工具評估AI的回答。結果顯示,ChatGPT-4的可理解性得分很高,但可讀性卻顯示「難以閱讀」,平均達到11年級的水平。雖然大部分參考文獻都來自可信來源,但仍有兩個例子被識別為參考幻覺。總體來看,ChatGPT-4在患者教育中提供了一般可靠的回答,但在可讀性和準確性上仍需改進。 PubMed DOI

這項研究探討內視鏡顱底手術相關的線上病患教育材料的可讀性與品質,並評估ChatGPT在改善這些材料方面的潛力。雖然建議可讀性應在六年級以下,但許多現有文章仍難以理解。研究發現66篇文章中,10篇可讀性最低的經過ChatGPT修改後,Flesch可讀性指數顯著提升,從19.7增至56.9,顯示可讀性改善至10年級水平。總體而言,ChatGPT有效提升了病患教育材料的可讀性與品質,顯示其在創建和精煉內容上的潛力。 PubMed DOI

這項研究評估了四款人工智慧聊天機器人對心肺復甦術(CPR)的回應質量,包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題,獲得400個回應,並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示,所有機器人的回應可讀性均超過六年級,其中Bard最佳,ChatGPT-3.5最難閱讀。研究指出,提升病人教育材料的質量和可讀性,可能有助於提高理解能力及病人存活率。 PubMed DOI