原始文章

這項研究發現,經過提示優化的AI聊天機器人(像Alice)在提供正確、準確和安全的健康資訊上,比標準版ChatGPT表現更好。不過,所有AI偶爾還是會出錯,所以只能當作輔助工具,不能取代醫療專業人員。未來若要廣泛應用,還需要持續改進並由人員監督。 PubMed DOI


站上相關主題文章列表

研究比較了AI聊天機器人ChatGPT和Google搜尋在提供漏服口服避孕藥後應該怎麼做的資訊效果。ChatGPT有潛力,但準確性、易讀性和效果都不如Google搜尋。Google提供更多當前、透明和多樣的資訊。ChatGPT在醫療資訊上仍有改進空間,人工智慧可用於教育資料,但需針對不同使用者進行更多研究。 PubMed DOI

這項研究評估了ChatGPT在回答性傳播疾病(STDs)常見問題的效果。研究人員從25個政府網站收集了十個問題,並將其輸入ChatGPT進行評估。結果顯示,四個回應被評為優秀,六個需要稍微澄清,沒有一個被認為是不滿意的。這些回應也鼓勵使用者諮詢醫療專業人員。總體來看,雖然大部分答案需調整,但ChatGPT在性傳播疾病患者教育上顯示出潛力,建議未來可進一步研究如何將人工智慧融入公共衛生策略。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究評估了ChatGPT在醫療查詢中的可靠性,透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示,ChatGPT在「什麼」問題上表現較好,但在「為什麼」和「如何」問題上則不理想,出現計算錯誤和不正確的單位等問題,甚至有些引用文獻是虛構的。研究結論認為,ChatGPT目前不適合用於醫療學習者或專業人士,因為其回應不一致且參考資料不可靠,可能影響臨床決策。 PubMed DOI

這項研究評估了三款生成式AI聊天機器人—Chat GPT-4、Claude和Bard—在回答子宮內膜異位症問題的準確性。九位婦產科醫生對十個常見問題的回答進行評分,結果顯示Bard平均得分3.69,Chat GPT 4.24,Claude 3.7。雖然這些機器人的回答大多正確,但仍不夠全面,Chat GPT的表現最佳。研究強調持續評估這些聊天機器人的必要性,以確保能提供準確且全面的資訊,並指出隨著生成式AI在醫療領域的普及,進一步研究的重要性。 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT提供的長效可逆避孕法(LARC)資訊的準確性。研究發現,69.3%的回應準確,但16.3%包含過時或不準確的資訊,14.4%則有誤導性陳述。此外,45.1%的回應使用性別排他性語言,僅提及女性。平均可讀性分數顯示需具大學程度的閱讀能力。雖然ChatGPT提供的LARC資訊有其價值,但用戶應謹慎,並獨立驗證資訊的正確性。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT、Gemini、Perplexity和Copilot)提供的性傳播疾病資訊的可靠性和可讀性。結果顯示,Perplexity和Copilot的資訊較為可靠,但所有聊天機器人的可讀性都未達到建議的六年級標準,對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性,以便讓更多人能理解。 PubMed DOI

研究比較六款聊天機器人回答中年健康問題的表現,發現 Meta AI 答案最準確、最有條理,Perplexity 最容易閱讀。整體來說,這些聊天機器人對中年健康教育有幫助,但表現有差異,選擇合適的工具很重要。 PubMed DOI

這項研究發現,現有的大型語言模型雖然能回答更年期健康問題,但目前的評估方式對於敏感醫療議題還不夠完善。作者建議應發展更專業且重視倫理的評估標準,確保AI產出的醫療資訊安全又可靠。 PubMed DOI

研究比較多個AI平台(如ChatGPT 3.5/4.0、Google Bard/Gemini、HIV.gov Chatbot)在提供HIV藥物資訊的表現。結果發現,ChatGPT 4.0 回答最完整,HIV.gov Chatbot 最不全面。所有平台都建議諮詢醫師,且普遍認為HIV藥物有效。AI雖能提供方便的資訊,但個人問題還是要找專業醫療人員討論。未來可再研究AI在HIV預防和照護的應用。 PubMed DOI