原始文章

這項研究評估了AI聊天機器人ChatGPT提供的長效可逆避孕法(LARC)資訊的準確性。研究發現,69.3%的回應準確,但16.3%包含過時或不準確的資訊,14.4%則有誤導性陳述。此外,45.1%的回應使用性別排他性語言,僅提及女性。平均可讀性分數顯示需具大學程度的閱讀能力。雖然ChatGPT提供的LARC資訊有其價值,但用戶應謹慎,並獨立驗證資訊的正確性。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT 3.5和Google Bard AI回答藥物墮胎問題的表現。結果顯示ChatGPT在準確度和完整性上表現較好,但仍有些許錯誤。兩者都需要進一步改進,特別是Google Bard AI在準確度和完整性之間有較明顯的關聯。AI聊天機器人能提供資訊,但使用時仍需謹慎。 PubMed DOI

研究比較了AI聊天機器人ChatGPT和Google搜尋在提供漏服口服避孕藥後應該怎麼做的資訊效果。ChatGPT有潛力,但準確性、易讀性和效果都不如Google搜尋。Google提供更多當前、透明和多樣的資訊。ChatGPT在醫療資訊上仍有改進空間,人工智慧可用於教育資料,但需針對不同使用者進行更多研究。 PubMed DOI

這項研究分析了五個熱門AI聊天機器人(ChatGPT、Bard、Bing、Perplexity和Claude)在回答有關輸精管結紮的問題時的準確性和可讀性。結果顯示,ChatGPT在準確性上表現最佳,其次是Bing和Claude,而Bard則在可讀性上得分最高。雖然這些聊天機器人提供的醫療資訊大致準確,但可讀性差異顯著,這對患者理解資訊至關重要。 PubMed DOI

在2022年,OpenAI推出的ChatGPT 3.5在醫學教育和研究中被應用,但因信息來源不明和數據過時,準確性受到質疑。本研究評估了ChatGPT在GESEA測試中的表現,結果顯示整體準確率為59%,其中64%的回答有全面解釋。GESEA Level 1的準確率為64%,而Level 2則為54%。這強調了使用AI技術時需進行準確性驗證和倫理考量。未來應探討其在婦科腫瘤學等專業領域的可靠性,並比較不同版本的聊天機器人。總之,AI在科學研究中潛力巨大,但需進一步驗證其有效性。 PubMed DOI

這項研究評估了ChatGPT在醫療查詢中的可靠性,透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示,ChatGPT在「什麼」問題上表現較好,但在「為什麼」和「如何」問題上則不理想,出現計算錯誤和不正確的單位等問題,甚至有些引用文獻是虛構的。研究結論認為,ChatGPT目前不適合用於醫療學習者或專業人士,因為其回應不一致且參考資料不可靠,可能影響臨床決策。 PubMed DOI

這項研究比較了兩個生成式人工智慧聊天機器人,ChatGPT 和 Bard,針對常見產科麻醉問題的可讀性、準確性和回答質量。結果顯示,Bard的回答更易懂,達到高中閱讀水平,而ChatGPT則是大學水平。Bard的回答也較長,準確率相似,分別為85%和87%。在患者教育材料的可理解性上,兩者差異不大,但Bard的可行性分數較高。結論強調提供準確且易懂的麻醉資訊對於改善公眾理解及醫療決策的重要性。 PubMed DOI

這項研究評估了三款生成式AI聊天機器人—Chat GPT-4、Claude和Bard—在回答子宮內膜異位症問題的準確性。九位婦產科醫生對十個常見問題的回答進行評分,結果顯示Bard平均得分3.69,Chat GPT 4.24,Claude 3.7。雖然這些機器人的回答大多正確,但仍不夠全面,Chat GPT的表現最佳。研究強調持續評估這些聊天機器人的必要性,以確保能提供準確且全面的資訊,並指出隨著生成式AI在醫療領域的普及,進一步研究的重要性。 PubMed DOI

這項研究評估了兩個人工智慧平台,ChatGPT-4o 和 Google Gemini,在回答避孕方法問題的效果。研究從美國婦產科醫學會收集了三十個問題,並將其分為四個領域。結果顯示,兩者都提供高品質的答案,ChatGPT-4o 平均得分為 4.38,Google Gemini 為 4.37,皆被評為「非常好」到「優秀」。雖然整體表現無顯著差異,但 Google Gemini 在某些主題上表現更佳。這顯示人工智慧在提供公共健康資訊方面的潛力,特別是對年輕人。建議未來進行更大規模的研究。 PubMed DOI

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分,結果顯示兩個主題的準確性都很高,得分均為5.0(四分位數範圍4-5)。不過,根據問題表述的不同,「懷孕中的營養」準確性為83-89%,而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議,但女性仍需注意其局限性,特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究,意義重大。 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT、Gemini、Perplexity和Copilot)提供的性傳播疾病資訊的可靠性和可讀性。結果顯示,Perplexity和Copilot的資訊較為可靠,但所有聊天機器人的可讀性都未達到建議的六年級標準,對健康素養較低的使用者來說過於複雜。研究強調了改善AI健康資訊準確性和可及性的必要性,以便讓更多人能理解。 PubMed DOI