原始文章

COVID-19疫情對全球醫療系統造成壓力,特別是孕婦面臨更高健康風險。錯誤資訊的增加讓婦產科醫生在提供疫苗安全性建議時面臨挑戰。研究評估了四個AI模型(ChatGPT-3.5、ChatGPT-4、Microsoft Copilot和Google Bard)在提供COVID-19對懷孕影響的準確性。結果顯示,ChatGPT-4和Microsoft Copilot表現最佳,但仍有些不準確之處。研究強調了在醫療溝通中保持中立和客觀的重要性,並建議根據受眾選擇合適的AI工具。 PubMed DOI


站上相關主題文章列表

這項研究分析了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分,結果顯示GPT-4的平均得分為79.31,與住院醫師的得分相當,顯示其表現優異。特別是在婦產科問題上,GPT-4的得分高達90.22,顯示其在該領域的強大能力。研究強調,雖然LLMs如GPT-4展現出潛力,但仍需注意其局限性,應作為人類專業知識的輔助工具。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5、ChatGPT-4和Google Bard,在提供疾病流行病學數據的準確性。研究設計了21個問題,並將其提交給每個模型兩次。結果顯示,ChatGPT-4的準確率最高,達76.2%,其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳,但三者皆存在不準確性和參考文獻問題,限制了它們在醫藥和學術界的實用性。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分,結果顯示兩個主題的準確性都很高,得分均為5.0(四分位數範圍4-5)。不過,根據問題表述的不同,「懷孕中的營養」準確性為83-89%,而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議,但女性仍需注意其局限性,特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究,意義重大。 PubMed DOI

這項研究評估了三種先進的人工智慧語言模型(AI-LLMs)在解讀心臟胎兒監護圖(CTG)影像的表現,對於監測胎兒健康至關重要。測試的模型包括ChatGPT-4o、Gemini Advanced和Copilot,並與初級醫生和資深醫生的解讀進行比較。結果顯示,ChatGPT-4o得分最高(77.86),接近資深醫生(80.43),在解讀深度上表現特別優秀。研究顯示,AI-LLMs,尤其是ChatGPT-4o,可能提升診斷準確性,改善婦產科病人護理。 PubMed DOI

這項研究發現,ChatGPT-3.5和4.0在產科超音波問題和報告分析上,比Microsoft Copilot表現更好,尤其在準確度和一致性方面。不過,所有AI工具偶爾還是會出錯,建議臨床使用時一定要有醫師把關。 PubMed DOI

這項研究發現,AI大型語言模型在婦產科診斷上,整體表現比住院醫師更好,尤其在時間壓力大或不同語言時更明顯。最強的AI模型診斷準確率高達88%,而住院醫師平均只有65%,且年資越高表現越好。AI對資淺醫師幫助最大,能大幅提升診斷正確率。整體來說,AI有助於提升婦產科訓練和臨床診斷的準確性與穩定性。 PubMed DOI

這項研究發現,ChatGPT-4o 回答子宮內膜異位症相關問題的表現,和人類專家差不多,品質、正確性和安全性都不輸專家。雖然專家多能分辨 AI 回答,但 AI 仍有潛力協助病人獲取健康資訊。未來還需進一步研究 AI 在臨床應用的風險與接受度。 PubMed DOI