原始文章

COVID-19疫情對全球醫療系統造成壓力,特別是孕婦面臨更高健康風險。錯誤資訊的增加讓婦產科醫生在提供疫苗安全性建議時面臨挑戰。研究評估了四個AI模型(ChatGPT-3.5、ChatGPT-4、Microsoft Copilot和Google Bard)在提供COVID-19對懷孕影響的準確性。結果顯示,ChatGPT-4和Microsoft Copilot表現最佳,但仍有些不準確之處。研究強調了在醫療溝通中保持中立和客觀的重要性,並建議根據受眾選擇合適的AI工具。 PubMed DOI


站上相關主題文章列表

研究比較了三個大型語言模型(LLMs)在談論骨盆器官脫垂(POP)資訊的表現,並拿英國皇家婦產科醫師學院(RCOG)的資料來比較。結果發現,ChatGPT在完整性方面最好,Bing在準確性方面較強。整體而言,ChatGPT表現較好,強調了在傳遞健康資訊時要仔細看LLM的輸出。 PubMed DOI

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示,這兩個模型對於一些常見問題的回答大多準確,如子宮頸癌篩檢和 BRCA 相關問題。然而,面對更複雜的案例時,它們的表現較差,常缺乏對地區指導方針的了解。儘管如此,這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出,LLMs 雖無法取代專業醫療建議,但可作為輔助工具,提供資訊和支持。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分,結果顯示GPT-4的平均得分為79.31,與住院醫師的得分相當,顯示其表現優異。特別是在婦產科問題上,GPT-4的得分高達90.22,顯示其在該領域的強大能力。研究強調,雖然LLMs如GPT-4展現出潛力,但仍需注意其局限性,應作為人類專業知識的輔助工具。 PubMed DOI

在婦產科領域,有效的病人諮詢至關重要,尤其是面對西班牙語患者與英語醫療提供者之間的語言障礙。本研究探討大型語言模型(LLMs)是否能生成有效的西班牙語諮詢範本。結果顯示,所有LLMs均生成了熟練的範本,其中Google Bard表現最佳,尤其在內容、質量和全面性上優於其他模型。醫生們表示願意將這些範本納入實踐,未來研究可關注患者的滿意度和治療遵從性。 PubMed DOI

這項研究探討了三個人工智慧模型在提供健康營養和懷孕期間體重管理資訊的有效性,分別是GPT-4、MedicalGPT和Med-PaLM。結果顯示,Med-PaLM的回應質量最高,平均得分3.93,顯著優於其他兩者。GPT-4的表現也優於MedicalGPT。在語義相似性方面,Med-PaLM在使用WORD2VEC時得分最高(0.92)。儘管Med-PaLM表現優越,研究仍強調持續進行AI在醫療領域的整合與改進的重要性,因為模型表現存在變異性。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜婦科癌症案例中的表現,主要針對三個模型:ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例,六位專家根據多項指標評估模型的回應。結果顯示,Gemini Advanced的準確率最高,達81.87%,而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好,但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出,這些模型在婦科腫瘤學的臨床應用中有潛力,但仍需進一步精煉和評估。 PubMed DOI

最近的研究顯示,透過大型語言模型(LLMs)在急性肝衰竭(ALF)問題上的表現,特別是使用增強檢索生成(RAG)技術的ChatGPT 4,顯示出顯著的優勢。研究中評估了五個模型,結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳,得分分別為4.70、4.89和4.78。相比之下,其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力,但也指出其需持續進化以符合實際需求。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5、ChatGPT-4和Google Bard,在提供疾病流行病學數據的準確性。研究設計了21個問題,並將其提交給每個模型兩次。結果顯示,ChatGPT-4的準確率最高,達76.2%,其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳,但三者皆存在不準確性和參考文獻問題,限制了它們在醫藥和學術界的實用性。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分,結果顯示兩個主題的準確性都很高,得分均為5.0(四分位數範圍4-5)。不過,根據問題表述的不同,「懷孕中的營養」準確性為83-89%,而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議,但女性仍需注意其局限性,特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究,意義重大。 PubMed DOI