Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

Evaluating the Accuracy of Responses by Large Language Models for Information on Disease Epidemiology.
評估大型語言模型對疾病流行病學資訊回應的準確性。 Pharmacoepidemiol Drug Saf 2025-02-04

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5、ChatGPT-4和Google Bard，在提供疾病流行病學數據的準確性。研究設計了21個問題，並將其提交給每個模型兩次。結果顯示，ChatGPT-4的準確率最高，達76.2%，其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳，但三者皆存在不準確性和參考文獻問題，限制了它們在醫藥和學術界的實用性。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Enhancing perinatal health patient information through ChatGPT - An accuracy study.
透過 ChatGPT 增強圍產期健康病患資訊的準確性研究。 PEC Innov 2025-03-03

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分，結果顯示兩個主題的準確性都很高，得分均為5.0（四分位數範圍4-5）。不過，根據問題表述的不同，「懷孕中的營養」準確性為83-89%，而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議，但女性仍需注意其局限性，特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究，意義重大。 PubMed DOI

Artificial intelligence-large language models (AI-LLMs) for reliable and accurate cardiotocography (CTG) interpretation in obstetric practice.
人工智慧大型語言模型 (AI-LLMs) 在婦產科實踐中對心臟監測 (CTG) 解讀的可靠性和準確性。 Comput Struct Biotechnol J 2025-04-10

這項研究評估了三種先進的人工智慧語言模型（AI-LLMs）在解讀心臟胎兒監護圖（CTG）影像的表現，對於監測胎兒健康至關重要。測試的模型包括ChatGPT-4o、Gemini Advanced和Copilot，並與初級醫生和資深醫生的解讀進行比較。結果顯示，ChatGPT-4o得分最高（77.86），接近資深醫生（80.43），在解讀深度上表現特別優秀。研究顯示，AI-LLMs，尤其是ChatGPT-4o，可能提升診斷準確性，改善婦產科病人護理。 PubMed DOI

Performance of ChatGPT and Microsoft Copilot in Bing in answering obstetric ultrasound questions and analyzing obstetric ultrasound reports.
ChatGPT 與 Microsoft Copilot in Bing 在回答產科超音波問題及分析產科超音波報告的表現 Sci Rep 2025-04-26

這項研究發現，ChatGPT-3.5和4.0在產科超音波問題和報告分析上，比Microsoft Copilot表現更好，尤其在準確度和一致性方面。不過，所有AI工具偶爾還是會出錯，建議臨床使用時一定要有醫師把關。 PubMed DOI

The PERFORM Study: Artificial Intelligence Versus Human Residents in Cross-Sectional Obstetrics-Gynecology Scenarios Across Languages and Time Constraints.
PERFORM 研究：人工智慧與人類住院醫師在跨語言及時間限制下橫斷面產科-婦科情境的比較 Mayo Clin Proc Digit Health 2025-06-26

這項研究發現，AI大型語言模型在婦產科診斷上，整體表現比住院醫師更好，尤其在時間壓力大或不同語言時更明顯。最強的AI模型診斷準確率高達88%，而住院醫師平均只有65%，且年資越高表現越好。AI對資淺醫師幫助最大，能大幅提升診斷正確率。整體來說，AI有助於提升婦產科訓練和臨床診斷的準確性與穩定性。 PubMed DOI

Artificial intelligence in endometriosis care: A comparative analysis of large language model and human specialist responses to endometriosis-related queries.
人工智慧於子宮內膜異位症照護中的應用：大型語言模型與人類專科醫師對子宮內膜異位症相關問題回應的比較分析 Eur J Obstet Gynecol Reprod Biol 2025-08-19

這項研究發現，ChatGPT-4o 回答子宮內膜異位症相關問題的表現，和人類專家差不多，品質、正確性和安全性都不輸專家。雖然專家多能分辨 AI 回答，但 AI 仍有潛力協助病人獲取健康資訊。未來還需進一步研究 AI 在臨床應用的風險與接受度。 PubMed DOI

原始文章

站上相關主題文章列表