Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

Performance of ChatGPT in emergency medicine residency exams in Qatar: A comparative analysis with resident physicians.
卡塔爾急診醫學住院醫師考試中 ChatGPT 的表現：與住院醫師的比較分析。 Qatar Med J 2024-11-18

人工智慧（AI）在醫療領域的應用對醫學實踐影響深遠，尤其在教育、診斷和治療方面。本研究評估了OpenAI的ChatGPT在卡塔爾急診醫學住院醫師考試中的表現，並與住院醫師的成績進行比較。結果顯示，ChatGPT在所有考試類別中均表現優於住院醫師，但高年級住院醫師的及格率卻下降，顯示考試成績與實際技能之間的脫節，可能與COVID-19疫情對教育的影響有關。總體而言，ChatGPT在急診醫學領域展現出強大的理論知識，顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Artificial intelligence-large language models (AI-LLMs) for reliable and accurate cardiotocography (CTG) interpretation in obstetric practice.
人工智慧大型語言模型 (AI-LLMs) 在婦產科實踐中對心臟監測 (CTG) 解讀的可靠性和準確性。 Comput Struct Biotechnol J 2025-04-10

這項研究評估了三種先進的人工智慧語言模型（AI-LLMs）在解讀心臟胎兒監護圖（CTG）影像的表現，對於監測胎兒健康至關重要。測試的模型包括ChatGPT-4o、Gemini Advanced和Copilot，並與初級醫生和資深醫生的解讀進行比較。結果顯示，ChatGPT-4o得分最高（77.86），接近資深醫生（80.43），在解讀深度上表現特別優秀。研究顯示，AI-LLMs，尤其是ChatGPT-4o，可能提升診斷準確性，改善婦產科病人護理。 PubMed DOI

Performance of ChatGPT and Microsoft Copilot in Bing in answering obstetric ultrasound questions and analyzing obstetric ultrasound reports.
ChatGPT 與 Microsoft Copilot in Bing 在回答產科超音波問題及分析產科超音波報告的表現 Sci Rep 2025-04-26

這項研究發現，ChatGPT-3.5和4.0在產科超音波問題和報告分析上，比Microsoft Copilot表現更好，尤其在準確度和一致性方面。不過，所有AI工具偶爾還是會出錯，建議臨床使用時一定要有醫師把關。 PubMed DOI

Get the Artificial Intelligence (AI) Edge in Obstetrics and Gynaecology.
在婦產科領域取得人工智慧（AI）優勢 J Obstet Gynaecol India 2025-05-12

AI在婦產科醫學應用越來越廣，像機器學習和ChatGPT能提升診斷和治療效率，也幫助循證醫療。不過，大家還是會擔心AI的準確度和可靠性。AI應該當作醫師的輔助工具，不能完全取代臨床判斷。未來會持續強化個人化醫療，AI應用也會越來越普及，幫助改善病患照護品質。 PubMed DOI

Comparison of medical history documentation efficiency and quality based on GPT-4o: a study on the comparison between residents and artificial intelligence.
基於 GPT-4o 的病史紀錄效率與品質比較：住院醫師與人工智慧之比較研究 Front Med (Lausanne) 2025-05-29

這項研究發現，ChatGPT-4o寫病史的品質跟住院醫師差不多，但速度快很多（只要40秒，醫師要15分鐘）。雖然AI有助提升效率和品質，但資料安全和隱私問題還沒解決，實際應用前還需要更多研究，特別是在複雜病例和不同臨床環境下的表現。 PubMed DOI

A large language model improves clinicians' diagnostic performance in complex critical illness cases.
大型語言模型提升臨床醫師在複雜重症病例中的診斷表現 Crit Care 2025-06-06

這項研究發現，DeepSeek-R1 AI 能有效協助加護病房住院醫師診斷複雜重症，讓診斷正確率從 27% 提升到 58%，AI 自己的正確率則是 60%。有 AI 幫忙時，住院醫師不只診斷更準確，速度也更快，鑑別診斷品質也提升。整體來說，這類 AI 未來很有機會成為加護病房醫師的重要幫手。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

Artificial intelligence in endometriosis care: A comparative analysis of large language model and human specialist responses to endometriosis-related queries.
人工智慧於子宮內膜異位症照護中的應用：大型語言模型與人類專科醫師對子宮內膜異位症相關問題回應的比較分析 Eur J Obstet Gynecol Reprod Biol 2025-08-19

這項研究發現，ChatGPT-4o 回答子宮內膜異位症相關問題的表現，和人類專家差不多，品質、正確性和安全性都不輸專家。雖然專家多能分辨 AI 回答，但 AI 仍有潛力協助病人獲取健康資訊。未來還需進一步研究 AI 在臨床應用的風險與接受度。 PubMed DOI

原始文章

站上相關主題文章列表