Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large language models improve the identification of emergency department visits for symptomatic kidney stones.
大型語言模型改善了對有症狀腎結石的急診就診識別。 Sci Rep 2025-01-28

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，如何分析急診部報告以識別與腎結石相關的就診。研究使用標註過的數據集，透過提示優化和微調來提升模型表現。結果顯示，GPT-4的宏觀F1分數為0.833，表現最佳，而GPT-3.5為0.796。微調改善了GPT-3.5的表現，並且加入人口統計和醫療歷史信息有助於決策。GPT-4未顯示種族或性別偏見，但GPT-3.5在種族多樣性建模上有困難。研究強調了LLMs在臨床應用的潛力及偏見問題的重要性。 PubMed DOI

The use of large language models in detecting Chinese ultrasound report errors.
大型語言模型在檢測中文超聲報告錯誤中的應用。 NPJ Digit Med 2025-01-28

這項回顧性研究探討大型語言模型（LLMs）在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告，發現243個錯誤，並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示，Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高，達52.3%。此外，LLMs處理報告的速度也明顯快於放射科醫生，顯示其在提升報告準確性方面的潛力。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

Large language models are less effective at clinical prediction tasks than locally trained machine learning models.
大型語言模型在臨床預測任務中的效果不如本地訓練的機器學習模型。 J Am Med Inform Assoc 2025-03-08

這項研究比較了大型語言模型（如GPT-3.5和GPT-4）與傳統機器學習方法（如梯度提升樹）在使用電子健康紀錄預測臨床結果的效果。結果顯示，傳統機器學習在預測性能和模型校準上均優於大型語言模型，且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳，但其預測性能卻有所下降。總體來看，傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

A Large Language Model-Based Approach for Coding Information from Free-Text Reported in Fall Risk Surveillance Systems: New Opportunities for In-Hospital Risk Management.
基於大型語言模型的自由文本報告編碼信息的方法：住院風險管理的新機會。 J Clin Med 2025-03-17

跌倒是醫院常見的不良事件，對患者及醫療系統影響深遠。本研究旨在利用大型語言模型（LLMs）自動編碼住院跌倒記錄，提取跌倒地點及受傷情況。研究分析了187條跌倒事件，使用GPT-4-turbo模型進行數據分類，結果顯示模型在地點和受傷檢測上表現優異，準確率均超過0.913及0.953。結論指出，GPT模型能有效從未優化文本中提取信息，顯示其在臨床風險管理中的潛力。 PubMed DOI

Utilizing large language models for detecting hospital-acquired conditions: an empirical study on pulmonary embolism.
利用大型語言模型檢測醫院獲得的病症：針對肺栓塞的實證研究。 J Am Med Inform Assoc 2025-03-19

這項研究探討了從電子病歷中檢測肺栓塞不良事件的挑戰，並開發了一個利用大型語言模型的框架。研究回顧了2017至2022年間的病歷，發現40例肺栓塞不良事件，流行率為0.4%。框架包含證據提取、出院資訊提取和PEAE檢測三個模組，評估了四個開源模型，結果顯示高敏感性和特異性。研究強調關鍵字過濾和出院摘要的納入能改善性能，並建議未來應加強上下文理解和醫學術語解釋，以提升檢測能力。 PubMed DOI

Leveraging LLMs to Understand Narratives in Maude Reports.
利用大型語言模型 (LLMs) 理解 Maude 報告中的敘事。 Stud Health Technol Inform 2025-04-09

MAUDE資料庫追蹤醫療器材的不良事件，最近受到更多關注，但報告中的敘述常被忽略，導致重要見解流失。為了解決這個問題，我們使用大型語言模型（LLMs），特別是OpenAI的GPT-4-turbo，來分析內視鏡夾相關的MAUDE報告，識別未編碼的手術程序並提取額外見解。這種方法顯示LLMs在處理敘述數據上的有效性，提供比傳統分析更高效且具成本效益的替代方案，最終能將MAUDE報告轉化為臨床實踐的可行知識。 PubMed DOI

Artificial intelligence-large language models (AI-LLMs) for reliable and accurate cardiotocography (CTG) interpretation in obstetric practice.
人工智慧大型語言模型 (AI-LLMs) 在婦產科實踐中對心臟監測 (CTG) 解讀的可靠性和準確性。 Comput Struct Biotechnol J 2025-04-10

這項研究評估了三種先進的人工智慧語言模型（AI-LLMs）在解讀心臟胎兒監護圖（CTG）影像的表現，對於監測胎兒健康至關重要。測試的模型包括ChatGPT-4o、Gemini Advanced和Copilot，並與初級醫生和資深醫生的解讀進行比較。結果顯示，ChatGPT-4o得分最高（77.86），接近資深醫生（80.43），在解讀深度上表現特別優秀。研究顯示，AI-LLMs，尤其是ChatGPT-4o，可能提升診斷準確性，改善婦產科病人護理。 PubMed DOI

原始文章

站上相關主題文章列表