Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

GPT-4 as a Clinical Decision Support Tool in Ischemic Stroke Management: Evaluation Study.
GPT-4 作為缺血性中風管理的臨床決策支持工具：評估研究。 JMIR AI 2025-03-07

腦血管疾病是全球第二大死亡原因，對殘疾影響深遠。本研究探討GPT-4在急診科神經科醫師處理急性缺血性中風的有效性，分析其建議與專家意見及實際治療結果的比較。研究回顧100名急性中風患者，結果顯示GPT-4的建議與專家意見高度一致，特別是在血管內血栓切除術方面表現優異。GPT-4在死亡預測上也表現良好，顯示其作為臨床決策支持工具的潛力，但也需注意其建議的侵略性，強調人類監督的重要性。未來需進一步驗證這些發現。 PubMed DOI

Assessing GPT-4's accuracy in answering clinical pharmacological questions on pain therapy.
評估 GPT-4 在疼痛治療臨床藥理學問題回答中的準確性。 Br J Clin Pharmacol 2025-03-11

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題，GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示，99%的參與者認為回應易懂，84%認為信息詳細，93%表示滿意，96%認為醫學準確。不過，只有63%認為信息完整，顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具，結合即時藥理數據庫，以提升臨床決策的準確性。 PubMed DOI

Comparative evaluation of artificial intelligence models GPT-4 and GPT-3.5 in clinical decision-making in sports surgery and physiotherapy: a cross-sectional study.
GPT-4 與 GPT-3.5 在運動外科與物理治療臨床決策中的比較評估：一項橫斷面研究。 BMC Med Inform Decis Mak 2025-04-14

這項研究探討大型語言模型（LLMs），特別是GPT-4和GPT-3.5，在運動外科和物理治療的臨床決策效果。56位專業人士使用5點李克特量表評估10個常見肌肉骨骼疾病的情境。結果顯示，GPT-4在診斷準確性、治療計畫和手術建議上均優於GPT-3.5，且內部一致性更高。研究指出，GPT-4能提升醫療診斷和治療規劃，但AI應作為決策支持工具，而非取代專家判斷，未來需進一步探索AI在臨床的應用。 PubMed DOI

Evaluating the Performance and Safety of Large Language Models in Generating Type 2 Diabetes Mellitus Management Plans: A Comparative Study With Physicians Using Real Patient Records.
大型語言模型在生成第二型糖尿病管理計畫之表現與安全性評估：以真實病歷與醫師進行比較研究 Cureus 2025-04-18

這項研究發現，GPT-4在糖尿病管理上比醫師少開不必要的藥，但更常漏掉該給的藥，劑量準確度差不多，整體錯誤率也接近。不過，有16% GPT-4的建議有安全疑慮，顯示它能減少過度用藥，但治療安全和完整性還需加強，必須由醫師把關。 PubMed DOI

GPT-4's performance in supporting physician decision-making in nephrology multiple-choice questions.
GPT-4 在協助腎臟科醫師多選題決策中的表現 Sci Rep 2025-05-02

研究發現，GPT-4能幫助醫師提升腎臟科答題分數，尤其對資淺醫師幫助最大。不過，在某些臨床領域，資深醫師參考GPT-4後反而表現變差。雖然GPT-4有助提升準確率，但在醫療決策時仍需謹慎使用。 PubMed DOI

原始文章

站上相關主題文章列表