Comparative Analysis of Large Language Models in Emergency Plastic Surgery Decision-Making: The Role of Physical Exam Data.
緊急整形外科決策中大型語言模型的比較分析：身體檢查數據的作用。 J Pers Med 2024-06-27

美國醫療常有診斷錯誤，研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據，ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能，顯示人工智慧可輔助臨床決策，但不應取代傳統醫學知識。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Solving Complex Pediatric Surgical Case Studies: A Comparative Analysis of Copilot, ChatGPT-4 and Experienced Pediatric Surgeons' Performance.
解決複雜的兒科外科案例研究：Copilot、ChatGPT-4 與經驗豐富的兒科外科醫生表現的比較分析。 Eur J Pediatr Surg 2025-03-05

這項研究探討大型語言模型（LLMs），特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行，分析了13個臨床案例，並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示，ChatGPT-4的表現（52.1%）優於Copilot（47.9%），但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳，但整體上，醫生對LLMs的評價為一般，顯示出其在臨床決策中的限制，需進一步研究以提升AI的應用能力。 PubMed DOI

Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics.
急診科診斷中 ChatGPT 模型迭代的初步評估。 Sci Rep 2025-03-27

這項回顧性研究評估了不同ChatGPT模型（如GPT-3.5、GPT-4等）在預測急診病人診斷的表現。研究針對30名病人，發現GPT-3.5在前三名鑑別診斷的準確率高達80%，但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過，所有模型在處理非典型案例時仍面臨挑戰，顯示其在急診環境中的應用限制。 PubMed DOI

Assessing large language models as assistive tools in medical consultations for Kawasaki disease.
將「Assessing large language models as assistive tools in medical consultations for Kawasaki disease.」翻譯為：「評估大型語言模型作為川崎病醫療諮詢輔助工具的可行性」 Front Artif Intell 2025-04-15

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示，Claude 3.5 Sonnet 答案最準確，特別適合專業醫師提問；Gemini 1.5 Pro 則在家長提問時最容易理解。不過，所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型，確保醫療資訊正確可靠。 PubMed DOI

Comparing ChatGPT-4 and a Paediatric Intensive Care Specialist in Responding to Medical Education Questions: A Multicenter Evaluation.
ChatGPT-4 與兒科加護醫學專科醫師在回應醫學教育問題上的比較：多中心評估 J Paediatr Child Health 2025-05-07

研究發現，ChatGPT-4在兒童加護病房（PICU）事實性知識題表現不錯，答案較完整，有六成時間被評審偏好；但臨床推理還是專科醫師表現較佳，正確率也較高。兩者結合效果最好。總結來說，ChatGPT-4有潛力輔助PICU教育，但臨床推理部分還是需要專家把關，不能單獨使用。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

原始文章

站上相關主題文章列表