Bots in white coats: are large language models the future of patient education? a multi-center cross-sectional analysis.
白袍中的機器人：大型語言模型是否是病人教育的未來？一項多中心橫斷面分析。 Int J Surg 2025-01-29

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術，手術後30天內死亡人數達420萬，因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應，並由外科醫生評估。主要發現包括： - ChatGPT-4o在準確性（4.12/5）和相關性（4.46/5）上表現優異，潛在危害性低（0.22/5）。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少，但準確性高於大型手術。研究建議將GPT-4o整合進醫院系統，以提供即時可靠的信息，提升病人滿意度和知情決策能力。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Evaluation of Chat Generative Pre-trained Transformer and Microsoft Copilot Performance on the American Society of Surgery of the Hand Self-Assessment Examinations.
Chat Generative Pre-trained Transformer 和 Microsoft Copilot 在美國手外科學會自我評估考試中的表現評估。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示，ChatGPT-3.5的正確率為51.6%，而ChatGPT-4提升至63.4%；Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5，顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

Solving Complex Pediatric Surgical Case Studies: A Comparative Analysis of Copilot, ChatGPT-4 and Experienced Pediatric Surgeons' Performance.
解決複雜的兒科外科案例研究：Copilot、ChatGPT-4 與經驗豐富的兒科外科醫生表現的比較分析。 Eur J Pediatr Surg 2025-03-05

這項研究探討大型語言模型（LLMs），特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行，分析了13個臨床案例，並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示，ChatGPT-4的表現（52.1%）優於Copilot（47.9%），但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳，但整體上，醫生對LLMs的評價為一般，顯示出其在臨床決策中的限制，需進一步研究以提升AI的應用能力。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

The performance of ChatGPT and ERNIE Bot in surgical resident examinations.
ChatGPT 與 ERNIE Bot 在外科住院醫師考試中的表現。 Int J Med Inform 2025-04-12

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-4.0 和 ERNIE Bot-4.0，在外科住院醫師考試問題上的表現，並與人類住院醫師進行比較。分析了596個問題，結果顯示兩者在正確性上無顯著差異，但ERNIE Bot-4.0的表現始終優於ChatGPT-4.0。在210個有提示的問題中，ERNIE Bot-4.0的表現顯著優於ChatGPT-4.0及人類住院醫師，並在住院醫師的分數中排名前95%。總體來看，ERNIE Bot-4.0在此情境中表現更佳。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Chatbots' Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis.
Chatbots 在產生醫學生單一最佳答案題目中的角色：比較分析 JMIR Med Educ 2025-05-30

這項研究發現，不同AI聊天機器人在幫醫學生出單一最佳答案題目時，品質和一致性都有差異，沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查，無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

Evaluating AI Chatbots for Preoperative and Postoperative Counseling for Mandibular Distraction Osteogenesis.
用於下頜骨牽引成骨術術前與術後衛教諮詢之 AI 聊天機器人評估 J Craniofac Surg 2025-06-09

這項研究發現，AI 聊天機器人（像是ChatGPT、Copilot等）在回答兒童下頜骨延長術常見照護問題時，雖然Copilot表現最好，但整體來說，答案不夠可靠、資料來源不足，而且用詞太艱深，病人和家屬很難看懂，暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI

原始文章

站上相關主題文章列表