Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估（MSRA）考試上的表現評估。 Comput Biol Med 2024-02-06

研究發現在醫學教育中使用大型語言模型（LLMs）回答多重選擇問題，Bing Chat效果最好，甚至超越人類。Llama 2表現較差，Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力，特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說，這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

Utility and Comparative Performance of Current Artificial Intelligence Large Language Models as Postoperative Medical Support Chatbots in Aesthetic Surgery.
當前人工智慧大型語言模型作為美容外科手術後醫療支援聊天機器人的效用和比較表現。 Aesthet Surg J 2024-02-06

研究比較了ChatGPT和Bard兩個大型語言模型在為接受美容乳房整形手術的患者提供術後醫療支援的表現。結果顯示，ChatGPT在診斷、醫療建議和危險症狀辨識方面表現較佳，提問更全面且準確度較高。研究指出，ChatGPT適合用於AI驅動的術後醫療支援聊天機器人，但仍有改進空間。 PubMed DOI

Comparison of the problem-solving performance of ChatGPT-3.5, ChatGPT-4, Bing Chat, and Bard for the Korean emergency medicine board examination question bank.
ChatGPT-3.5、ChatGPT-4、Bing Chat 和 Bard 在韓國急診醫學委員會考試題庫中問題解決表現的比較。 Medicine (Baltimore) 2024-03-04

研究比較了不同大型語言模型在回答韓文急診醫學委員會考試問題時的表現，發現ChatGPT-4和Bing Chat的正確率較高，尤其在難度高的問題上表現優秀。ChatGPT-4和Bing Chat的解釋也比較清楚易懂。總結來說，ChatGPT-4和Bing Chat在回答問題方面表現較好。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

Large language models in pathology: A comparative study of ChatGPT and Bard with pathology trainees on multiple-choice questions.
病理學中的大型語言模型：ChatGPT 和 Bard 與病理學實習生在多選題上的比較研究。 Ann Diagn Pathol 2024-11-08

這項研究評估了大型語言模型（LLMs），特別是ChatGPT和Bard在病理學的表現，並與病理學實習生的回答進行比較。研究使用了150道選擇題，結果顯示ChatGPT的平均得分為82.2%，明顯優於Bard的49.5%和實習生的45.1%。在困難問題上，ChatGPT表現特別突出，而在簡單問題上，ChatGPT和實習生的表現相近。分析顯示，ChatGPT的一致性率高達80%-85%，而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力，但仍需持續發展和人類監督。 PubMed DOI

A large language model in solving primary healthcare issues: A potential implication for remote healthcare and medical education.
大型語言模型在解決初級醫療問題中的應用：對遠程醫療和醫學教育的潛在影響。 J Educ Health Promot 2024-12-16

這項研究評估了大型語言模型ChatGPT在解決基層醫療問題的表現，透過30道相關選擇題進行測試。結果顯示，ChatGPT正確回答了28題，準確率達93.33%。此外，專業人士對其答案的解釋給予高分4.58（滿分5分），顯示其回答有理有據。評估者之間的一致性也很高，內部一致性相關係數為0.94。這些結果顯示，ChatGPT可能成為解決基層醫療挑戰的有力資源，特別是在偏遠地區，並能協助醫學生自主學習。 PubMed DOI

Application of Large Language Models in Medical Training Evaluation-Using ChatGPT as a Standardized Patient: Multimetric Assessment.
大型語言模型在醫學訓練評估中的應用 - 使用 ChatGPT 作為標準化病人：多指標評估。 J Med Internet Res 2025-01-01

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人，特別是在病史採集方面。研究分為兩個階段：第一階段評估其可行性，模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性，並調整提示以增強回應。結果顯示，ChatGPT能有效區分不同質量的回應，經過修訂的提示使其準確性提高了4.926倍。整體而言，研究表明ChatGPT可作為模擬醫學評估的工具，並有潛力改善醫學訓練。 PubMed DOI

原始文章

站上相關主題文章列表