Performance of ChatGPT, GPT-4, and Google Bard on a Neurosurgery Oral Boards Preparation Question Bank.
ChatGPT、GPT-4 和 Google Bard 在神經外科口試準備問題庫上的表現。 Neurosurgery 2024-02-21

研究比較了GPT-3.5、GPT-4和Google Bard在神經外科口試考題上的表現，結果發現GPT-4準確率最高達82.6%，明顯優於其他兩者。GPT-4在特定類別及影像相關問題上表現較佳，且較少出現"幻覺"情況。研究強調了LLM表現中問題特性和解決方式的重要性。 PubMed DOI

Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations.
ChatGPT 和 GPT-4 在神經外科筆試考試中的表現。 Neurosurgery 2024-02-22

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高，未來可能應用在醫學考試上。研究發現，GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好，得分更高且答對問題更多。ChatGPT在處理複雜問題時受限，但GPT-4則表現穩定。總體而言，兩者在考試中表現不錯，GPT-4明顯比ChatGPT進步。 PubMed DOI

Evaluating the performance of ChatGPT-4 on the United Kingdom Medical Licensing Assessment.
評估 ChatGPT-4 在英國醫學執照考試中的表現。 Front Med (Lausanne) 2023-10-06

LLMs（大型語言模型）如ChatGPT展現了理解和生成人類文本的潛力。研究評估了ChatGPT在英國醫學執照考試中的表現，結果顯示在某些專業領域表現不錯，但在其他領域表現較差。ChatGPT在67.5％的問題中提供了正確答案，顯示其在醫學教育中有潛力成為輔助學習工具，但需要適當監督。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Comparison of the problem-solving performance of ChatGPT-3.5, ChatGPT-4, Bing Chat, and Bard for the Korean emergency medicine board examination question bank.
ChatGPT-3.5、ChatGPT-4、Bing Chat 和 Bard 在韓國急診醫學委員會考試題庫中問題解決表現的比較。 Medicine (Baltimore) 2024-03-04

研究比較了不同大型語言模型在回答韓文急診醫學委員會考試問題時的表現，發現ChatGPT-4和Bing Chat的正確率較高，尤其在難度高的問題上表現優秀。ChatGPT-4和Bing Chat的解釋也比較清楚易懂。總結來說，ChatGPT-4和Bing Chat在回答問題方面表現較好。 PubMed DOI

Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。 Cureus 2024-04-12

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現，結果發現GPT-4得分最高，達100%，Claude次之，接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力，呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

Comparative Analysis of Performance of Large Language Models in Urogynecology.
大型語言模型在泌尿婦科表現的比較分析。 Urogynecology (Phila) 2024-07-02

研究比較了ChatGPT-3.5、GPT-4和Bard在泌尿婦科檢查的表現。結果顯示GPT-4回答問題最多，其次是GPT-3.5和Bard。三者皆展現邏輯推理，Bard最常參考來源。GPT-4和Bard引用期刊文章和學會指南，GPT-3.5引用書籍和網站。雖GPT-4表現最佳，但無一及格。建議臨床醫師使用語言模型時要謹慎，等待更多證據。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

原始文章

站上相關主題文章列表