Evaluating the performance of ChatGPT-4 on the United Kingdom Medical Licensing Assessment.
評估 ChatGPT-4 在英國醫學執照考試中的表現。 Front Med (Lausanne) 2023-10-06

LLMs（大型語言模型）如ChatGPT展現了理解和生成人類文本的潛力。研究評估了ChatGPT在英國醫學執照考試中的表現，結果顯示在某些專業領域表現不錯，但在其他領域表現較差。ChatGPT在67.5％的問題中提供了正確答案，顯示其在醫學教育中有潛力成為輔助學習工具，但需要適當監督。 PubMed DOI

Clinical Research With Large Language Models Generated Writing-Clinical Research with AI-assisted Writing (CRAW) Study.
大型語言模型生成寫作的臨床研究-具有AI輔助寫作的臨床研究（CRAW）研究。 Crit Care Explor 2023-10-30

研究比較了大型語言模型GPT-3.5和不同H指數的醫學研究人員在寫重症監護臨床研究問題背景的能力。來自20個國家的研究人員評估後發現，GPT-3.5在背景部分表現不錯，但在區分人類內容方面稍遜。總結來說，GPT-3.5能夠創造出和高H指數醫學研究人員相當的背景研究內容。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

Performance of generative pre-trained transformers (GPTs) in Certification Examination of the College of Family Physicians of Canada.
加拿大家庭醫師學院認證考試中生成式預訓練轉換器（GPTs）的表現。 Fam Med Community Health 2024-05-28

這項研究評估了大型語言模型如GPT-3.5和GPT-4在回答CFPC考試中的短答管理問題時的表現。結果顯示，這兩個模型提供了準確的答案，其中GPT-4的表現優於GPT-3.5。該研究建議這些模型可能有助於協助考生準備CFPC考試，但在家庭醫學教育中應用它們仍需要進一步的研究。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Assessing the Ability of a Large Language Model to Score Free-Text Medical Student Clinical Notes: Quantitative Study.
評估大型語言模型對醫學生自由文本臨床筆記進行評分的能力：定量研究。 JMIR Med Educ 2024-08-09

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果，並與標準化病人進行比較。研究涵蓋168名學生，結果顯示ChatGPT的錯誤評分率僅1.0%，而標準化病人則為7.2%。平均錯誤數方面，ChatGPT為12，標準化病人則高達85，且差異顯著（P=.002）。這項研究顯示，GPT模型在評分臨床筆記上具有潛力，未來可能在醫療教育中提供即時反饋，標誌著醫學教育的一大進步。 PubMed DOI

A Language Model-Powered Simulated Patient With Automated Feedback for History Taking: Prospective Study.
一個由語言模型驅動的模擬病人及自動反饋的病史採集：前瞻性研究。 JMIR Med Educ 2024-08-16

這項研究探討了使用GPT-4模型，透過與模擬病人聊天機器人的互動，為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生，分析了106次對話中的1,894個問答對。結果顯示，GPT-4的回應在99%以上是醫學上合理的，且與人類評分者的協議幾乎完美（Cohen κ=0.832）。不過，在45個反饋類別中，有8個類別出現差異，顯示模型評估可能過於具體或與人類判斷不同。總體而言，研究認為GPT-4在提供結構化反饋上有效，並建議在醫學教育中謹慎整合AI反饋機制。 PubMed DOI

Evaluating the Capabilities of Generative AI Tools in Understanding Medical Papers: Qualitative Study.
評估生成式 AI 工具在理解醫學論文中的能力：質性研究。 JMIR Med Inform 2024-09-04

這項研究探討大型語言模型（LLMs）在理解醫學研究論文的能力，特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現，包括GPT-3.5-Turbo和GPT-4系列，與專業醫學教授的評估。分析了50篇來自PubMed的論文，結果顯示GPT-3.5-Turbo的準確率最高（66.9%），而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力，但也指出需進一步研究以克服現有限制。 PubMed DOI

原始文章

站上相關主題文章列表