Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan.
在日本國家醫學資格考試中的生成式預訓練轉換器表現。 PLOS Digit Health 2024-01-27

ChatGPT是一個強大的語言模型，於2022年11月問世，對自然語言處理產生了重大影響。它啟發了全球臨床實踐和研究中使用大型語言模型。一項研究評估了GPT模型在日本國家醫學執照考試（NMLE）上的表現，並將其與通過率進行了比較。研究發現，經過優化提示的GPT-4在考試中取得了及格分數。分析確定了導致答錯的因素，例如缺乏醫學知識和日本特定信息的錯誤。總的來說，GPT模型可以成為醫學領域中有價值的工具，有助應對挑戰並改善醫療保健。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

A Comparison Between GPT-3.5, GPT-4, and GPT-4V: Can the Large Language Model (ChatGPT) Pass the Japanese Board of Orthopaedic Surgery Examination?
GPT-3.5、GPT-4 和 GPT-4V 之比較：大型語言模型(ChatGPT) 能通過日本骨科醫學會考試嗎？ Cureus 2024-04-18

大型語言模型如ChatGPT發展迅速，據報導，GPT-3.5已達到醫學考試水準。新GPT-4V有圖像識別功能，對醫學有潛力。研究顯示GPT-4在骨科手術表現優於GPT-3.5，GPT-4V也有潛力。ChatGPT可通過骨科專科醫師考試，未來應用需更多訓練數據。 PubMed DOI

Potential of ChatGPT to Pass the Japanese Medical and Healthcare Professional National Licenses: A Literature Review.
ChatGPT 通過日本醫療與健康專業國家執照的潛力：文獻回顧。 Cureus 2024-09-09

這項系統性回顧評估了ChatGPT（特別是GPT-3.5、4和4V）在日本醫療和健康執照考試中的有效性。研究分析了2022年1月到2024年4月間的22篇文章，結果顯示GPT-4雖能通過文字考試，但表現不如實際考生。此外，最新的GPT-4V在圖像識別上表現不佳，對視覺問題的回應也不夠充分。這些結果顯示，為了提升評估結果，仍需在精確度上進行改進。 PubMed DOI

Performance of ChatGPT 4.0 on Japan's National Physical Therapist Examination: A Comprehensive Analysis of Text and Visual Question Handling.
ChatGPT 4.0 在日本國家物理治療師考試中的表現：文本和視覺問題處理的綜合分析。 Cureus 2024-09-23

這項研究評估了ChatGPT 4.0在日本物理治療師國考中的表現，針對其回答複雜問題的能力進行分析。研究涵蓋了1,000道題目，結果顯示整體正確率為73.4%，符合及格標準。一般性問題的正確率較高，達80.1%，但實務問題僅46.6%。文字問題表現良好（80.5%），但涉及圖片和表格的問題則較差（35.4%）。這顯示ChatGPT在文字問題上有優勢，但在實務及視覺數據問題上仍需改進，未來在臨床復健和教育方面有潛力，但需進一步提升。 PubMed DOI

Evaluating the efficacy of leading large language models in the Japanese national dental hygienist examination: A comparative analysis of ChatGPT, Bard, and Bing Chat.
評估大型語言模型在日本國家牙科衛生師考試中的效能：ChatGPT、Bard 和 Bing Chat 的比較分析。 J Dent Sci 2024-09-30

這項研究評估了大型語言模型（LLMs），如ChatGPT、Bard和Bing Chat，在牙科教育中的有效性，分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示，GPT-4的準確率最高，達75.3%，其次是Bing（68.5%）、Bard（66.7%）和GPT-3.5（63.0%）。雖然模型間差異不顯著，但在「疾病機制與促進恢復過程」類別中，所有模型均達100%準確率。整體來看，GPT-4在多選題上表現優異，顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

Performance Assessment of GPT 4.0 on the Japanese Medical Licensing Examination.
GPT 4.0 在日本醫學執照考試中的表現評估。 Curr Med Sci 2024-10-26

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現，重點在於準確性和醫學知識解析能力。問題依難度和類型分類，包括一般和臨床部分，以及單選和多選題。GPT-4.0的正確回答率達80.4%，顯示出合格的表現，但不同問題的準確性有顯著差異。研究結果顯示，雖然GPT-4.0在醫學教育和研究中有價值，但仍需大量醫學數據來提升準確性，整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

原始文章

站上相關主題文章列表