Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

ChatGPT (GPT-4V) Performance on the Healthcare Information Technologist Examination in Japan.
ChatGPT (GPT-4V) 在日本醫療資訊技術人員考試中的表現。 Cureus 2025-02-03

本研究評估了ChatGPT（GPT-4V）在日本醫療資訊技術人員（HCIT）認證考試中的表現。經過三年，分析了476道考題，結果顯示ChatGPT的正確回答率達84%，成功通過考試。簡單選擇題的表現優於多選題，且帶圖片的問題和需要計算的題目正確率較低。總體而言，ChatGPT具備HCIT認證所需的基本知識和技能，顯示其在醫療資訊領域的潛力。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

Potential of Large Language Models in Generating Multiple-Choice Questions for the Japanese National Licensure Examination for Physical Therapists.
大型語言模型在生成日本物理治療師國家執照考試多選題的潛力。 Cureus 2025-03-20

本研究探討大型語言模型（LLMs）在生成日本物理治療師國家執照考試多選題的應用，特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目，生成的題目在準確率上達到100%。評估結果顯示，題目的清晰度、臨床相關性及難度等方面表現良好，平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源，對教育工作者有幫助，並為未來的應用奠定基礎。 PubMed DOI

Evaluating Chat Generative Pretrained Transformer (GPT-4o) Problem-Solving Performance in the Japan Certificate Examination for Biomedical Engineering Class 1.
在日本生物醫學工程一級認證考試中評估 Chat Generative Pretrained Transformer (GPT-4o) 的問題解決表現 Cureus 2025-04-23

這項研究發現，ChatGPT（GPT-4o）在日本生物醫學工程一級認證考試的答對率約為58%到68%，只有一年有及格。主要錯誤來自知識不足、理解錯誤或亂編答案。雖然有一定表現，但目前還不夠穩定，無法完全信賴。 PubMed DOI

Pilot Study on Using Large Language Models for Educational Resource Development in Japanese Radiological Technologist Exams.
用於日本放射技師考試教育資源開發之大型語言模型的初步研究 Med Sci Educ 2025-05-12

這篇研究發現，大型語言模型在製作日本放射技術師國考教材時，對文字題表現不錯，但計算題和影像判讀較弱。建議搭配程式工具解計算題，影像題則用關鍵字輔助。老師要主動監督和驗證內容。隨著LLM進步，教學方法也要跟著調整，才能確保非英語環境下的教學品質。 PubMed DOI

Performance of large language models on Thailand's national medical licensing examination: a cross-sectional study.
大型語言模型在泰國國家醫師執照考試中的表現：一項橫斷面研究 J Educ Eval Health Prof 2025-05-12

這項研究讓四款大型語言模型參加泰國醫師執照模擬考，發現它們分數都超過及格線，GPT-4表現最好，正確率高達88.9%。雖然大多數醫學主題都答得不錯，但在遺傳學和心血管題目上較弱。圖片題有進步空間，純文字題表現較佳。整體來說，LLMs對泰國醫學生準備考試很有幫助，但還需加強某些主題和圖片題的能力。 PubMed DOI

Response Analysis of Health Care Information Technologists in Japan Using Chat Generative Pretrained Transformer.
日本醫療資訊技術人員使用 Chat Generative Pretrained Transformer 的回應分析 Stud Health Technol Inform 2025-05-17

這項研究發現，ChatGPT在日本醫療資訊考試中，醫療保健、資訊科技和健康資訊系統領域表現不錯，但在標準和法律題目上較差。結論提醒，ChatGPT的答案可能有誤，查詢相關資訊時要特別謹慎。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

Evaluating the Accuracy and Performance of ChatGPT-4o in Solving Japanese National Dental Technician Examination.
ChatGPT-4o 在解答日本國家牙科技術師考試中的準確性與表現評估 Int Dent J 2025-06-10

這項研究發現，ChatGPT-4o在日本牙體技術師考試的基礎知識題表現不錯，但遇到專業、需要看圖或操作的題目就比較不行。它在牙科材料題的正確率最高，但在矯正和兒童牙科技術題表現較差。整體來說，ChatGPT-4o適合當牙科學習輔助工具，但影像辨識和操作模擬能力還要再加強。 PubMed DOI

原始文章

站上相關主題文章列表