Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

Comparing the performance of ChatGPT and ERNIE Bot in answering questions regarding liver cancer interventional radiology in Chinese and English contexts: A comparative study.
比較 ChatGPT 和 ERNIE Bot 在中英文語境下回答有關肝癌介入放射學問題的表現：一項比較研究。 Digit Health 2025-01-24

這項研究評估了兩個大型語言模型（LLMs），ERNIE Bot 和 ChatGPT，在回答肝癌介入放射學問題的有效性，特別是針對經動脈化療栓塞（TACE）和肝動脈灌注化療（HAIC）。共設計38個問題，由10位專業人士評估兩者的回答。結果顯示，ERNIE Bot 在中文環境中表現較佳，而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊，但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

Evaluating the Performance of Large Language Models (LLMs) in Answering and Analysing the Chinese Dental Licensing Examination.
評估大型語言模型 (LLMs) 在回答和分析中國牙科執照考試中的表現。 Eur J Dent Educ 2025-01-31

這項研究評估了多種大型語言模型（LLMs）在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題，並在三種情境下測試七個高效能的LLMs。結果顯示，Doubao-pro 32k和Qwen2-72b的準確性最高，分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異，但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

Can GPTs Accelerate the Development of Intelligent Diagnosis and Treatment in Traditional Chinese Medicine? A Survey and Empirical Analysis.
GPTs 能否加速傳統中醫智能診斷與治療的發展？一項調查與實證分析。 J Evid Based Med 2025-02-24

這項研究探討將大型語言模型（LLMs），如GPT，融入傳統中醫（TCM）的可能性，旨在現代化和全球化這個領域。中醫因專業術語和診斷方法的複雜性，面臨數位化和個性化的挑戰。雖然LLMs在語意理解上有潛力，但在準確性和邏輯推理上仍有不足，可能產生不可靠的結果。研究回顧現有文獻和實證數據，評估LLMs在中醫的潛在好處與挑戰，並討論未來的發展方向。 PubMed DOI

Performance of ChatGPT-4 on Taiwanese Traditional Chinese Medicine Licensing Examinations: Cross-Sectional Study.
ChatGPT-4 在台灣傳統中醫執照考試中的表現：橫斷面研究。 JMIR Med Educ 2025-03-19

本研究探討了ChatGPT（特別是GPT-4模型）在台灣傳統中醫執照考試中的表現。測試結果顯示，ChatGPT的準確率僅43.9%，遠低於兩位持證中醫師的70%和78.4%。大部分錯誤來自對中醫概念的誤解，顯示其在中醫知識和推理上的局限性。雖然ChatGPT在教育資源方面有潛力，但目前在TCM考試中的表現仍不理想。研究建議需改進專門的中醫AI模型，並對其在中醫教育中的應用保持謹慎，未來應專注於提升模型及開發專屬的學習工具。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

Performance of large language models on Thailand's national medical licensing examination: a cross-sectional study.
大型語言模型在泰國國家醫師執照考試中的表現：一項橫斷面研究 J Educ Eval Health Prof 2025-05-12

這項研究讓四款大型語言模型參加泰國醫師執照模擬考，發現它們分數都超過及格線，GPT-4表現最好，正確率高達88.9%。雖然大多數醫學主題都答得不錯，但在遺傳學和心血管題目上較弱。圖片題有進步空間，純文字題表現較佳。整體來說，LLMs對泰國醫學生準備考試很有幫助，但還需加強某些主題和圖片題的能力。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

Performance of DeepSeek-R1 and ChatGPT-4o on the Chinese National Medical Licensing Examination: A Comparative Study.
DeepSeek-R1 與 ChatGPT-4o 在中國國家醫師執照考試的表現：一項比較研究 J Med Syst 2025-06-03

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示，DeepSeek-R1 的正確率（92.0%）明顯高於 ChatGPT-4o（87.2%），尤其在簡單題目上表現更好，但在難題或特定科目上兩者差異不大。整體來說，DeepSeek-R1 表現較優。 PubMed DOI

原始文章

站上相關主題文章列表