Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study.
GPT-3.5和GPT-4在日本醫學執照考試中的表現：比較研究。 JMIR Med Educ 2023-07-26

研究比較了GPT-3.5和GPT-4在日本醫師執照考試（JMLE）中的表現，結果顯示GPT-4比GPT-3.5更準確，尤其在各種問題上表現更好。GPT-4在困難和特定疾病問題上也表現出色，符合JMLE的及格標準。這顯示GPT-4可能成為非英語國家醫學教育和臨床支援的實用工具。 PubMed DOI

Assessing the Performance of GPT-3.5 and GPT-4 on the 2023 Japanese Nursing Examination.
評估 GPT-3.5 和 GPT-4 在 2023 年日本護理考試上的表現。 Cureus 2023-09-06

研究比較了在日本醫學領域使用日本國家護理考試問題時，ChatGPT語言模型版本3.5和4的表現。結果顯示GPT-4比GPT-3.5進步明顯，準確率更高，符合考試及格標準。透過適當培訓並了解其能力與限制，GPT-4在日本臨床環境中有潛力，可支援醫療人員與病患。 PubMed DOI

Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan.
在日本國家醫學資格考試中的生成式預訓練轉換器表現。 PLOS Digit Health 2024-01-27

ChatGPT是一個強大的語言模型，於2022年11月問世，對自然語言處理產生了重大影響。它啟發了全球臨床實踐和研究中使用大型語言模型。一項研究評估了GPT模型在日本國家醫學執照考試（NMLE）上的表現，並將其與通過率進行了比較。研究發現，經過優化提示的GPT-4在考試中取得了及格分數。分析確定了導致答錯的因素，例如缺乏醫學知識和日本特定信息的錯誤。總的來說，GPT模型可以成為醫學領域中有價值的工具，有助應對挑戰並改善醫療保健。 PubMed DOI

Comparison of the Performance of GPT-3.5 and GPT-4 With That of Medical Students on the Written German Medical Licensing Examination: Observational Study.
GPT-3.5和GPT-4在德國醫學筆試考試上表現與醫學生比較的觀察性研究。 JMIR Med Educ 2024-02-25

研究比較GPT-3.5和GPT-4在德國醫學執照考試的結果，發現GPT-4平均得分85%，比GPT-3.5表現更好。GPT-4在內外科表現優秀，但在學術研究方面稍微弱一些。研究指出，像ChatGPT這樣的人工智慧模型可以提升醫學教育和病人護理，但也提醒醫學訓練者需要具備批判性評估能力。未來需要進一步研究ChatGPT對大眾安全和準確性的影響。 PubMed DOI

The model student: GPT-4 performance on graduate biomedical science exams.
模範學生：GPT-4 在研究生生物醫學考試中的表現。 Sci Rep 2024-03-11

GPT-4是個厲害的工具，能產生英文文本，對應標準化考試問題表現不錯。但還需進一步評估其在各科目中的正確性和可靠性。一項研究評估了GPT-4在研究生級的生物醫學科學考試中的表現，發現大多數情況下比學生表現好，但在某些問題上表現不佳。有些答案被標記為抄襲，且偶爾提供不正確的回答。了解這些限制可幫助未來考試設計更貼近智慧機器人時代的需求。 PubMed DOI

Comparative analysis of GPT-3.5 and 4.0 in Taiwan's medical technologist certification: A study in AI advancements.
臺灣醫學技師認證中 GPT-3.5 與 4.0 的比較分析：人工智慧進展之研究。 J Chin Med Assoc 2024-03-29

研究比較了台灣認證醫學技師方面的GPT-3.5和GPT-4.0效果，結果顯示GPT-4.0在臨床生化學和微生物學等科目表現較佳，整體具有顯著改善。建議GPT可支持醫學技師認證流程，並為未來在醫學教育和認證中應用GPT提供洞見。 PubMed DOI

Performance of generative pre-trained transformers (GPTs) in Certification Examination of the College of Family Physicians of Canada.
加拿大家庭醫師學院認證考試中生成式預訓練轉換器（GPTs）的表現。 Fam Med Community Health 2024-05-28

這項研究評估了大型語言模型如GPT-3.5和GPT-4在回答CFPC考試中的短答管理問題時的表現。結果顯示，這兩個模型提供了準確的答案，其中GPT-4的表現優於GPT-3.5。該研究建議這些模型可能有助於協助考生準備CFPC考試，但在家庭醫學教育中應用它們仍需要進一步的研究。 PubMed DOI

Evaluating prompt engineering on GPT-3.5's performance in USMLE-style medical calculations and clinical scenarios generated by GPT-4.
評估提示工程對 GPT-3.5 在 USMLE 風格醫學計算和由 GPT-4 生成的臨床情境中的表現。 Sci Rep 2024-07-28

這項研究評估了不同提示技術對GPT-3.5在回答美國醫學執照考試（USMLE）第一階段考題的影響。研究分析了1000個GPT-4生成的問題和95個真實考題，結果顯示各種提示類型的準確性差異不大，直接提示成功率為61.7%，思考鏈為62.8%，修改版思考鏈為57.4%。所有p值均高於0.05，顯示無顯著差異。結論認為，思考鏈提示並未顯著提升GPT-3.5的醫學問題處理能力，顯示人工智慧工具可有效融入醫學教育中，無需複雜提示策略。 PubMed DOI

Performance Evaluation of the Generative Pre-trained Transformer (GPT-4) on the Family Medicine In-Training Examination.
Generative Pre-trained Transformer (GPT-4) 在家庭醫學訓練考試中的表現評估。 J Am Board Fam Med 2024-08-30

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示，GPT-4的準確率達84%，明顯高於GPT-3.5的56%，標準分數提升410分。定性分析指出，GPT-4能整合新資訊並自我修正，展現高準確性和快速學習能力。研究強調，GPT-4在臨床決策中具潛力，同時也提醒醫生在運用人工智慧時，需具備批判性思考和終身學習的能力。 PubMed DOI

Evaluating AI Models: Performance Validation Using Formal Multiple-Choice Questions in Neuropsychology.
評估 AI 模型：在神經心理學中使用正式的多選題進行性能驗證。 Arch Clin Neuropsychol 2024-09-04

這項研究強調高品質神經心理學教育的重要性，並指出專業認證的障礙，如時間限制和專業知識不足。研究評估了兩個人工智慧語言模型，GPT-3.5和GPT-4.0，針對美國專業心理學委員會的臨床神經心理學問題。結果顯示，GPT-4.0的準確率達80.0%，明顯優於GPT-3.5的65.7%。在「評估」類別中，GPT-4.0得分73.4%，也高於GPT-3.5的58.6%。分析錯誤問題揭示了知識缺口，特別是在「神經退行性疾病」和「神經心理測試與解釋」方面。 PubMed DOI

原始文章

站上相關主題文章列表