Assessing the performance of ChatGPT in bioethics: a large language model's moral compass in medicine.
評估 ChatGPT 在生物倫理學中的表現：一個大型語言模型在醫學中的道德指南。 J Med Ethics 2024-02-02

研究評估了ChatGPT-3.5在回答生物倫理問題上對美國第三和第四年醫學生的表現。ChatGPT的準確率為59.6%，在某些生倫類別和專業領域表現較佳，但在知情同意問題上有困難。研究強調了有必要進一步研究醫學生對於人工智慧系統在生物倫理上的能力和限制。 PubMed DOI

Pure Wisdom or Potemkin Villages? A Comparison of ChatGPT 3.5 and ChatGPT 4 on USMLE Step 3 Style Questions: Quantitative Analysis.
ChatGPT 3.5 和 ChatGPT 4 在美國醫師執照考試第三步驟題目上的比較：量化分析。 JMIR Med Educ 2024-01-22

研究指出ChatGPT 4在USMLE Step 3模擬測驗中表現優異，準確率高達84.7%，比3.5版本的56.9%好很多。雖然在各難度等級上表現不錯，但在應用理論概念的問題上稍嫌不足，尤其是在心臟病學和神經學領域。研究指出AI在醫學教育和診斷上有潛力，也提到了防止AI作弊的重要性。 PubMed DOI

Ethical and Professional Decision-Making Capabilities of Artificial Intelligence Chatbots: Evaluating ChatGPT's Professional Competencies in Medicine.
人工智能聊天機器人在道德和專業決策能力方面：評估 ChatGPT 在醫學專業能力方面。 Med Sci Educ 2024-04-30

AI聊天機器人，特別是GPT-3.5和GPT-4，在專業精神和道德測試中表現優異，相較於醫學院申請者表現更好。它們得分較高，並且大多數問題回答正確，顯示了它們在醫療培訓和決策方面的潛力。這凸顯了在線評估中使用聊天機器人的優勢和風險。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

Evaluating ChatGPT's moral competence in health care-related ethical problems.
評估 ChatGPT 在與醫療相關的倫理問題中的道德能力。 JAMIA Open 2024-07-10

研究評估了ChatGPT 3.5和4.0的道德能力，結果顯示ChatGPT 4.0在整體道德偏好和C-指數分數上表現較佳。兩者偏好Kohlberg理論的後期階段，顯示中等道德能力，但分數有變異性，需要進一步訓練。ChatGPT可用於評估論點，協助醫師在倫理情境中做決策。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

Special Issue on Informatics Education: ChatGPT Performs Worse on USMLE-Style Ethics Questions Compared to Medical Knowledge Questions.
資訊教育特刊：ChatGPT 在 USMLE 風格的倫理問題上表現不如醫學知識問題。 Appl Clin Inform 2024-08-29

這項研究評估了ChatGPT（3.5和4版本）在回答美國醫學執照考試（USMLE）風格的醫學倫理問題的表現，並與醫學知識問題進行比較。研究使用54個問題進行測試，結果顯示： - 兩個版本在醫學倫理問題上的表現不如知識問題。 - GPT-4在倫理問題的準確率比知識問題下降18%，GPT-3.5則下降7%（差異不顯著）。 - GPT-4在倫理問題上比GPT-3.5好22%，知識問題上好33%。 - GPT-4的回答變異性較低，顯示其穩定性較佳。這些結果強調了持續評估ChatGPT在醫學教育，特別是醫學倫理領域的必要性。 PubMed DOI

Comparison of the Performance of Artificial Intelligence Versus Medical Professionals in the Polish Final Medical Examination.
人工智慧與醫療專業人員在波蘭最終醫學考試中的表現比較。 Cureus 2024-09-02

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現，特別是3.5和4.0版本。分析196道選擇題後，發現3.5版本的正確率為50.51%，而4.0版本提升至77.55%，超過及格線56%。值得注意的是，3.5版本對正確答案的信心較高，而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看，ChatGPT 4.0在醫學教育和評估中展現了潛力，未來版本如5.0預期會有更好表現。 PubMed DOI

The performance of AI in medical examinations: an exploration of ChatGPT in ultrasound medical education.
AI 在醫學考試中的表現：探索 ChatGPT 在超聲醫學教育中的應用。 Front Med (Lausanne) 2024-11-20

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性，並探討其在超聲醫學教育中的應用潛力。共選取100道題目，包含70道單選題和30道多選題，涵蓋基礎知識、臨床知識、專業知識及實踐。測試結果顯示，ChatGPT 3.5版本在單選題準確率為35.7%，多選題30.0%；而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步，但仍未達及格標準，且在專業實踐方面表現不佳。儘管如此，ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

原始文章

站上相關主題文章列表