Evaluating the limits of AI in medical specialisation: ChatGPT's performance on the UK Neurology Specialty Certificate Examination.
評估醫學專業中人工智慧的極限：ChatGPT 在英國神經學專科證書考試中的表現。 BMJ Neurol Open 2023-06-21

ChatGPT在醫學教育有潛力，研究指出在醫學考試表現良好。研究評估了ChatGPT在神經學和神經科學專業培訓中的表現，使用了神經學考試的問題。ChatGPT-4的表現優於之前版本，準確率達64%，超過及格閾值。顯示像ChatGPT-4這樣的人工智慧模型在專業醫學教育有潛力，但AI開發者和醫學專家持續合作對其在醫學領域的可靠性至關重要。 PubMed DOI

GPT-4 Artificial Intelligence Model Outperforms ChatGPT, Medical Students, and Neurosurgery Residents on Neurosurgery Written Board-Like Questions.
GPT-4人工智慧模型在神經外科筆試題上表現優於ChatGPT、醫學生和神經外科住院醫師。 World Neurosurg 2023-12-16

人工智慧和機器學習對醫療保健產生了巨大影響，特別是在神經外科領域。一項研究發現，GPT-4在神經外科委員會風格問題上表現優異，準確率高於醫學生和住院醫師。這顯示GPT-4在醫學教育和臨床決策上有潛力，能夠超越人類在神經外科專業領域的表現。 PubMed DOI

Comparative performance of humans versus GPT-4.0 and GPT-3.5 in the self-assessment program of American Academy of Ophthalmology.
人類與 GPT-4.0 及 GPT-3.5 在美國眼科學會自我評估計畫中的比較表現。 Sci Rep 2023-11-01

2023年6月的研究比較了人類、GPT-4.0和GPT-3.5在回答AAO BCSC自我評估計劃的表現。結果顯示，GPT-4.0在1023個問題中得分最高（82.4%），人類次之（75.7%），GPT-3.5最低（65.9%）。然而，GPT-4.0和GPT-3.5在手術相關問題上表現不佳。總體而言，GPT-4.0在測試中有顯著進步，超越了GPT-3.5和人類，但在不同領域表現仍有差異，尤其是在手術方面。 PubMed DOI

Performance of artificial intelligence chatbots in sleep medicine certification board exams: ChatGPT versus Google Bard.
人工智慧聊天機器人在睡眠醫學認證考試中的表現：ChatGPT 對 Google Bard 的比較。 Eur Arch Otorhinolaryngol 2024-04-02

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示，GPT-4在十個考試類別中有五個類別的通過率達到80%以上，比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性，以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

Comprehensive analysis of the performance of GPT-3.5 and GPT-4 on the American Urological Association self-assessment study program exams from 2012-2023.
2012年至2023年美國泌尿學會自我評估研究計畫考試中GPT-3.5和GPT-4表現的全面分析。 Can Urol Assoc J 2024-02-21

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現，結果顯示GPT-4在大多數年份和泌尿學主題中表現優異，得分超過50%。GPT-4的總分為55%，顯著高於GPT-3.5的33%。研究結果指出，像GPT-4這樣的AI語言模型在回答臨床問題上有進步，但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

Comparative performance of artificial ıntelligence models in physical medicine and rehabilitation board-level questions.
人工智慧模型在物理醫學與復健專業考試問題中的比較表現。 Rev Assoc Med Bras (1992) 2024-07-24

這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫，結果顯示 ChatGPT-4 表現最佳，成功率達 74%，其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好，僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力，並指出需對其回答進行仔細監督，以確保病人安全。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Diagnostic accuracy of large language models in psychiatry.
大型語言模型在精神科的診斷準確性。 Asian J Psychiatr 2024-08-07

這項研究探討了不同人工智慧模型在精神醫學診斷的表現，包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響，準確診斷常常困難。研究使用20個DSM-5的臨床案例，結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型，尤其在診斷精神病和雙相情感障礙方面表現突出，但在某些情況下則不佳。研究建議，人工智慧有潛力改善精神科診斷，但其他模型需進一步改進，未來應擴展數據集以增強診斷能力。 PubMed DOI

Evaluating cognitive performance: Traditional methods vs. ChatGPT.
評估認知表現：傳統方法 vs. ChatGPT。 Digit Health 2024-08-19

這項研究探討了ChatGPT（GPT-3.5和GPT-4）在評估認知表現的有效性，對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異，但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分，顯示其在認知評估中有進一步提升的潛力。整體而言，ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

[Performance of generative pre-trained transformer-4 on the certification test for mental health management: A factorial design].
「生成預訓練變壓器-4 在心理健康管理認證測試中的表現：一項因子設計研究」 Sangyo Eiseigaku Zasshi 2024-09-16

這項研究評估了GPT-4在心理健康管理認證測試中的表現，重點在於調整提示是否能提升結果。研究者使用3 × 2的因子設計，測試600道多選題，並比較了簡單提示與調整提示的效果。結果顯示，GPT-4在不同難度級別的得分相近，且兩種提示條件之間沒有顯著差異。雖然調整提示未顯著提升表現，但能減少錯誤並改善輸出組織。該研究已在UMIN-CTR註冊。 PubMed DOI

原始文章

站上相關主題文章列表