原始文章

這項研究探討了ChatGPT-4在土耳其神經學專業考試中的表現,結果顯示其成功率在2021至2023年間達79%到82%。這是首次在真實醫療執照考試中評估ChatGPT的能力,且其表現優於GPT-3.5。將問題翻譯成英文也未影響其表現。該模型能在收到反饋後修正錯誤,展現出靈活性。不過,研究強調使用AI模型時需謹慎,因為它們不一定總能提供正確答案。 PubMed DOI


站上相關主題文章列表

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

這項研究比較了 Chat Generative Pre-Trained Transformer (ChatGPT) 與實際參加土耳其神經外科學會專業委員會考試 (TNSPBE) 的考生。相較於人類考生,ChatGPT 在不同難度水平的問題中表現出色,平均分數較高,回答也更清晰。 PubMed DOI

人工智慧工具如ChatGPT在各領域廣泛運用,包括醫學教育。一項研究測試ChatGPT在神經外科住院醫師考試問題上的表現,發現其分數較人類低,但能正確回答自行產生的問題。這凸顯了人工智慧在醫學教育中的潛力,同時也強調了必須明確訂定要求以產生問題。 PubMed DOI

這項研究評估了ChatGPT在臨床神經學醫學問題回答準確度。ChatGPT在回答問題時的正確率為65.3%,在需要批判性思考的問題上準確度較低。整體表現中等,但在批判性思考和某些專業領域上表現不足。使用者應該從可靠來源驗證AI模型提供的醫學資訊。 PubMed DOI

AI在醫學領域的進步可能會改變許多醫學專業人員的工作。一項研究評估了Open AI的ChatGPT在日本國家醫學資格考試(NMLE)上的表現,包括圖像問題。研究顯示,GPT-4/4V表現優秀,甚至達到或超越考生所需的最低分數。這研究凸顯了AI在醫學教育中的潛力。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI

這項研究探討了ChatGPT-4在美國家庭醫學委員會(ABFM)認證考試中的表現,目的是評估其是否能達到及格標準。研究中,ChatGPT-4在模擬考試環境下,使用300道練習題進行測試,結果顯示其正確回答率為88.67%(自訂版本)和87.33%(常規版本),兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能,並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現,特別是版本3.5和4,並與人類醫生進行比較。考試包含80道多選題,結果顯示人類醫生中位數得分為5.91,32人未通過。ChatGPT-3.5得分3.94,正確率54.5%,排名第116;而ChatGPT-4得分7.57,正確率81.8%,排名第17,超越許多人類專家。研究顯示,ChatGPT-4在醫學知識評估中有顯著進步,顯示其在專業醫學教育中的潛在價值。 PubMed DOI

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現,特別關注繁體中文的能力。結果顯示,ChatGPT-3.5在基礎醫學科學的準確率為67.7%,臨床醫學為53.2%;而ChatGPT-4的表現明顯優於前者,準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大,但ChatGPT-4在所有科目中均表現良好,顯示AI在醫學教育中的潛力,實施時仍需謹慎考量不同專業的變異性。 PubMed DOI