原始文章

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI


站上相關主題文章列表

ChatGPT是OpenAI在2022年推出的AI語言模型。研究發現,它在整形外科住院醫師考試中表現良好,但在更高級別的醫師中表現較差。儘管在醫療和教育領域有潛力,仍需進一步研究確認其效用。 PubMed DOI

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現,結果顯示GPT-4準確率高達76.4%,明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定,但仍需搭配人類專業知識和判斷力。 PubMed DOI

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

研究評估了GPT-4.0人工智慧模型對整形外科委員會考試問題的回應表現,發現在準確性、清晰度、完整性和簡潔性方面表現優秀。雖然處理複雜主題有限制,但在考試準備上有潛力。未來研究應致力於提升模型在複雜醫學主題的表現,以更好應用於醫學教育。 PubMed DOI

台灣醫療好,2022和2023年醫師考試數據顯示ChatGPT-4準確率介於63.75%到93.75%,最高93.75%在2022年2月。眼科、乳房外科、整形外科、骨科和普通外科表現較差。透過“思維鏈”方法,ChatGPT-4準確率提升至90%以上,在台灣醫師考試表現優異。 PubMed DOI

ChatGPT-4在TUBE考試中表現優於ChatGPT-3.5,但準確度有下降趨勢,面臨通過考試的困難。它解釋一致,但管理不確定性困難,容易過度自信。雖有潛力處理醫學資訊,需謹慎使用,尤其對經驗不足者。需持續發展泌尿科專用AI工具以因應挑戰。 PubMed DOI

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異,PSITE考試準確率達79%,但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎,因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI