原始文章

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI


站上相關主題文章列表

GPT-4被認為比GPT-3.5更可靠且有創造力,特別在整形外科教育上有潛力。研究指出,GPT-4在整形外科住院醫師培訓考試(PSITE)樣本題目中達到77.3%的正確率,在邏輯推理和資訊運用方面表現優秀。相較於GPT-3.5,GPT-4在正確性和可靠性上更勝一籌,顯示其對提升整形外科教育課程有潛力。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異,PSITE考試準確率達79%,但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎,因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示,GPT-4的準確率達84%,明顯高於GPT-3.5的56%,標準分數提升410分。定性分析指出,GPT-4能整合新資訊並自我修正,展現高準確性和快速學習能力。研究強調,GPT-4在臨床決策中具潛力,同時也提醒醫生在運用人工智慧時,需具備批判性思考和終身學習的能力。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在2021年ASPS整形外科在職考試中的表現,使用了不同的提示和檢索增強生成(RAG)技術。結果顯示,當以「住院醫師」身份回應時,準確率最高為54%,而RAG的使用並未顯著改善表現,準確率僅微幅提升至54.3%。整體而言,ChatGPT的表現位於第10百分位,顯示出需要進一步微調及採用更先進的方法,以提升AI在複雜醫療任務中的有效性。 PubMed DOI

這項研究評估了GPT-4生成的整形外科在職訓練考試(PSITE)練習題的能力。結果顯示,雖然GPT-4能創建多選題,但質量普遍低於2022年的實際考題。GPT-4生成的問題可讀性較差,且問題較短,複雜度低。不同部分的可讀性差異明顯,核心外科原則較易讀,而顱顏面外科最難。總體來看,GPT-4的問題質量不佳,存在錯誤資訊。儘管如此,研究建議在有經驗醫生指導下,GPT-4仍可作為住院醫師的教育工具,但需謹慎使用。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI