原始文章

這項研究評估了GPT-4與GPT-3.5在耳鼻喉科考試問題上的表現。研究使用了150個來自BoardVitals的問題,結果顯示標準的GPT-4正確率為72.0%,而專為耳鼻喉科設計的自訂GPT-4模型則達到81.3%。相比之下,GPT-3.5的正確率僅51.3%。自訂模型的表現顯著優於標準模型,但兩者在較難問題上表現都有所下降。整體來看,GPT-4在這情境下表現優於GPT-3.5,自訂模型則進一步提升準確性,顯示其在醫學教育中的潛力。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示,GPT-4的準確率達84%,明顯高於GPT-3.5的56%,標準分數提升410分。定性分析指出,GPT-4能整合新資訊並自我修正,展現高準確性和快速學習能力。研究強調,GPT-4在臨床決策中具潛力,同時也提醒醫生在運用人工智慧時,需具備批判性思考和終身學習的能力。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI

這項研究評估了ChatGPT在考試中的表現,並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題,結果顯示ChatGPT的表現超過了第一到第三年的醫學生,但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好,但在臨床推理和解決複雜問題的能力上,仍無法與高年級實習生相比,顯示其臨床應用的限制。 PubMed DOI

這項研究評估了ChatGPT-4.0和ChatGPT-3.5在回答眼科問題準備庫中的多選題表現。隨機選取520道問題,結果顯示GPT-4.0正確率為78.46%(408道),而GPT-3.5為64.15%(333道),兩者差異具統計意義(p=0.0195)。GPT-4.0在所有子群分析中均優於GPT-3.5,顯示其在處理複雜醫學數據的能力更強。研究強調AI在醫學領域的潛力,並建議需有監考等措施以確保線上測試的完整性。呼籲進一步研究AI在臨床決策中的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現,GPT-4o正確率最高,特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯,但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看,新一代LLM在醫療領域很有潛力,但表現會變動,需持續追蹤和優化。 PubMed DOI

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI