原始文章

這項研究評估了GPT-4與GPT-3.5在耳鼻喉科考試問題上的表現。研究使用了150個來自BoardVitals的問題,結果顯示標準的GPT-4正確率為72.0%,而專為耳鼻喉科設計的自訂GPT-4模型則達到81.3%。相比之下,GPT-3.5的正確率僅51.3%。自訂模型的表現顯著優於標準模型,但兩者在較難問題上表現都有所下降。整體來看,GPT-4在這情境下表現優於GPT-3.5,自訂模型則進一步提升準確性,顯示其在醫學教育中的潛力。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、GPT-4和Google Bard在神經外科口試考題上的表現,結果發現GPT-4準確率最高達82.6%,明顯優於其他兩者。GPT-4在特定類別及影像相關問題上表現較佳,且較少出現"幻覺"情況。研究強調了LLM表現中問題特性和解決方式的重要性。 PubMed DOI

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

2023年6月的研究比較了人類、GPT-4.0和GPT-3.5在回答AAO BCSC自我評估計劃的表現。結果顯示,GPT-4.0在1023個問題中得分最高(82.4%),人類次之(75.7%),GPT-3.5最低(65.9%)。然而,GPT-4.0和GPT-3.5在手術相關問題上表現不佳。總體而言,GPT-4.0在測試中有顯著進步,超越了GPT-3.5和人類,但在不同領域表現仍有差異,尤其是在手術方面。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

研究發現,ChatGPT-4 Vision (GPT-4V)在回答耳鼻喉科醫學委員會認證考試的表現,加入英文翻譯和提示有助提高正確率。圖像問題表現較差,但加入文字與圖像輸入後有改善。研究指出人工智慧在醫學領域的潛力與限制,GPT-4V在處理圖像問題上仍有進步空間。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

這項研究評估了GPT-4與GPT-3.5及家庭醫學住院醫師在2022年美國家庭醫學委員會考試中的表現。結果顯示,GPT-4的準確率達84%,明顯高於GPT-3.5的56%,標準分數提升410分。定性分析指出,GPT-4能整合新資訊並自我修正,展現高準確性和快速學習能力。研究強調,GPT-4在臨床決策中具潛力,同時也提醒醫生在運用人工智慧時,需具備批判性思考和終身學習的能力。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI

這項研究評估了ChatGPT在考試中的表現,並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題,結果顯示ChatGPT的表現超過了第一到第三年的醫學生,但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好,但在臨床推理和解決複雜問題的能力上,仍無法與高年級實習生相比,顯示其臨床應用的限制。 PubMed DOI