原始文章

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、GPT-4和Google Bard在神經外科口試考題上的表現,結果發現GPT-4準確率最高達82.6%,明顯優於其他兩者。GPT-4在特定類別及影像相關問題上表現較佳,且較少出現"幻覺"情況。研究強調了LLM表現中問題特性和解決方式的重要性。 PubMed DOI

人工智慧和機器學習對醫療保健產生了巨大影響,特別是在神經外科領域。一項研究發現,GPT-4在神經外科委員會風格問題上表現優異,準確率高於醫學生和住院醫師。這顯示GPT-4在醫學教育和臨床決策上有潛力,能夠超越人類在神經外科專業領域的表現。 PubMed DOI

2022年德國醫學州考試研究指出,GPT-4在630題中表現最佳,超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而,秋季考試時GPT-4和Bing表現下滑,或許是因為媒體問題增加。研究建議LLMs,特別是GPT-4和Bing,在醫學教育和考試準備領域有潛力,值得進一步研發並應用於教育和臨床實務。 PubMed DOI

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示,GPT-4在十個考試類別中有五個類別的通過率達到80%以上,比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性,以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

研究發現,ChatGPT-4 Vision (GPT-4V)在回答耳鼻喉科醫學委員會認證考試的表現,加入英文翻譯和提示有助提高正確率。圖像問題表現較差,但加入文字與圖像輸入後有改善。研究指出人工智慧在醫學領域的潛力與限制,GPT-4V在處理圖像問題上仍有進步空間。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫,結果顯示 ChatGPT-4 表現最佳,成功率達 74%,其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好,僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力,並指出需對其回答進行仔細監督,以確保病人安全。 PubMed DOI

這項研究評估了多個大型語言模型(LLMs)在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集,結果顯示GPT-4表現最佳,正確率達77.1%,其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性,GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異,但GPT-4在教育上仍具潛力,需注意其局限性。 PubMed DOI