原始文章

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-4.0 和 ERNIE Bot-4.0,在外科住院醫師考試問題上的表現,並與人類住院醫師進行比較。分析了596個問題,結果顯示兩者在正確性上無顯著差異,但ERNIE Bot-4.0的表現始終優於ChatGPT-4.0。在210個有提示的問題中,ERNIE Bot-4.0的表現顯著優於ChatGPT-4.0及人類住院醫師,並在住院醫師的分數中排名前95%。總體來看,ERNIE Bot-4.0在此情境中表現更佳。 PubMed DOI


站上相關主題文章列表

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試(OITE)中表現不錯,得分61.2%,跟一名平均第三年的醫師相當。評審間一致,回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

這項研究評估了ChatGPT在考試中的表現,並與耳鼻喉科的實習生進行比較。31名醫學生和17名住院醫師回答了30道問題,結果顯示ChatGPT的表現超過了第一到第三年的醫學生,但不及第四和第五年的住院醫師。第四年醫學生和第一到第三年住院醫師的表現與ChatGPT相似。這顯示ChatGPT在死記硬背方面表現良好,但在臨床推理和解決複雜問題的能力上,仍無法與高年級實習生相比,顯示其臨床應用的限制。 PubMed DOI

大型語言模型(LLMs)如ChatGPT(GPT-4)、Gemini和Bing在醫學教育上展現潛力,特別是在臨床管理和住院醫師考試準備方面。一項針對耳鼻喉科住院醫師的研究顯示,GPT-4的準確率為54.75%,優於Gemini(40.50%)和Bing(37.00%)。高年級住院醫師的準確率達75.5%,明顯高於LLMs。雖然LLMs能與準高年級住院醫師相當,但仍未達到更有經驗的住院醫師的準確性,顯示在醫學教育中有潛在應用價值。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,在臨床環境中進行病史採集和文檔記錄的能力。研究比較了ChatGPT 3.5和4.0版本在模擬臨床情境中的表現,結果顯示ChatGPT-4.0在病歷文檔質量上有顯著改善,且與初級住院醫師的表現相當。雖然人類的整體質量仍優於機器,但ChatGPT-4.0在醫療記錄方面展現出良好能力,顯示LLMs在臨床實踐中的潛力與限制。人類專業知識仍然對高品質病人互動至關重要。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI