原始文章

這項研究評估了幾種AI語言模型的表現,包括ChatGPT-3.5-Turbo-0613、GPT-4-0613和Google Bard,針對波斯語和英語的醫學考試進行測試。結果顯示,GPT-4在所有考試中表現最佳,而Google Bard在波斯語考試中表現稍低,但仍可接受。ChatGPT-3.5則未能通過任何考試。雖然GPT-4在英語考試中表現優異,但與伊朗醫學生的表現差異並不顯著。研究指出,GPT-4在醫學應用上潛力巨大,但仍需進一步探討其限制。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、GPT-4和Google Bard在神經外科口試考題上的表現,結果發現GPT-4準確率最高達82.6%,明顯優於其他兩者。GPT-4在特定類別及影像相關問題上表現較佳,且較少出現"幻覺"情況。研究強調了LLM表現中問題特性和解決方式的重要性。 PubMed DOI

研究發現,ChatGPT 在伊朗醫學考試中答對率為68.5%,高於45%及格分數。在決策方面表現優異,勝過隨機測試組,但仍遠遜於人類醫師。專家驗證對確保患者安全及避免醫療錯誤至關重要。ChatGPT有潛力,但需持續改進。 PubMed DOI

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示,GPT-4在十個考試類別中有五個類別的通過率達到80%以上,比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性,以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

研究比較GPT-3.5和GPT-4在德國醫學執照考試的結果,發現GPT-4平均得分85%,比GPT-3.5表現更好。GPT-4在內外科表現優秀,但在學術研究方面稍微弱一些。研究指出,像ChatGPT這樣的人工智慧模型可以提升醫學教育和病人護理,但也提醒醫學訓練者需要具備批判性評估能力。未來需要進一步研究ChatGPT對大眾安全和準確性的影響。 PubMed DOI

大型語言模型(LLMs)如GPT-3.5、GPT-4和Bard在教育領域有重要應用。研究指出,GPT-4在NEET-2023考試問題回答上表現優異,準確率高於GPT-3.5和Bard。透過交叉檢查回答可提升準確性,GPT-4是可靠選擇。這研究凸顯LLMs在教育中的潛力,為其在高風險考試中的應用設下新標竿。 PubMed DOI

研究比較了不同大型語言模型在回答韓文急診醫學委員會考試問題時的表現,發現ChatGPT-4和Bing Chat的正確率較高,尤其在難度高的問題上表現優秀。ChatGPT-4和Bing Chat的解釋也比較清楚易懂。總結來說,ChatGPT-4和Bing Chat在回答問題方面表現較好。 PubMed DOI

比較了chatGPT、GPT4和Google Bard在歐洲神經放射學學會(ESNR)不同領域考試的表現,發現GPT4準確率最高(70%),chatGPT 3.5次之(54%),Google Bard最低(36%)。三者表現差異明顯,GPT4整體最優,尤其在頭頸部領域表現顯著。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI