原始文章

這項研究評估了多種人工智慧聊天機器人(如ChatGPT、Bard和Gemini)在醫學生病理學考試中的表現,考題範圍涵蓋2018至2022年。測試70道題目後發現,較新的聊天機器人在多選題上表現優於學生,但在高難度問題上,學生的表現則更佳。此外,聊天機器人的得分與學生的不同意見率有關,顯示提示設計影響回應。總體來看,雖然聊天機器人在複雜推理上表現中等,但也有生成不正確資訊的問題,顯示醫學教育中使用自然語言處理的挑戰。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT和Bard在回答病理學問題和影像解讀的表現。結果顯示,在臨床情境下,ChatGPT-4的表現優異,準確率達100%,比Bard更優。然而,在無上下文情況下,ChatGPT-4的表現也不盡理想,準確率為52.3%,Bard為38.4%。總體而言,ChatGPT-4在系統病理學和基礎問題上持續優於Bard。研究強調了臨床背景對於準確解讀的重要性,提醒整合人工智慧時需謹慎。 PubMed DOI

研究發現,ChatGPT 4.0 在回答美國醫師執照考試問題及生成臨床鑑別診斷方面比 3.5 更準確。在74.6%案例中準確生成診斷,70.2%正確將診斷排第一。顯示ChatGPT在回答醫學問題上有進步,並展現臨床診斷能力。 PubMed DOI

越來越多病患用AI聊天機器人查檢驗結果,因為方便又好用。但研究發現,聊天機器人解釋不夠清楚、常錯誤。雖然有同理心,處理複雜問題時容易出錯,有時還會誤判病情。雖有免責聲明,病患仍可能相信錯誤資訊。必須進一步研究改進,確保病患了解並避免給醫療系統帶來負擔。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT和Bard在病理學的表現,並與病理學實習生的回答進行比較。研究使用了150道選擇題,結果顯示ChatGPT的平均得分為82.2%,明顯優於Bard的49.5%和實習生的45.1%。在困難問題上,ChatGPT表現特別突出,而在簡單問題上,ChatGPT和實習生的表現相近。分析顯示,ChatGPT的一致性率高達80%-85%,而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力,但仍需持續發展和人類監督。 PubMed DOI

這項研究評估了幾種AI語言模型的表現,包括ChatGPT-3.5-Turbo-0613、GPT-4-0613和Google Bard,針對波斯語和英語的醫學考試進行測試。結果顯示,GPT-4在所有考試中表現最佳,而Google Bard在波斯語考試中表現稍低,但仍可接受。ChatGPT-3.5則未能通過任何考試。雖然GPT-4在英語考試中表現優異,但與伊朗醫學生的表現差異並不顯著。研究指出,GPT-4在醫學應用上潛力巨大,但仍需進一步探討其限制。 PubMed DOI

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現,並與醫學生進行對照。結果顯示,這些聊天機器人平均正確率為67.2%,低於學生的74.6%。其中,Claude和GPT-4表現最佳,準確率分別為83%和81.7%,超過學生平均分數。研究還發現,神經細胞學和胚胎學的準確率較高,而腦幹和小腦則較低。整體而言,Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力,顯示AI在醫學教育中的潛力。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI