原始文章

一項研究比較了麻醉學研究員與ChatGPT在美國麻醉學委員會標準化口試中的表現。雖然研究員在某些主題上得分較高,但整體得分差異不大。考官能輕易辨識ChatGPT的回答,並指出其回答通常冗長且缺乏重點,雖然內容相關。研究顯示,ChatGPT的答案在評分上相當,但因冗長和不夠具體而被視為較劣。這項研究指出,隨著進一步訓練,像ChatGPT的人工智慧有潛力成為麻醉學訓練和考試準備的有用工具。 PubMed DOI


站上相關主題文章列表

NLP是人工智慧技術,讓人類可以用自然語言和機器溝通。研究發現ChatGPT在醫學考試中表現優異,比人類考生得分高,回答快速準確。有些考官分不出ChatGPT和人類回答的差別,顯示NLP系統在陌生情況下也能有效推理。 PubMed DOI

人工智慧如GPT-3、Bard和GPT-4展現強大語言能力,研究發現GPT-4在美國麻醉學委員會考試表現優異,尤其在筆試中表現突出,並有通過口試的潛力。不同主題展現不同熟練度,顯示未來整合人工智慧在麻醉學專業領域的潛力。 PubMed DOI

這項研究測試了ChatGPT在臨床資訊學考試中的表現,發現它正確回答了74%的問題。這些結果引起了對於使用人工智慧應試的疑慮,因為這可能損害考試的可信度和有效性。該研究建議由於人工智慧和大型語言模型的影響,有必要採取新的方法來評估醫學教育中的專業能力。 PubMed DOI

研究評估了ChatGPT在過去5次醫學專業考試中的表現,分析了成功率和排名。ChatGPT回答各種問題,成功率不同,排名從第1787名到第4428名。在短問題和單選多選擇題上表現較佳,但仍落後於人類專家。研究引起對ChatGPT在醫療服務潛力的好奇。 PubMed DOI

研究發現,ChatGPT在醫學生簡答評估中表現優於低分同學,但不及歷史平均水準。對於困難學生的干預仍有疑慮,需要進一步探討ChatGPT在高認知推理評估中的表現。 PubMed DOI

研究指出,ChatGPT在骨科住院醫師培訓考試中表現優異,尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類,ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而,其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景,有助於準確解答臨床問題。 PubMed DOI

人工智慧語言模型被研究應用在教育、學術和臨床領域,顯示可解答醫學問題,對醫學教育有幫助。研究發現ChatGPT在回答問題上表現準確,但在生成文章時有錯誤。雖然在醫療上有潛力,但仍需監督因應潛在錯誤和能力限制。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在骨科知識和推理能力的表現,測試了472道來自不同來源的考題。結果顯示,ChatGPT的正確回答率為55.9%,且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理,但在81.7%的錯誤回答中未能識別必要資訊。整體來看,ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻,與實習醫生或二年級住院醫師相當,顯示出在準確識別資訊方面的重大限制。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

這項研究評估了ChatGPT在麻醉學和疼痛醫學的問題解決能力,特別是在韓語環境中,並比較了GPT-4、GPT-3.5和CLOVA X的表現。分析了398道問題後發現,GPT-4的準確率(67.8%)顯著高於GPT-3.5(37.2%)和CLOVA X(36.7%),而後兩者之間無顯著差異。此外,GPT-4在英語翻譯問題上的表現(75.4%)也優於韓語問題。研究強調了AI在醫學教育的潛力,但也提醒在非英語環境中應用時需謹慎,並建議進一步改進。 PubMed DOI