原始文章

腳本一致性測試(SCT)用來評估臨床推理能力,隨著臨床經驗增加,表現會提升。為了減少專家參考小組成員的疲勞問題,引入了ChatGPT來提高SCT的效率。進行了一項準實驗研究,對象為醫學本科生和眼科實習教職員,分為兩組:一組是傳統專家,另一組則是使用ChatGPT和o1生成的AI專家。結果顯示,人類專家得分較高,但AI模型也能有效協助訓練學生,縮小學生與專家之間的表現差距。 PubMed DOI


站上相關主題文章列表

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

這項研究探討了GPT-4在提升醫療專業人員非技術技能(NTS)訓練中的作用。泌尿科實習生透過模擬情境識別NTS事件,並獲得AI和人類顧問的反饋。結果顯示,GPT-4在知識強化、提供證據反饋、展現同理心及調整解釋方面表現優異,但在人類的語言術語和事實反饋上則更具優勢。研究建議結合AI與人類專業知識,可能會改善醫療NTS訓練,發揮兩者的互補優勢。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究探討了使用ChatGPT-4o作為虛擬病人,協助醫學實習生的臨床訓練。研究在艾登阿德南門德雷斯大學進行,21名六年級醫學生參與,透過問卷、訪談和觀察收集數據。結果顯示,實習生的自我評估與實際表現正相關,但在問題解決和臨床推理上存在明顯差距,且時間壓力加劇不安感。儘管面臨技術問題,實習生對AI輔助訓練表示滿意,並願意參加類似訓練。研究建議ChatGPT-4o可成為提升臨床技能的有效工具。 PubMed DOI

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力,並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示,ChatGPT在回聲焦點的評估上與專家一致,但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT,顯示傳統醫學訓練的重要性。結論指出,ChatGPT可作為輔助診斷工具,但無法取代人類專業知識,並建議改善AI算法以增強其臨床實用性。 PubMed DOI

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力,並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言,準確率為57.7%。錯誤分類率在不同子專科中差異顯著,眼整形的錯誤率最高。評估指標顯示,ChatGPT生成的引言與人類撰寫的並無顯著差異,近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步,未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

這項研究發現,ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯,平均得分64.4%,但在單一最佳答案題型只拿到28.4%,明顯輸給人類考生。它在資訊查找上較強,但知識整合能力較弱。整體來說,ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

這項研究比較 ChatGPT-4o 和 Claude 3.5 Sonnet 產生婦產科臨床推理測驗題目的表現。兩者都能產出高品質題目(超過九成符合標準),但在設計適合醫學生難度的題目上還有待加強。整體來說,大型語言模型能有效產生測驗題,但題目難度調整仍需改進。 PubMed DOI

這項研究發現,AI(如ChatGPT-4o、Gemini Flash 1.5)在OSCE臨床技能評分上,給分普遍比人工評分高且更一致,尤其在視覺技能(像打針、打結)表現較佳。但遇到需要聽力或口語判斷的項目時,AI的評分準確度就比較差。整體來說,AI有潛力輔助OSCE評分,但針對溝通或聲音技能還需加強。 PubMed DOI