原始文章

這項研究評估了一個針對手外科知識調整的ChatGPT客製化多模態大型語言模型。結果顯示,這個模型在回答文本選擇題時準確率達89.9%,優於標準的GPT-4(76.5%)。人類考生的表現也相似,正確率為87.3%。在圖像問題方面,客製化模型的準確率為75.3%,但無圖像時降至69.9%。人類考生在圖像問題上表現稍佳(87.2%)。總體來看,這顯示客製化模型在手外科文本問題上有顯著進步,但圖像解釋仍需加強,建議可開發專門的GPT模型以提升教育與臨床應用。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現,結果顯示GPT-4準確率高達76.4%,明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定,但仍需搭配人類專業知識和判斷力。 PubMed DOI

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

研究探討使用GPT-3.5 Turbo和GPT-4等AI模型進行骨科培訓考試。結果顯示,GPT-4在準確性和問題類型上優於GPT-3.5 Turbo,顯示AI在骨科領域有潛力。然而,目前AI無法取代骨科培訓,顯示醫學領域需要專門的AI培訓。 PubMed DOI

這項研究評估了ChatGPT-4在手外科認證考試上的表現,結果顯示其在非媒體問題上表現較好,但整體得分低於平均醫師。儘管在某些領域表現出色,但在複雜臨床判斷方面仍有改進空間。人工智能可支持醫學教育和決策,但在細緻領域仍需專業醫師。 PubMed DOI

研究比較LLMs和外科醫師在專業考試上的表現,結果顯示人類優於LLMs,但ChatGPT展現出分析骨科資訊的能力。儘管人類整體表現更好,LLMs有潛力在深度學習進步下提升,可能與外科醫師表現匹敵。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在美國手術學會自我評估考試的表現,結果發現ChatGPT-4在回答問題上比GPT-3.5更準確,尤其是對於難題。雖然實際考生得分仍高於兩者,但GPT-4相較於GPT-3.5縮小了差距。 PubMed DOI

研究發現,ChatGPT 在手部外科自我評估考題中表現一般,對文字問題回答率高於圖片問題。儘管提供額外解釋,但信心與正確性不一定成正比。總括而言,ChatGPT 表現不佳,不建議單獨依賴。在使用時應謹慎,因其仍有限制。 PubMed DOI

研究評估在整形外科手部診所使用OpenAI的ChatGPT作為臨床助手,發現其在診斷病例上有78%的準確度,但處理複雜病理和識別故意錯誤有困難。在指導患者管理和提供治療建議方面表現也受到評價。儘管在診斷上成功率高,但整體建議實用性有待改進。 PubMed DOI

這項研究探討大型語言模型(LLMs)在外科教育中的應用,特別是準備外科專科考試。研究人員開發了EAST-GPT和ACS-GPT兩個自訂模型,並與未經訓練的GPT-4進行比較。結果顯示,EAST-GPT正確回答76%的問題,ACS-GPT則68%,均優於GPT-4的45%。EAST-GPT在推理質量上表現優異,而ACS-GPT在全面性和證據基礎上稍遜。這項研究顯示LLM在外科教育中的潛力,值得進一步探索。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI