原始文章

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-3.5和ChatGPT-4在美國手術學會自我評估考試的表現,結果發現ChatGPT-4在回答問題上比GPT-3.5更準確,尤其是對於難題。雖然實際考生得分仍高於兩者,但GPT-4相較於GPT-3.5縮小了差距。 PubMed DOI

研究發現,ChatGPT 在手部外科自我評估考題中表現一般,對文字問題回答率高於圖片問題。儘管提供額外解釋,但信心與正確性不一定成正比。總括而言,ChatGPT 表現不佳,不建議單獨依賴。在使用時應謹慎,因其仍有限制。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI

這項研究評估了生成式人工智慧模型,特別是 ChatGPT 4.0 和 Bing AI,在美國手部外科醫學會自我評估考試的表現。研究分析了999道選擇題,結果顯示 ChatGPT 4.0 平均得分66.5%,而 Bing AI 則為75.3%,超過 ChatGPT 8.8%。兩者均超過最低及格分數50%,但在涉及圖片和視頻的問題上表現較差。整體來看,這些人工智慧系統在醫學教育中展現了作為互動學習工具的潛力。 PubMed DOI

這項研究評估了ChatGPT-4視覺版(GPT-4V)在解讀醫學影像及處理骨科創傷案例的表現。研究分析了十個來自OrthoBullets的熱門案例,並由四位專科醫生對AI的回應進行評分。結果顯示,GPT-4V在影像回應的平均得分為3.46,準確性和可信度較低,分別為3.28和3.15;而在管理問題上得分較高(3.76),治療問題表現最佳(4.04)。結論指出,GPT-4V作為教育工具有潛力,但影像解讀能力仍不及經驗豐富的醫生。 PubMed DOI

ChatGPT是一款先進的人工智慧模型,能根據使用者的輸入生成類似人類的文本。最近一項研究評估了它在FRCS (Tr&Orth)考試中的表現,並比較了3.5版和4.0版的結果。雖然3.5版表現不佳,未達及格,但4.0版則取得73.9%的及格分數,顯示在臨床資訊分析和決策上有顯著進步。研究結果顯示4.0版表現比3.5版高出38.1%,並在影像問題回答上也有明顯改善,顯示人工智慧在醫療和教育領域的潛力。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在眼整形相關問題的表現,分析了文字和圖像問題。結果顯示,ChatGPT-3.5正確回答56.85%的文字問題,而ChatGPT-4.0提升至73.46%,顯示出顯著的準確性提升。雖然ChatGPT-4.0在文字問題上表現更佳,但在圖像問題的準確率卻降至56.94%。這顯示出在醫學教育中,對大型語言模型的可靠性仍需進一步改進。 PubMed DOI

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示,ChatGPT-3.5的正確率為51.6%,而ChatGPT-4提升至63.4%;Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5,顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

這項研究評估了ChatGPT 4o在美國手外科學會(ASSH)自我評估問題上的表現,並與先前版本比較。研究使用2008至2013年的ASSH考試數據,透過OpenAI的API進行統計分析。結果顯示,ChatGPT 4o在增強技術的幫助下,表現與人類考生相當,明顯超越ChatGPT 3.5,且測試的可靠性很高。這些發現顯示,人工智慧,特別是ChatGPT,能有效支持醫學教育和臨床實踐,達到與人類專家相似的評估水平。 PubMed DOI