原始文章

這項研究探討了ChatGPT在回答肌肉骨骼解剖學問題的準確性和一致性。研究中向ChatGPT 3.5提出六個問題,並在四個不同時間點詢問,三位專家用5點量表評估回應。結果顯示,回應質量差異大,50%的答案被評為良好,但低質量的答案常有重大錯誤或矛盾。整體而言,ChatGPT的回應不穩定,限制了其作為學習資源的可靠性,建議查閱專業文獻以驗證信息。 PubMed DOI


站上相關主題文章列表

研究評估ChatGPT在鼻科病理學資訊的品質和可靠性,提出65問題探討病因、風險、治療、預後。使用Discern問卷和Fleiss's Kappa分析,整體品質得分為3.59,可靠性較低為3.18,一致性為0.69。研究認為ChatGPT回答準確可靠,提供易懂描述,建議在專業監督下可成為有用工具。 PubMed DOI

研究使用ChatGPT4探討自動生成放射學研究論文的肌肉骨骼解剖圖像,專注於六個大關節。評估結果顯示模型在準確性、標註、美觀度、可用性和成本效益方面有限制,未來改進應著重提升肌肉骨骼示意圖的逼真度。 PubMed DOI

研究比較了ChatGPT 3.5和ChatGPT 4回答醫學考試問題的表現,結果發現ChatGPT 4在準確度(85.7% vs. 57.7%)和一致性(77.8% vs. 44.9%)方面有明顯進步。這顯示ChatGPT 4在醫學教育和臨床決策上更可靠。但人類醫療服務仍然不可或缺,使用AI時應持續評估。 PubMed DOI

研究發現,ChatGPT提供的醫學資訊品質不佳,甚至可能有危險。資訊品質高與醫師評分正相關。醫學人工智慧有潛力,但需改進準確性和可靠性。持續研究發展對提升醫療人工智慧應用、改善患者教育和知情同意流程至關重要。 PubMed DOI

研究發現,在骨科創傷手術中使用ChatGPT表現良好,對患者、非骨科醫生和專家骨科外科醫生的回答準確率分別為52.9%、64.7%和70.5%。ChatGPT的回答完整性得分也很高,分別為52.9%、73.5%和82.4%。整體而言,ChatGPT在骨科創傷手術中為不同對象提供有價值和準確回答的潛力表現出色。 PubMed DOI

研究發現,ChatGPT 在手部外科自我評估考題中表現一般,對文字問題回答率高於圖片問題。儘管提供額外解釋,但信心與正確性不一定成正比。總括而言,ChatGPT 表現不佳,不建議單獨依賴。在使用時應謹慎,因其仍有限制。 PubMed DOI

研究發現ChatGPT對於骨科疾病資訊回答大多準確,但治療選項和風險因素較少。建議在尋求骨科問題資訊時,專業機構如AAOS仍是較佳選擇。ChatGPT或許可提供基本資訊,但專業詳細資訊還是要向專業機構查證。 PubMed DOI

研究評估ChatGPT回答髖關節鏡手術問題的表現,兩位外科醫師評分結果顯示50%為A級、30%為B級,10%分別為C和D級,評分者一致性為30%。ChatGPT回答適合大學畢業生閱讀,提供滿意答案,但偶爾不準確,建議謹慎使用。在髖關節鏡手術病人教育上有潛力,但需監督。 PubMed DOI

這項研究評估了ChatGPT在回答骨科多選題的準確性及其作為醫學生學習輔助工具的效果。結果顯示,ChatGPT-4.0的準確率達70.60%。在129名醫學生中,經過兩週的介入,使用ChatGPT的組別在骨科測試中表現顯著優於對照組,特別是在A1、A2和A3/4的題目上。此外,ChatGPT組在學期末的外科和婦產科考試中也表現更佳。研究結果顯示,將ChatGPT融入醫學教育能提升學習成效,並已在中國臨床試驗註冊中心註冊。 PubMed DOI

這項研究評估了一個名為Anatbuddy的AI聊天機器人,專注於提供準確的解剖學資訊,並與ChatGPT 3.5進行比較。Anatbuddy採用檢索增強生成的方法,能根據特定知識庫給出有上下文的回應。三位解剖學專家評估了18個胸部解剖問題的回答,結果顯示Anatbuddy的事實準確性得分明顯高於ChatGPT(4.78對4.11)。雖然其他評估標準差異不大,但研究建議應開發自訂AI聊天機器人以提升解剖學教育的準確性,並呼籲進一步探討學生對這類工具的接受度及其學習影響。 PubMed DOI