原始文章

這項研究評估了ChatGPT在回答有關觸發指的病人問題的有效性,目的是改善病人教育並探討人工智慧的角色。研究人員整理了十個常見問題,並根據《美國醫學會雜誌》(JAMA)和DISCERN工具的標準評估ChatGPT的回答。結果顯示,ChatGPT的回答質量中等,60%被認為滿意,但40%有缺陷,主要是缺乏科學參考資料。此外,回答的可讀性達到大學水平,對健康素養較低的病人來說理解上有挑戰。結論指出,雖然ChatGPT能提供一般資訊,但在作為病人主要教育資源前,需專家監督。這是首個專門檢視ChatGPT在觸發指情境中的研究。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT在回答手部骨科問題時的表現,結果顯示在準確性和完整性方面表現良好。儘管ChatGPT能提供正確資訊,但患者不宜完全依賴網路AI,仍需諮詢專業醫師。 PubMed DOI

這項研究評估了ChatGPT在手腕關節炎相關程序中提供資訊的質量與一致性。研究人員向ChatGPT-3.5提出32個標準化問題,並進行三次詢問。三位評審對回應進行醫學準確性評估,結果顯示可靠性高(ICC為0.97),質量良好(DISCERN評分60),但可讀性需大學程度。75%的回應被認為適當,尤其是近端行腕骨切除術和全腕關節融合術的可靠性較高。雖然ChatGPT能提供有用資訊,但使用時需謹慎,並了解其局限性。 PubMed DOI

這項研究評估了ChatGPT-4在回答有關尺側韌帶(UCL)損傷的問題時的有效性,並與Google進行比較。研究發現,ChatGPT-4的學術來源比例高達90%,而Google僅50%。兩者在常見問題上有40%的重疊,但在數字回答中,只有20%的答案完全相同。ChatGPT-4的答案準確性顯著高於Google,顯示其在提供臨床相關資訊方面的潛力。不過,在完全應用於臨床前,仍需進一步驗證。 PubMed DOI

這項研究評估了ChatGPT在肩袖修復手術患者資源中的有效性,並比較了3.5和4.0版本的資訊內容與可讀性。三位外科醫生在2023年8月提出了13個常見問題,分析結果顯示兩個版本的資訊質量高,但可讀性較差,且缺乏引用影響可靠性。雖然4.0版本的可讀性優於3.5,但整體仍需改進。總之,ChatGPT提供的資訊有價值,但在可讀性和引用方面仍有待加強。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在回答有關Tommy John手術的病人問題時的資訊品質。研究者提出了25個問題,並用可讀性指標來評估回應。結果顯示,兩個版本的回應教育水平都高於病人能理解的範圍,且ChatGPT 4.0的表現稍好,但語言複雜性可能影響病人的理解。這強調了了解AI平台限制的重要性,因為未來這些平台將更廣泛地服務公眾。 PubMed DOI

這項研究評估了兩個AI平台(Gemini和ChatGPT)對手部和手腕手術常見問題的回答質量。共提出12個問題,分析48個回答,使用三種評分工具進行評估。結果顯示,回答的平均分數為55.7(良好)、57.2%(足夠)和4.4。手腕相關問題的回答質量顯著高於手部問題,且Gemini在評分上優於ChatGPT。雖然AI的回答通常被評為良好,但質量因平台和問題類型而異,了解這些差異對病人尋求資訊至關重要。 PubMed DOI

這項研究評估了ChatGPT(3.5和4版本)在提供肩膀和肘部手術資訊的準確性,分析了114個問題。結果顯示,ChatGPT 3.5的正確率為52.3%,而ChatGPT 4則達到73.3%。雖然3.5在不穩定性類別表現較佳,但4在大多數其他類別中表現更優。兩者的表現都超過50%的熟練度,但仍無法取代臨床決策。研究建議進一步改善ChatGPT的訓練,以提升其作為醫療資訊資源的效用。 PubMed DOI

這項研究評估了ChatGPT在凍結肩患者資訊提供上的有效性。五位醫師針對十四個肌肉骨骼疾病的關鍵問題,與120位患者進行諮詢,並使用5點李克特量表評估ChatGPT 4.0的回應。結果顯示,85.7%的回應獲得5分,92.9%的回應在安全性上也得分高。整體來看,ChatGPT提供的資訊有效、安全且實用,但使用者仍需謹慎,並不應取代專業醫療建議,定期更新資訊也很重要。 PubMed DOI

這項研究探討了ChatGPT 4.0作為手部疾病初步診斷工具的有效性,涵蓋了觸發指、杜普伊特氏攣縮、腕管症候群等疾病。結果顯示,GPT-4.0對大多數疾病的診斷準確率超過95%,但拇指掌腕關節骨關節炎的準確率僅60%。在97%的案例中,GPT-4.0建議患者尋求醫療協助。研究也分析了其使用的術語,發現某些疾病之間有重疊。總體來看,GPT-4.0作為診斷輔助工具有潛力,但仍需進一步研究以提升準確性。 PubMed DOI

這項研究評估了手部手術相關的線上醫療資訊,並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。 主要發現包括: 1. **可讀性**:Google的回應較易讀,平均在八年級水平,而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**:ChatGPT-4的可靠性與3.5相似,但低共識主題的可讀性較低,準確性差異不大。 3. **覆蓋範圍**:ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同,但在解剖學和病理生理學上相似。 總結來說,雖然ChatGPT能提供可靠的醫療資訊,但可讀性較差,醫療提供者需注意其局限性。 PubMed DOI