原始文章

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果,針對常見的上肢和下肢骨科疾病進行分析。結果顯示,ChatGPT-3.5的可讀性僅有2%和4%達標,而ChatGPT-4.0則有54%達標,顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異,但兩者仍被視為不可靠,無法完全取代傳統病人教育方式,應作為醫療提供者的輔助工具。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

這項研究評估了ChatGPT在肩袖修復手術患者資源中的有效性,並比較了3.5和4.0版本的資訊內容與可讀性。三位外科醫生在2023年8月提出了13個常見問題,分析結果顯示兩個版本的資訊質量高,但可讀性較差,且缺乏引用影響可靠性。雖然4.0版本的可讀性優於3.5,但整體仍需改進。總之,ChatGPT提供的資訊有價值,但在可讀性和引用方面仍有待加強。 PubMed DOI

這項研究指出,網路醫療資訊在骨科領域的使用越來越普遍,但也面臨品質挑戰。研究評估了25個網站,並針對10個網站使用髖部資訊評分系統(HISS)進行分析。最初的平均分數為9.5,顯示品質不佳。經過ChatGPT的建議後,分數提升至21.5,顯示出優秀的品質。結果顯示,ChatGPT能顯著改善線上病人資訊的品質,成為骨科醫生創建教育材料的有力工具,雖然無法取代專業知識,但能提升醫療資訊的可及性與品質。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在回答有關Tommy John手術的病人問題時的資訊品質。研究者提出了25個問題,並用可讀性指標來評估回應。結果顯示,兩個版本的回應教育水平都高於病人能理解的範圍,且ChatGPT 4.0的表現稍好,但語言複雜性可能影響病人的理解。這強調了了解AI平台限制的重要性,因為未來這些平台將更廣泛地服務公眾。 PubMed DOI

這項研究評估了ChatGPT-4對於Kienböck's disease (KD) 的常見問題回應的質量與可讀性。十九個問題被分為一般知識、診斷和治療,並由33位手外科醫生使用全球質量評分標準進行評估。結果顯示平均GQS分數為4.28,表示大部分回應被評為良好或優秀。不過,根據可讀性測試,這些回應的難度超過大學畢業生的水平,顯示需要改進以提高可讀性,讓更多人能輕鬆理解。這項研究屬於四級觀察性研究。 PubMed DOI

生成式 AI 工具如 ChatGPT 在醫療查詢中越來越受歡迎,特別是在解答髕腱病相關問題上。一項研究評估了 ChatGPT-4 的表現,收集了 48 個問題並由專家評估其回應。結果顯示,只有 33% 的回應準確,但 75% 是全面的。治療相關問題的準確率僅 17%。回應的可讀性達到大學水平,且可理解性良好(83%),但可行性較低(60%)。總體而言,ChatGPT-4 提供了豐富資訊,但準確性不足,且對於低學歷者不易理解。 PubMed DOI

這項研究評估了AI工具,特別是ChatGPT 3.5和4.0,在提供低背痛患者教育的效果。結果顯示,ChatGPT 4.0在回應質量上明顯優於3.5,得分分別為1.03和2.07,且可靠性得分也較高。兩者在心理社會因素的問題上表現不佳,顯示出臨床醫生在這類情感敏感問題上的監督是必要的。未來發展應著重提升AI在心理社會方面的能力。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0生成的病人教育材料(PEMs)在可讀性上的表現,針對常見手部疾病進行分析。研究發現,ChatGPT 4.0在啟發階段後,有28%的內容達到六年級閱讀水平,而3.5則沒有生成合適的內容。整體來看,4.0在所有可讀性指標上均優於3.5,顯示出其在提升病人教育和健康素養方面的潛力,未來隨著進一步改進,這一潛力將更為明顯。 PubMed DOI

健康素養對醫生與病人溝通非常重要,特別是手術病人需要理解複雜的程序。美國醫學會建議病人教育材料應以六到八年級的閱讀水平撰寫,但許多線上資源卻較難懂。研究人員分析了三十段有關肩膀和肘部手術的資訊,發現原始文本的可讀性達到十年級。使用ChatGPT-4簡化後,文本可讀性顯著提高,降至八年級水平。這顯示AI能有效簡化醫療資訊,但仍需人類審查以確保準確性。 PubMed DOI

這項研究評估了手部手術相關的線上醫療資訊,並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。 主要發現包括: 1. **可讀性**:Google的回應較易讀,平均在八年級水平,而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**:ChatGPT-4的可靠性與3.5相似,但低共識主題的可讀性較低,準確性差異不大。 3. **覆蓋範圍**:ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同,但在解剖學和病理生理學上相似。 總結來說,雖然ChatGPT能提供可靠的醫療資訊,但可讀性較差,醫療提供者需注意其局限性。 PubMed DOI