原始文章

這項研究評估了ChatGPT-4對於Kienböck's disease (KD) 的常見問題回應的質量與可讀性。十九個問題被分為一般知識、診斷和治療,並由33位手外科醫生使用全球質量評分標準進行評估。結果顯示平均GQS分數為4.28,表示大部分回應被評為良好或優秀。不過,根據可讀性測試,這些回應的難度超過大學畢業生的水平,顯示需要改進以提高可讀性,讓更多人能輕鬆理解。這項研究屬於四級觀察性研究。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT-4提供的玻璃體視網膜手術資訊準確但難懂,建議不完全依賴AI。需加強專業領域資訊的可信度與易讀性,並了解AI在健康建議上的限制。 PubMed DOI

研究評估使用ChatGPT等人工智慧工具在ACL損傷患者教育上的效果,發現資訊質量不錯,但易讀性高於預期。儘管提供可靠資訊,易讀性可能影響實用性。強調人工智慧生成的教育資料需正確引用來源。 PubMed DOI

這項研究評估了ChatGPT-3.5對於關於旋轉袖修復手術常見問題的回答。研究發現這些回答缺乏可靠的引用來源,閱讀難度高,並且在質量上被認為是尚可的。該研究暗示ChatGPT-3.5可能無法有效地提供與外科醫師建議相符的手術前患者資訊。 PubMed DOI

研究發現,ChatGPT提供的醫學資訊品質不佳,甚至可能有危險。資訊品質高與醫師評分正相關。醫學人工智慧有潛力,但需改進準確性和可靠性。持續研究發展對提升醫療人工智慧應用、改善患者教育和知情同意流程至關重要。 PubMed DOI

研究測試了ChatGPT-4在處理膝疼痛投訴、提供不同診斷和治療方案的表現。ChatGPT-4的診斷通常準確,與專業醫師看法一致。當提供更多資訊時,ChatGPT-4的準確性提高,有時甚至達到100%。它提供了合理的診斷和治療建議,但也可能有錯誤,需要進一步臨床評估。 PubMed DOI

這項研究比較了Google和兩個版本的ChatGPT(3.5和4.0)在拇外翻手術問題上的回答準確性和可讀性。研究人員分析了Google「人們還會問」中關於「bunionectomy」的前十個問題,發現ChatGPT的回答明顯較長,3.5版平均315字,4.0版294字,均超過Google的回答。此外,根據Flesch-Kincaid可讀性測試,ChatGPT的回答更複雜,整體來看,兩個版本的內容都比Google長且可讀性較差,超出一般美國人口的閱讀水平。 PubMed DOI

這項研究評估了ChatGPT-4在回答有關尺側韌帶(UCL)損傷的問題時的有效性,並與Google進行比較。研究發現,ChatGPT-4的學術來源比例高達90%,而Google僅50%。兩者在常見問題上有40%的重疊,但在數字回答中,只有20%的答案完全相同。ChatGPT-4的答案準確性顯著高於Google,顯示其在提供臨床相關資訊方面的潛力。不過,在完全應用於臨床前,仍需進一步驗證。 PubMed DOI

這項研究評估了ChatGPT-4在回答有關前交叉韌帶(ACL)手術的十大常見問題的準確性。研究人員從運動醫學專科機構收集問題,並由兩位專科外科醫生使用李克特量表進行評分。結果顯示,有五個回答被評為「完全準確」,另外三個至少獲得一位醫生的肯定。評分者之間的協議程度為中等,權重卡帕值為0.57,且80%的回答在時間上保持一致。研究指出,ChatGPT可作為提供ACL手術一般資訊的工具,但不應取代病人與外科醫生的直接溝通。 PubMed DOI

這項研究評估了ChatGPT在肩袖修復手術患者資源中的有效性,並比較了3.5和4.0版本的資訊內容與可讀性。三位外科醫生在2023年8月提出了13個常見問題,分析結果顯示兩個版本的資訊質量高,但可讀性較差,且缺乏引用影響可靠性。雖然4.0版本的可讀性優於3.5,但整體仍需改進。總之,ChatGPT提供的資訊有價值,但在可讀性和引用方面仍有待加強。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在回答有關Tommy John手術的病人問題時的資訊品質。研究者提出了25個問題,並用可讀性指標來評估回應。結果顯示,兩個版本的回應教育水平都高於病人能理解的範圍,且ChatGPT 4.0的表現稍好,但語言複雜性可能影響病人的理解。這強調了了解AI平台限制的重要性,因為未來這些平台將更廣泛地服務公眾。 PubMed DOI