Comparison of the Usability and Reliability of Answers to Clinical Questions: AI-Generated ChatGPT versus a Human-Authored Resource.
臨床問題答案的可用性和可靠性比較：AI 生成的 ChatGPT 與人類撰寫的資源。 South Med J 2024-08-02

這項研究評估了ChatGPT對臨床問題的回答，與人類撰寫的網站Pearls4Peers.com進行比較，重點在可用性和可靠性。研究發現，ChatGPT的回答質量有顯著差異，約14%的回答被認為不實用，13%不準確。與人類來源相比，ChatGPT在可用性和可靠性方面的表現均不佳，超過30%的情況下表現不如人類。總體來看，這顯示在臨床決策中使用ChatGPT需謹慎。 PubMed DOI

ChatGPT as a Source for Patient Information on Patellofemoral Surgery-A Comparative Study Amongst Laymen, Doctors, and Experts.
ChatGPT 作為髕股關節手術患者資訊的來源 - 一項普通人、醫生與專家之間的比較研究。 Clin Pract 2024-11-25

2022年11月，OpenAI推出了ChatGPT，引發了對其在醫學領域有效性的討論。研究專注於ChatGPT對髕股疼痛的回答能力，並比較一般民眾、非骨科醫生及專家的評價。使用12個問題進行評估，結果顯示專家對ChatGPT的評分普遍較低，尤其在複雜問題上。雖然ChatGPT提供的資訊質量不錯，但隨著問題複雜度增加，其表現下降，顯示出人類專業知識在醫療中的重要性。 PubMed DOI

ChatGPT-4.0 vs. Google: Which Provides More Academic Answers to Patients' Questions on Arthroscopic Meniscus Repair?
ChatGPT-4.0 與 Google：哪一個對患者關於關節鏡半月板修復的問題提供更具學術性的答案？ Cureus 2025-01-27

本研究評估 ChatGPT 在回答關於關節鏡半月板修復的常見問題的有效性，並與 Google 搜尋結果進行比較。結果顯示，關於恢復時間和技術細節的問題最為常見，ChatGPT 在這些問題的回答中顯示出較高的比例。ChatGPT 的回答主要來自學術網站，而 Google 則有混合來源。結論是，ChatGPT 提供的資訊更符合學術標準，若在醫療專業人員指導下使用，可能成為患者教育的有用工具。 PubMed DOI

ChatGPT is a comprehensive education tool for patients with patellar tendinopathy, but it currently lacks accuracy and readability.
ChatGPT 是一個針對髕腱病患者的綜合教育工具，但目前在準確性和可讀性方面存在不足。 Musculoskelet Sci Pract 2025-02-03

生成式 AI 工具如 ChatGPT 在醫療查詢中越來越受歡迎，特別是在解答髕腱病相關問題上。一項研究評估了 ChatGPT-4 的表現，收集了 48 個問題並由專家評估其回應。結果顯示，只有 33% 的回應準確，但 75% 是全面的。治療相關問題的準確率僅 17%。回應的可讀性達到大學水平，且可理解性良好（83%），但可行性較低（60%）。總體而言，ChatGPT-4 提供了豐富資訊，但準確性不足，且對於低學歷者不易理解。 PubMed DOI

Evaluating the Performance of ChatGPT4.0 Versus ChatGPT3.5 on the Hand Surgery Self-Assessment Exam: A Comparative Analysis of Performance on Image-Based Questions.
評估 ChatGPT4.0 與 ChatGPT3.5 在手外科自我評估考試中的表現：基於影像問題的表現比較分析。 Cureus 2025-02-17

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現，發現兩者在正確率上無顯著差異（分別為30.1%和28.7%）。雖然ChatGPT4.0提供的解釋較長，但對答案的信心卻較低，尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為，以促進AI在醫療中的應用。 PubMed DOI

Leveraging ChatGPT to Produce Patient Education Materials for Common Hand Conditions.
利用 ChatGPT 製作常見手部疾病的病患教育材料。 J Hand Surg Glob Online 2025-02-24

這項研究評估了ChatGPT 3.5和4.0生成的病人教育材料（PEMs）在可讀性上的表現，針對常見手部疾病進行分析。研究發現，ChatGPT 4.0在啟發階段後，有28%的內容達到六年級閱讀水平，而3.5則沒有生成合適的內容。整體來看，4.0在所有可讀性指標上均優於3.5，顯示出其在提升病人教育和健康素養方面的潛力，未來隨著進一步改進，這一潛力將更為明顯。 PubMed DOI

ChatGPT-3.5 and -4.0 Do Not Reliably Create Readable Patient Education Materials for Common Orthopaedic Upper- and Lower-Extremity Conditions.
ChatGPT-3.5 和 -4.0 在創建常見骨科上下肢疾病的可讀患者教育材料方面不可靠。 Arthrosc Sports Med Rehabil 2025-03-05

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果，針對常見的上肢和下肢骨科疾病進行分析。結果顯示，ChatGPT-3.5的可讀性僅有2%和4%達標，而ChatGPT-4.0則有54%達標，顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異，但兩者仍被視為不可靠，無法完全取代傳統病人教育方式，應作為醫療提供者的輔助工具。 PubMed DOI

GPT-4 as a Source of Patient Information for Carpal Tunnel Surgery: A Comparative Analysis Against Google Web Search.
GPT-4 作為腕管手術病患資訊的來源：與 Google 網頁搜尋的比較分析。 J Am Acad Orthop Surg 2025-03-26

這項研究比較了GPT-4和Google在腕隧道手術（CTS）常見問題上的回應差異。主要發現包括： 1. **問題類型**：兩者都提供事實性資訊，但Google更注重技術細節。 2. **可讀性**：Google的回應可讀性較高，Flesch閱讀分數更好。 3. **回應長度**：Google的答案通常較短。 4. **數字準確性**：GPT-4的數字回應範圍較廣。總體來說，GPT-4提供更詳細的技術見解，有助於病患教育，而Google則提供更易懂的資訊。這研究強調了醫療情境中AI與搜尋引擎的資訊傳遞差異。 PubMed DOI

Assessing information provided via artificial intelligence regarding distal biceps tendon repair surgery.
人工智慧提供之遠端肱二頭肌肌腱修復手術相關資訊的評估 J Exp Orthop 2025-05-20

這項研究發現，ChatGPT 3.5雖然能提供遠端肱二頭肌肌腱修復手術的相關資訊，品質算不錯，但缺乏來源、用詞太艱深，病患可能看不懂。醫師建議大家用ChatGPT查醫療資訊時要特別小心，內容不一定正確或容易理解。 PubMed DOI

Assessing Accuracy of Chat Generative Pre-Trained Transformer's Responses to Common Patient Questions Regarding Congenital Upper Limb Differences.
Chat Generative Pre-Trained Transformer 回應常見先天性上肢差異患者問題之準確性評估 J Hand Surg Glob Online 2025-06-16

這項研究發現，ChatGPT-4.0在回答先天性上肢差異常見問題時，大約一半答案正確且清楚，但有8%內容不夠好或可能誤導。回答內容深度和完整性不一，且很少建議諮詢專業醫師。總結來說，ChatGPT提供的資訊大致可靠，但不夠全面或個人化，建議病人衛教時要小心使用。 PubMed DOI

原始文章

站上相關主題文章列表