Evaluating the Quality and Usability of Artificial Intelligence-Generated Responses to Common Patient Questions in Foot and Ankle Surgery.
評估人工智慧生成的對常見足踝外科病患問題的回答的品質和可用性。 Foot Ankle Orthop 2023-12-01

研究評估了ChatGPT等人工智慧平台對常見腳踝問題的醫療建議品質，結果顯示回應的教育價值有差異，應警惕其資訊品質。使用DISCERN和AIRM工具評估，發現68.2%為頂層，27.3%為中層，4.5%為底層。 PubMed DOI

A Study on Distinguishing ChatGPT-Generated and Human-Written Orthopaedic Abstracts by Reviewers: Decoding the Discrepancies.
評審人員區分 ChatGPT 生成與人類撰寫的骨科摘要之研究：解讀差異。 Cureus 2023-12-23

ChatGPT是一個能夠創造類似人類寫作的語言模型，很難區分真假。研究測試人們是否能分辨AI生成的摘要和人類寫的，以及AI檢測器的準確性。骨科醫師和教授們辨識AI生成的摘要，結果喜憂參半。檢測AI內容對防止科學出版的虛假資訊至關重要，需要更多研究改進檢測方法。 PubMed DOI

The ability of artificial intelligence tools to formulate orthopaedic clinical decisions in comparison to human clinicians: An analysis of ChatGPT 3.5, ChatGPT 4, and Bard.
人工智慧工具在骨科臨床決策中與人類臨床醫師相比的能力：對ChatGPT 3.5、ChatGPT 4和Bard的分析。 J Orthop 2024-01-25

研究比較三種人工智慧工具在骨科臨床決策上的表現，發現ChatGPT 4與人類回應最一致。然而在爭議案例中，人工智慧工具表現較不準確，顯示仍有改進空間。在臨床應用上需謹慎整合，未來研究應專注於開發專用臨床人工智慧工具以提升效能。 PubMed DOI

Human versus artificial intelligence-generated arthroplasty literature: A single-blinded analysis of perceived communication, quality, and authorship source.
人工智慧生成的關節置換文獻與人類生成的文獻比較：對溝通、品質和作者來源知覺的單盲分析。 Int J Med Robot 2024-02-14

這項研究比較了由一個大型語言模型（LLM）生成的摘要與人類撰寫的摘要在醫學研究領域的情境下。研究發現，根據骨科醫師的評估，LLM生成的摘要在可區分性和質量方面均不如人類撰寫的摘要。這項研究建議在醫學領域使用LLM進行科學寫作時要謹慎。 PubMed DOI

Human versus machine: identifying ChatGPT-generated abstracts in Gynecology and Urogynecology.
人類對機器：辨識 ChatGPT 生成的婦產科和泌尿婦科摘要。 Am J Obstet Gynecol 2024-05-06

研究比較人類審查員和AI檢測軟體在醫學領域摘要辨識的表現，結果顯示AI較佳但有限制。Grammarly指出原創摘要問題多於AI。建議未來醫學研究需明確AI使用指南，因AI普及需求增加。 PubMed DOI

Evaluation of Online AI-Generated Foot and Ankle Surgery Information.
評估線上 AI 生成的足踝外科資訊。 J Foot Ankle Surg 2024-07-05

研究比較了OpenAI ChatGPT Chatbot和FootCareMD®提供的足踝外科資訊。結果顯示，FootCareMD®的資訊易讀性高且品質優於ChatGPT。研究指出，AI查詢可能提供高級資訊，但可靠性較低。在診斷治療足踝狀況時，應考慮資訊品質。 PubMed DOI

Identification of ChatGPT-Generated Abstracts Within Shoulder and Elbow Surgery Poses a Challenge for Reviewers.
ChatGPT-生成的摘要在肩膀和肘部手術中的識別對於審稿人員構成挑戰。 Arthroscopy 2024-07-11

評審人員在肩膀和肘部手術領域的測試中，發現區分人工智慧生成和原創研究摘要的挑戰。他們對人工智慧生成的辨識率為62%，但有38%的原創摘要被誤認為人工智慧生成。GPTZero工具生成的摘要被認為具有較高的人工智慧概率。在抄襲檢測方面，人工智慧生成的摘要得分較低。評審人員表示區分人類和人工智慧生成的內容相當困難，不實際的數據有助於識別人工智慧生成的摘要，而寫作風格則導致原創摘要被誤認。 PubMed DOI

Digital Ink and Surgical Dreams: Perceptions of Artificial Intelligence-Generated Essays in Residency Applications.
數位墨水與手術夢想：對人工智慧生成的住院醫師申請論文的看法。 J Surg Res 2024-07-23

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI（如ChatGPT）撰寫的文章。研究生成了十篇文章，五篇由住院醫師撰寫，五篇由ChatGPT生成。十位教職員進行盲評，結果顯示兩組文章的得分差異不大，ChatGPT的平均得分為66.0%，人類為70.0%。教職員在識別文章來源上也面臨困難，顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

Comparison of Medical Research Abstracts Written by Surgical Trainees and Senior Surgeons or Generated by Large Language Models.
外科實習生與資深外科醫生撰寫的醫學研究摘要及大型語言模型生成的摘要比較。 JAMA Netw Open 2024-08-02

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月，訓練聊天機器人根據文獻創建10個摘要，並與現有摘要進行比較。五位外科醫生評審發現，AI生成的摘要與人類撰寫的質量相當，評分中位數相似。雖然版本1的評分接近評審者的評價，但版本2則偏向給予較高分數。整體而言，研究顯示AI能有效生成難以區分的醫學摘要，顯示其在醫學研究中的潛力。 PubMed DOI

Can ChatGPT-4 Diagnose and Treat Like an Orthopaedic Surgeon? Testing Clinical Decision Making and Diagnostic Ability in Soft-Tissue Pathologies of the Foot and Ankle.
ChatGPT-4 能像骨科醫生一樣進行診斷和治療嗎？測試其在足部和踝部軟組織病理中的臨床決策能力和診斷能力。 J Am Acad Orthop Surg 2024-10-23

這項研究評估了ChatGPT-4在處理足部和踝部病變的診斷能力，提供了八個臨床案例，並由三位專科骨科醫生進行評分。結果顯示，ChatGPT-4的平均得分為22.0分（滿分25分），對Morton神經瘤的案例得分最高（24.7分），而腓骨肌腱撕裂的案例得分最低（16.3分）。雖然它在診斷和治療建議上表現優異，但在提供全面資訊和替代治療選項方面仍有不足。不過，它並未提出虛構的治療方案，顯示出其可靠性。總體來看，ChatGPT-4可成為醫生提供病人教育的有用工具。 PubMed DOI

原始文章

站上相關主題文章列表