原始文章

這項研究探討了在足踝外科領域中,醫生能否區分由人工智慧(特別是ChatGPT 3.0)生成的摘要與人類撰寫的摘要。研究中,九位醫生參加了盲測,結果顯示他們的準確率僅為50.5%,幾乎等同於隨機猜測。評審者的經驗和對人工智慧的熟悉度對準確性影響不大,且評審者之間的可靠性隨時間下降。這顯示人工智慧生成的摘要與人類撰寫的相似度高,讓識別變得困難。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT等人工智慧平台對常見腳踝問題的醫療建議品質,結果顯示回應的教育價值有差異,應警惕其資訊品質。使用DISCERN和AIRM工具評估,發現68.2%為頂層,27.3%為中層,4.5%為底層。 PubMed DOI

ChatGPT是一個能夠創造類似人類寫作的語言模型,很難區分真假。研究測試人們是否能分辨AI生成的摘要和人類寫的,以及AI檢測器的準確性。骨科醫師和教授們辨識AI生成的摘要,結果喜憂參半。檢測AI內容對防止科學出版的虛假資訊至關重要,需要更多研究改進檢測方法。 PubMed DOI

研究比較三種人工智慧工具在骨科臨床決策上的表現,發現ChatGPT 4與人類回應最一致。然而在爭議案例中,人工智慧工具表現較不準確,顯示仍有改進空間。在臨床應用上需謹慎整合,未來研究應專注於開發專用臨床人工智慧工具以提升效能。 PubMed DOI

這項研究比較了由一個大型語言模型(LLM)生成的摘要與人類撰寫的摘要在醫學研究領域的情境下。研究發現,根據骨科醫師的評估,LLM生成的摘要在可區分性和質量方面均不如人類撰寫的摘要。這項研究建議在醫學領域使用LLM進行科學寫作時要謹慎。 PubMed DOI

研究比較人類審查員和AI檢測軟體在醫學領域摘要辨識的表現,結果顯示AI較佳但有限制。Grammarly指出原創摘要問題多於AI。建議未來醫學研究需明確AI使用指南,因AI普及需求增加。 PubMed DOI

研究比較了OpenAI ChatGPT Chatbot和FootCareMD®提供的足踝外科資訊。結果顯示,FootCareMD®的資訊易讀性高且品質優於ChatGPT。研究指出,AI查詢可能提供高級資訊,但可靠性較低。在診斷治療足踝狀況時,應考慮資訊品質。 PubMed DOI

評審人員在肩膀和肘部手術領域的測試中,發現區分人工智慧生成和原創研究摘要的挑戰。他們對人工智慧生成的辨識率為62%,但有38%的原創摘要被誤認為人工智慧生成。GPTZero工具生成的摘要被認為具有較高的人工智慧概率。在抄襲檢測方面,人工智慧生成的摘要得分較低。評審人員表示區分人類和人工智慧生成的內容相當困難,不實際的數據有助於識別人工智慧生成的摘要,而寫作風格則導致原創摘要被誤認。 PubMed DOI

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI(如ChatGPT)撰寫的文章。研究生成了十篇文章,五篇由住院醫師撰寫,五篇由ChatGPT生成。十位教職員進行盲評,結果顯示兩組文章的得分差異不大,ChatGPT的平均得分為66.0%,人類為70.0%。教職員在識別文章來源上也面臨困難,顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

這項研究評估了ChatGPT-4在處理足部和踝部病變的診斷能力,提供了八個臨床案例,並由三位專科骨科醫生進行評分。結果顯示,ChatGPT-4的平均得分為22.0分(滿分25分),對Morton神經瘤的案例得分最高(24.7分),而腓骨肌腱撕裂的案例得分最低(16.3分)。雖然它在診斷和治療建議上表現優異,但在提供全面資訊和替代治療選項方面仍有不足。不過,它並未提出虛構的治療方案,顯示出其可靠性。總體來看,ChatGPT-4可成為醫生提供病人教育的有用工具。 PubMed DOI