ChatGPT's diagnostic performance based on textual vs. visual information compared to radiologists' diagnostic performance in musculoskeletal radiology.
ChatGPT在肌肉骨骼放射學中基於文本與視覺資訊的診斷表現，與放射科醫師的診斷表現相比較。 Eur Radiol 2024-07-12

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示，基於GPT-4的ChatGPT準確率為43%，優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師，但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現，強調提供詳細影像描述以提高準確性。 PubMed DOI

Testing the Ability and Limitations of ChatGPT to Generate Differential Diagnoses from Transcribed Radiologic Findings.
測試 ChatGPT 生成放射學發現的鑑別診斷能力與限制。 Radiology 2024-10-15

這項研究評估了ChatGPT（GPT-3.5和GPT-4）在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例，結果顯示GPT-4的準確性較高，正確診斷比例為66.1%，而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳，但兩者在重複性上仍有問題。總體來看，ChatGPT在醫學上可作為有用工具，但使用時需謹慎以避免不準確性。 PubMed DOI

The performance of ChatGPT-4.0oin medical imaging evaluation: a preliminary investigation.
ChatGPT-4.0 在醫學影像評估中的表現：初步研究。 J Educ Eval Health Prof 2024-10-30

這項研究評估了ChatGPT-4.0o在放射影像定位品質的有效性，分析了30張不同關節的放射線影像。模型的任務是找出定位錯誤並提出改進建議。放射技術師根據標準對模型的回應進行1到5的評分。結果顯示，模型僅在20%的案例中正確識別所有錯誤，且最常見得分為3，表示至少識別一個錯誤，30%的影像中提供了正確建議。平均得分為2.9，顯示準確性較低，強調了教育背景和臨床經驗在放射學中的重要性。 PubMed DOI

ChatGPT performance in assessing musculoskeletal MRI scan appropriateness based on ACR appropriateness criteria.
ChatGPT 在根據 ACR 適當性標準評估肌肉骨骼 MRI 掃描適當性方面的表現。 Sci Rep 2025-02-28

這項研究探討了一個基於GPT-4的大型語言模型（LLM）在評估肌肉骨骼MRI掃描請求的有效性，特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準，並在70個虛構案例上測試。結果顯示，優化後的LLM準確率達92.86%，明顯優於基準模型和標準GPT-4，且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Evaluating retrieval augmented generation and ChatGPT's accuracy on orthopaedic examination assessment questions.
檢視檢索增強生成（Retrieval Augmented Generation）與 ChatGPT 在骨科檢查評量題目上的準確性 Ann Jt 2025-05-19

這項研究發現，結合RAG技術的ChatGPT-4在骨科考題上的表現，正確率約74%，跟骨科醫師差不多，也比沒用RAG的ChatGPT-4和3.5好。RAG還能讓AI引用資料來源，提升可信度，對骨科教學和考試準備很有幫助。 PubMed DOI

DeepSeek vs ChatGPT: a comparison study of their performance in answering prostate cancer radiotherapy questions in multiple languages.
DeepSeek 與 ChatGPT：多語言前列腺癌放射治療問答表現之比較研究 Am J Clin Exp Urol 2025-05-22

這項研究發現，DeepSeek 在用中文回答前列腺癌放射治療問題時，表現明顯優於 ChatGPT，尤其在基礎知識和治療照護方面更突出；但用英文時，兩者差異不大。這顯示選擇語言優化的 AI 模型很重要，但專家審查仍不可或缺。 PubMed DOI

Evaluating DeepResearch and DeepThink in anterior cruciate ligament surgery patient education: ChatGPT-4o excels in comprehensiveness, DeepSeek R1 leads in clarity and readability of orthopaedic information.
在前十字韌帶手術病患衛教中評估 DeepResearch 與 DeepThink：ChatGPT-4o 於全面性表現優異，DeepSeek R1 在骨科資訊的清晰度與可讀性方面領先 Knee Surg Sports Traumatol Arthrosc 2025-06-01

這項研究比較 ChatGPT-4o 和 DeepSeek R1 回答 ACL 手術常見問題的表現。結果顯示，兩者答案都很正確且一致。ChatGPT 的內容較完整，DeepSeek 則更清楚、好讀，對一般人來說較容易理解。整體來說，兩款 AI 都能提供高品質資訊，若能結合兩者優點，將更有助於病人衛教。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

原始文章

站上相關主題文章列表