Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Large language models can help with biostatistics and coding needed in radiology research.
大型語言模型可以協助放射學研究中所需的生物統計學和編碼。 Acad Radiol 2024-10-15

這項研究探討了大型語言模型（LLMs），如ChatGPT-4o、ChatGPT-3.5和Google Gemini，在輔助放射學研究中的效能。進行了兩個實驗： 1. **生物統計學與數據視覺化**：測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳，正確回答7個問題，且生成的程式碼錯誤較少。 2. **深度學習**：評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼，並透過互動修正錯誤。總體而言，LLMs對放射學研究有幫助，但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

Comparative Accuracy of ChatGPT 4.0 and Google Gemini in Answering Pediatric Radiology Text-Based Questions.
ChatGPT 4.0 與 Google Gemini 在回答兒科放射學文本問題的比較準確性。 Cureus 2024-11-05

這項研究評估了兩個AI語言模型，ChatGPT 4.0和Google Gemini，在回答79個兒科放射學問題上的表現。結果顯示，ChatGPT 4.0的準確率為83.5%，而Google Gemini則為68.4%，差異顯著（p=0.0255，RR=1.221）。雖然ChatGPT 4.0整體上表現較佳，但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入，以更全面評估AI模型在放射學的有效性。 PubMed DOI

ChatGPT vs Gemini: Comparative Accuracy and Efficiency in CAD-RADS Score Assignment from Radiology Reports.
ChatGPT 與 Gemini：在放射學報告中 CAD-RADS 分數分配的準確性與效率比較。 J Imaging Inform Med 2024-11-11

這項研究評估了四種大型語言模型（LLMs）在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示，ChatGPT-4o的準確性最高，達87%，而ChatGPT-3.5雖然速度最快，但準確性最低，僅50.5%。Google Gemini Advanced的準確性為82.6%，而Google Gemini的失敗率較高，達12%。總體來看，雖然這些模型展現潛力，但在臨床應用前仍需改進。 PubMed DOI

Performance evaluation of ChatGPT-4.0 and Gemini on image-based neurosurgery board practice questions: A comparative analysis.
ChatGPT-4.0 與 Gemini 在影像基礎神經外科考試問題上的表現評估：比較分析。 J Clin Neurosci 2025-02-12

這項研究比較了兩個大型語言模型，ChatGPT-4.0 和 Gemini，在解釋神經外科影像問題上的表現。研究提出250個問題，結果顯示ChatGPT-4.0的正確回答率為33.6%，明顯優於Gemini的0.4%。在某本教科書的問題中，ChatGPT-4.0的正確率達50%，而另一個教科書則為17.7%。Gemini的「無法回答」率高，顯示其在影像解釋上存在困難。這些結果顯示，AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

Comparison of ChatGPT-4, Copilot, Bard and Gemini Ultra on an Otolaryngology Question Bank.
耳鼻喉科問題庫中 ChatGPT-4、Copilot、Bard 和 Gemini Ultra 的比較。 Clin Otolaryngol 2025-03-13

這項研究評估了四個大型語言模型（LLMs）的表現，包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra，專注於耳鼻喉科的題庫。共收集350道選擇題，結果顯示Gemini Ultra準確率最高，達79.8%，GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長，且包含解釋性圖片，而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題，顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

ChatGPT vs. Gemini: Comparative accuracy and efficiency in Lung-RADS score assignment from radiology reports.
ChatGPT 與 Gemini：在放射學報告中 Lung-RADS 分數分配的比較準確性與效率。 Clin Imaging 2025-03-16

這項研究評估了大型語言模型（LLMs）在根據低劑量電腦斷層掃描（LDCT）報告分配Lung-RADS分數的表現。分析了242份報告，測試了四個模型：ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示，ChatGPT-4o準確率最高，達83.6%，而ChatGPT-3.5為70.1%。反應時間方面，ChatGPT-3.5最快，約4秒。雖然ChatGPT-4o表現優於其他模型，但仍未達到人類放射科醫生的準確性，未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Accuracy and quality of ChatGPT-4o and Google Gemini performance on image-based neurosurgery board questions.
ChatGPT-4o 和 Google Gemini 在影像基礎神經外科考試問題上的準確性和質量。 Neurosurg Rev 2025-03-25

這項研究評估了兩個大型語言模型（LLMs），GPT-4o 和 Google Gemini，在神經外科考試影像問題上的表現。共分析379個問題，結果顯示GPT-4o的正確率為51.45%，明顯優於Gemini的39.58%。GPT-4o在病理學和放射學等領域表現突出，且在複雜推理的問題上也更佳。雖然GPT-4o的回答質量較高，但兩者在影像問題上的表現仍不及傳統考試，顯示機器視覺和醫學影像解釋的挑戰。 PubMed DOI

原始文章

站上相關主題文章列表