Reliability of large language models for advanced head and neck malignancies management: a comparison between ChatGPT 4 and Gemini Advanced.
大型語言模型在進階頭頸部惡性腫瘤管理中的可靠性：ChatGPT 4 與 Gemini Advanced 的比較。 Eur Arch Otorhinolaryngol 2024-05-25

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現，發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯，但仍有改進空間。研究強調持續更新和驗證的重要性，以更好整合人工智慧到醫療實務。 PubMed DOI

The Performance of ChatGPT-4 and Gemini Ultra 1.0 for Quality Assurance Review in Emergency Medical Services Chest Pain Calls.
ChatGPT-4和Gemini Ultra 1.0在急診醫療服務胸痛呼叫的品質保證審查中的表現。 Prehosp Emerg Care 2024-07-08

研究評估了OpenAI的ChatGPT-4和Google的Gemini Ultra大型語言模型在急救醫療服務（EMS）質量保證的應用。大型語言模型有潛力自動化部分病人護理報告處理，減輕醫務主任的工作量。人類審查者表現可靠，ChatGPT-4在某些方面表現不錯，但不夠穩定。Gemini Ultra表現不佳。建議將它們當作輔助工具，並加強培訓和整合，以提升質量保證流程的效能。 PubMed DOI

ChatGPT yields low accuracy in determining LI-RADS scores based on free-text and structured radiology reports in German language.
ChatGPT 在德語自由文本和結構化放射學報告中確定 LI-RADS 分數的準確性較低。 Front Radiol 2024-07-22

這項研究探討了大型語言模型（LLM）ChatGPT 在根據肝臟影像報告分類肝臟病變的能力，使用 MRI 報告進行比較。研究涵蓋 150 名患者的 205 份 MRI，重點在特定病變的大小、位置及動脈期對比增強標準。結果顯示，ChatGPT 在非結構化報告中的準確率（53%）高於結構化報告（44%），且在非結構化報告的協議程度（k = 0.51）也較佳。這顯示 LLM 在處理自由文本數據方面有潛力，但仍需優化以適應結構化數據。 PubMed DOI

Practical Evaluation of ChatGPT Performance for Radiology Report Generation.
ChatGPT 在放射科報告生成中的實用性能評估。 Acad Radiol 2024-08-14

這項研究探討了利用自然語言處理（NLP）技術，特別是ChatGPT，來提升放射科報告的產出效率。研究人員分析了1,000條來自MIMIC胸部X光數據庫的記錄，並使用Claude.ai提取關鍵字，再透過ChatGPT生成報告。結果顯示，Bart和XLM模型的報告與醫生撰寫的相似度高達99.3%，而其他模型表現較差。研究強調選擇合適的NLP模型對於提升放射科報告的效率和準確性至關重要。 PubMed DOI

Can large language models be new supportive tools in coronary computed tomography angiography reporting?
大型語言模型能否成為冠狀動脈電腦斷層血管造影報告的新支援工具？ Clin Imaging 2024-09-05

這項研究評估了多種大型語言模型（LLMs）在冠狀動脈疾病（CAD）診斷中的表現，特別是根據CAD-RADS 2.0指引進行比較。結果顯示，ChatGPT 4o的準確率最高，達到100%，接著是ChatGPT 4和Claude 3 Opus，準確率為96.6%。其他模型的準確率也不錯，介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力，並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

The Potential of Gemini and GPTs for Structured Report Generation based on Free-Text <sup>18</sup>F-FDG PET/CT Breast Cancer Reports.
基於自由文本的 <sup>18</sup>F-FDG PET/CT 乳腺癌報告，Gemini 和 GPTs 在結構化報告生成中的潛力。 Acad Radiol 2024-09-08

這項研究比較了兩種大型語言模型（LLMs），Gemini 和 GPTs，在乳腺癌患者的 PET/CT 報告中提取數據和生成結構化報告的表現。研究涵蓋131名患者，發現 GPTs 在數據挖掘上準確率更高，特別是原發病灶（89.6% vs. 53.8%）和轉移病灶（96.3% vs. 89.6%）。此外，GPTs 在疾病進展決策和語義相似度上也優於 Gemini。整體來看，GPTs 在臨床應用中顯示出更高的潛力。研究使用多種統計方法驗證結果，數據可向通訊作者索取。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Comparative Accuracy of ChatGPT 4.0 and Google Gemini in Answering Pediatric Radiology Text-Based Questions.
ChatGPT 4.0 與 Google Gemini 在回答兒科放射學文本問題的比較準確性。 Cureus 2024-11-05

這項研究評估了兩個AI語言模型，ChatGPT 4.0和Google Gemini，在回答79個兒科放射學問題上的表現。結果顯示，ChatGPT 4.0的準確率為83.5%，而Google Gemini則為68.4%，差異顯著（p=0.0255，RR=1.221）。雖然ChatGPT 4.0整體上表現較佳，但在各問題的子部分並未見顯著差異。研究建議未來需進一步使用更大樣本和多模態輸入，以更全面評估AI模型在放射學的有效性。 PubMed DOI

Assessing the Performance of ChatGPT and Bard/Gemini Against Radiologists for PI-RADS Classification Based on Prostate Multiparametric MRI Text Reports.
評估 ChatGPT 和 Bard/Gemini 在前列腺多參數 MRI 文字報告中對 PI-RADS 分類的表現，與放射科醫師進行比較。 Br J Radiol 2024-11-13

這項研究評估大型語言模型（LLMs）在前列腺MRI報告中分配PI-RADS類別的效果。研究對象為100名未接受活檢的患者，MRI報告由兩位泌尿放射科醫師分類，並與GPT-3.5、GPT-4、Bard和Gemini的結果進行比較。結果顯示，放射科醫師的準確率高達95%和90%，而GPT-3.5和Bard僅67%。更新的GPT-4和Gemini分別提高至83%和79%。整體而言，LLMs在準確性上仍不及人類醫師，臨床應用需謹慎考量。 PubMed DOI

Exploring the accuracy of embedded ChatGPT-4 and ChatGPT-4o in generating BI-RADS scores: a pilot study in radiologic clinical support.
探討嵌入式 ChatGPT-4 和 ChatGPT-4o 在生成 BI-RADS 分數方面的準確性：放射學臨床支持的初步研究。 Clin Imaging 2024-11-16

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像，包含乳房X光和超音波，並在不同會議中進行評估以避免偏見。結果顯示，兩個模型在BI-RADS評分的準確率為66.2%，在BI-RADS 5案例中表現最佳（ChatGPT-4為84.4%，ChatGPT-4o為88.9%）。不過，它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分，顯示目前大型語言模型在乳腺影像評估上的局限性，需進一步研究才能整合進臨床實踐。 PubMed DOI

原始文章

站上相關主題文章列表