Use of Large Language Models to Predict Neuroimaging.
使用大型語言模型來預測神經影像。 J Am Coll Radiol 2023-11-13

研究比較大型語言模型（LLMs）和神經放射學家在臨床案例中的表現，結果顯示神經放射學家的判讀能力優於LLMs。ChatGPT和Glass AI表現相近，顯示在醫學文本訓練上有進步空間。LLMs雖有潛力，但仍需改進，顯示醫學領域仍需專業知識。 PubMed DOI

The Application of Large Language Models for Radiologic Decision Making.
大型語言模型在放射學決策中的應用。 J Am Coll Radiol 2024-02-25

研究發現使用大型語言模型（LLMs）在放射學中預測臨床情境的效果。Glass AI在某些領域表現比ChatGPT好，但在其他情境中表現較差。整體而言，LLMs有助於預測影像研究，尤其是Glass AI，顯示了在放射學決策上的潛力。 PubMed DOI

Radiological Differential Diagnoses Based on Cardiovascular and Thoracic Imaging Patterns: Perspectives of Four Large Language Models.
基於心血管和胸部影像模式的放射學鑑別診斷：四個大型語言模型的觀點。 Indian J Radiol Imaging 2024-03-30

研究比較了四個大型語言模型在心血管和胸部影像診斷上的效果，包括ChatGPT3.5、Google Bard、Microsoft Bing和Perplexity。結果顯示Perplexity在診斷準確度和一致性上表現最佳。在選擇臨床或教育用模型時，需考慮這些差異。 PubMed DOI

Towards Improved Radiological Diagnostics: Investigating the Utility and Limitations of GPT-3.5 Turbo and GPT-4 with Quiz Cases.
探討改進放射學診斷：研究 GPT-3.5 Turbo 和 GPT-4 的效用和限制，並使用測驗案例。 AJNR Am J Neuroradiol 2024-05-08

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷，結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現，但整體仍有改進空間，需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

Diagnostic performances of GPT-4o, Claude 3 Opus, and Gemini 1.5 Pro in "Diagnosis Please" cases.
在「診斷請求」案例中，GPT-40、Claude 3 Opus和Gemini 1.5 Pro的診斷表現。 Jpn J Radiol 2024-07-02

大型語言模型（LLMs）如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現，發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

Comparing Diagnostic Accuracy of Radiologists versus GPT-4V and Gemini Pro Vision Using Image Inputs from Diagnosis Please Cases.
比較放射科醫師與 GPT-4V 及 Gemini Pro Vision 在使用來自「請診斷」案例的影像輸入時的診斷準確性。 Radiology 2024-07-09

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現，結果顯示隨著溫度設定提高，準確性也增加。儘管放射科醫師整體表現較佳，尤其在高溫度下，但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Comparison of Performance of Large Language Models on Lung-RADS Related Questions.
大型語言模型在 Lung-RADS 相關問題上的表現比較。 JCO Glob Oncol 2024-08-29

這項研究評估了大型語言模型（LLMs）在解讀Lung-RADS以進行肺癌篩檢中的整合，強調它們在改善放射學實務方面的潛力。結果顯示，Claude 3 Opus和Perplexity的準確率達到了驚人的96%，在表現上超越了其他模型。 PubMed DOI

Can large language models be new supportive tools in coronary computed tomography angiography reporting?
大型語言模型能否成為冠狀動脈電腦斷層血管造影報告的新支援工具？ Clin Imaging 2024-09-05

這項研究評估了多種大型語言模型（LLMs）在冠狀動脈疾病（CAD）診斷中的表現，特別是根據CAD-RADS 2.0指引進行比較。結果顯示，ChatGPT 4o的準確率最高，達到100%，接著是ChatGPT 4和Claude 3 Opus，準確率為96.6%。其他模型的準確率也不錯，介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力，並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

Evaluating text and visual diagnostic capabilities of large language models on questions related to the Breast Imaging Reporting and Data System Atlas 5<sup>th</sup> edition.
評估大型語言模型在與乳腺影像報告與數據系統 Atlas 第五版相關問題的文本和視覺診斷能力。 Diagn Interv Radiol 2024-09-09

這項研究評估大型語言模型（LLMs）在解釋乳腺影像報告及提供臨床建議的表現，分為兩個步驟： 1. **文本評估**：比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳（90%），超過一般放射科醫師（78%）和乳腺放射科醫師（82%）。 2. **視覺評估**：測試五個多模態LLMs在100張乳腺超音波影像上的表現，Claude 3.5 Sonnet以59%準確率領先。研究顯示，雖然LLMs在文本評估中表現良好，但視覺診斷能力有限，需在放射科醫師監督下使用，以避免誤診。 PubMed DOI

原始文章

站上相關主題文章列表