原始文章

這項研究評估了大型語言模型(LLMs)在解讀Lung-RADS以進行肺癌篩檢中的整合,強調它們在改善放射學實務方面的潛力。結果顯示,Claude 3 Opus和Perplexity的準確率達到了驚人的96%,在表現上超越了其他模型。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

研究比較了四個大型語言模型在心血管和胸部影像診斷上的效果,包括ChatGPT3.5、Google Bard、Microsoft Bing和Perplexity。結果顯示Perplexity在診斷準確度和一致性上表現最佳。在選擇臨床或教育用模型時,需考慮這些差異。 PubMed DOI

這項研究評估了一個開源的大型語言模型(LLM)在從急診腦部MRI報告中提取信息的表現。對比了放射科醫師和LLM在識別頭痛、異常發現以及MRI結果與頭痛之間因果關係方面的能力。LLM在這些任務中表現出高靈敏度和特異度,顯示其具有潛力在不需額外訓練的情況下從放射學報告中準確提取信息。 PubMed DOI

一項研究評估了大型語言模型(LLMs)在回答醫學腫瘤學考試問題時的準確性和安全性。最佳的LLM以高準確度回答問題,但錯誤引起了安全疑慮,這表明有必要開發和評估LLMs,以改善臨床醫學腫瘤學等高風險臨床環境中醫護人員的經驗和病人護理。 PubMed DOI

這項研究比較了一個經過微調的大型語言模型(LLM)與放射科醫師在從放射學報告中識別肺癌預防治療患者方面的表現。LLM在分類患者方面表現出高準確度和敏感度,與放射科醫師相似,但處理時間更快。研究結果表明,LLM能夠有效地及時從醫療記錄中提取相關信息。 PubMed DOI

研究比較三個大型語言模型聊天機器人在幫忙歸類放射學報告時的表現。結果顯示,Claude-2在使用結構化提示和指南PDF時最準確,特別是對於LI-RADS 2018版本。但沒有提示時,所有機器人表現不佳,且在RADS標準上有差異。Claude-2展現了根據標準歸類RADS類別的潛力,但應用較新標準時遇到困難。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在冠狀動脈疾病(CAD)診斷中的表現,特別是根據CAD-RADS 2.0指引進行比較。結果顯示,ChatGPT 4o的準確率最高,達到100%,接著是ChatGPT 4和Claude 3 Opus,準確率為96.6%。其他模型的準確率也不錯,介於90%到93.3%之間。這些結果顯示LLMs在改善CAD的放射報告和病人照護方面的潛力,並強調進一步研究其視覺診斷能力的重要性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了10個大型語言模型(LLMs)與2位認證放射科醫生在分析胸部放射學案例的診斷表現。研究收集了124個案例,結果顯示Claude 3 Opus的診斷準確率最高,達70.29%,而放射科醫生的準確率則較低,分別為52.4%和41.1%。LLMs在特定案例中的表現較佳,顯示在適當醫療監督下,LLMs可能成為臨床決策的重要工具。 PubMed DOI