原始文章

這項研究評估大型語言模型(LLMs)在前列腺MRI報告中分配PI-RADS類別的效果。研究對象為100名未接受活檢的患者,MRI報告由兩位泌尿放射科醫師分類,並與GPT-3.5、GPT-4、Bard和Gemini的結果進行比較。結果顯示,放射科醫師的準確率高達95%和90%,而GPT-3.5和Bard僅67%。更新的GPT-4和Gemini分別提高至83%和79%。整體而言,LLMs在準確性上仍不及人類醫師,臨床應用需謹慎考量。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在神經放射學案例的診斷表現。結果顯示,放射科醫師的準確率比ChatGPT高。GPT-4V的ChatGPT表現更差。總結來說,ChatGPT在挑戰性案例的診斷上不如放射科醫師。 PubMed DOI

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現,結果顯示隨著溫度設定提高,準確性也增加。儘管放射科醫師整體表現較佳,尤其在高溫度下,但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

這項研究探討了大型語言模型(LLM)ChatGPT 在根據肝臟影像報告分類肝臟病變的能力,使用 MRI 報告進行比較。研究涵蓋 150 名患者的 205 份 MRI,重點在特定病變的大小、位置及動脈期對比增強標準。結果顯示,ChatGPT 在非結構化報告中的準確率(53%)高於結構化報告(44%),且在非結構化報告的協議程度(k = 0.51)也較佳。這顯示 LLM 在處理自由文本數據方面有潛力,但仍需優化以適應結構化數據。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示,ChatGPT-4o的準確性最高,達87%,而ChatGPT-3.5雖然速度最快,但準確性最低,僅50.5%。Google Gemini Advanced的準確性為82.6%,而Google Gemini的失敗率較高,達12%。總體來看,雖然這些模型展現潛力,但在臨床應用前仍需改進。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI