原始文章

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI


站上相關主題文章列表

ChatGPT是OpenAI開發的強大語言模型,經過測試後,在乳房癌篩檢方面表現優異,但在乳房疼痛提示方面則稍遜。研究顯示ChatGPT有助於放射學決策,提升臨床流程,並可應用於放射學服務。 PubMed DOI

研究評估了ChatGPT-3.5和GPT-4在放射學中的應用,專注於乳腺癌篩檢和乳房疼痛。結果顯示兩者在乳腺癌篩檢方面表現優異,且ChatGPT-4在提示方面表現更佳。這顯示大型語言模型在放射學決策上有潛力,但仍需進一步研究和提升準確性,以擴展應用範圍。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在神經放射學案例的診斷表現。結果顯示,放射科醫師的準確率比ChatGPT高。GPT-4V的ChatGPT表現更差。總結來說,ChatGPT在挑戰性案例的診斷上不如放射科醫師。 PubMed DOI

研究評估了ChatGPT-4V在解讀COVID-19、NSCLC和對照組案例的胸部CT掃描的準確性。ChatGPT-4V整體準確率為56.76%,對不同情況的敏感性和特異性有所不同。模型在所有肺葉案例中表現最佳。研究強調了AI模型在放射學中的挑戰和改進領域,呼籲加強模型以提升醫療應用的可靠性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了ChatGPT-3.5在生成乳房超音波報告的BI-RADS分類的有效性,目的是提升醫療診斷的準確性和可解釋性。研究分析了131名患者的報告,並將AI生成的結果與57位醫生的報告進行比較。結果顯示,雖然AI在結構和清晰度上表現良好,但在BI-RADS分類準確性和惡性診斷上仍需改進。研究也探討了「思考鏈」方法,顯示AI在模擬臨床決策過程中的潛力,整體而言,ChatGPT-3.5對乳房超音波評估的診斷結果有助益。 PubMed DOI

這項研究評估了ChatGPT-4.0o在放射影像定位品質的有效性,分析了30張不同關節的放射線影像。模型的任務是找出定位錯誤並提出改進建議。放射技術師根據標準對模型的回應進行1到5的評分。結果顯示,模型僅在20%的案例中正確識別所有錯誤,且最常見得分為3,表示至少識別一個錯誤,30%的影像中提供了正確建議。平均得分為2.9,顯示準確性較低,強調了教育背景和臨床經驗在放射學中的重要性。 PubMed DOI

這項研究探討使用AI模型ChatGPT-4o來簡化乳房放射學報告,讓病人更容易理解。經驗豐富的放射科醫師選擇了21份匿名報告,並請ChatGPT-4o用簡單語言解釋。五位放射科醫師評估簡化報告的準確性、完整性和潛在危害,結果顯示簡化報告在準確性和完整性上表現良好,且潛在危害低。非醫療背景的讀者對簡化報告的理解度也很高。研究指出,雖然BI-RADS 0、1和2的報告較易解釋,但BI-RADS 3-6則較具挑戰性。總體而言,這顯示AI能有效改善病人對乳房影像報告的理解,促進以病人為中心的護理。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在生成冠狀動脈電腦斷層血管造影報告的CAD-RADS分數的表現。結果顯示,ChatGPT-4o的準確性最高,達87%,而ChatGPT-3.5雖然速度最快,但準確性最低,僅50.5%。Google Gemini Advanced的準確性為82.6%,而Google Gemini的失敗率較高,達12%。總體來看,雖然這些模型展現潛力,但在臨床應用前仍需改進。 PubMed DOI