原始文章

這項研究評估了GPT-4在解讀乳房X光影像的表現,使用了120張影像,分為有發現和無發現兩類。GPT-4的正確識別率為53.3%,在微鈣化和腫塊的識別上,敏感度為50.0%,特異度為37.5%。研究顯示出許多假陽性和假陰性,並出現幻覺現象,顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險,呼籲對醫療AI工具進行專門訓練和驗證,以確保其臨床可靠性與安全性。 PubMed DOI


站上相關主題文章列表

研究使用GPT-3.5 Turbo和GPT-4等語言模型在神經放射學案例上進行診斷,結果顯示在不同任務上有不同表現。結合案例搜尋和直接診斷可提升GPT-3.5 Turbo表現,但整體仍有改進空間,需注意模型限制。結果顯示這些模型在特定情況下可作為輔助診斷工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是Open AI的GPT-4.0和Microsoft Bing的GPT-4,在將非結構化的乳房超音波報告轉換為結構化格式的有效性。研究分析了100份報告,結果顯示GPT-4.0在生成結構化報告、準確分配BI-RADS分類及提供管理建議方面均優於Bing。此外,GPT-4.0在預測良性和惡性特徵的能力也較佳,但仍不及資深放射科醫師。這顯示GPT-4.0在醫療報告處理上具有潛力。 PubMed DOI

這項研究評估了多模態人工智慧模型 GPT-4V 在解讀放射影像的表現,包括超音波、電腦斷層掃描和 X 光。分析230張急診影像後,模型在影像識別上達到100%準確率,但在解剖和病理識別上表現不佳,尤其是病理識別僅35.2%。儘管有潛力,GPT-4V 的診斷錯誤率超過40%,引發臨床使用的可靠性擔憂。研究強調需進一步開發以提升準確性,確保病人安全,並指出目前不宜作為獨立診斷工具。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了具備視覺能力的AI模型GPT-4V在解讀放射影像的表現,並與放射科醫師及住院醫師進行比較。研究涵蓋72個放射案例,結果顯示GPT-4V的整體準確率為43%。在影像和非影像依賴的案例中,醫師的表現並未顯著優於GPT-4V。特別是,GPT-4V在僅使用文字輸入時的準確率較高(50%),而僅使用影像輸入則為38%。總體來看,GPT-4V的表現與人類相當,且未能提升人類的解讀準確性。 PubMed DOI

這項研究評估了GPT-4在神經放射學中生成鑑別診斷的效果,並與專業神經放射科醫師進行比較。研究分析了60份報告,結果顯示GPT-4在61.7%的案例中正確包含實際診斷,而醫師的準確率在63.3%到73.3%之間。GPT-4與醫師的協議程度被評為公平到中等。雖然GPT-4在輔助放射學工作上顯示潛力,但準確性仍不及人類專家,這強調了了解其局限性的重要性。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI