原始文章

這項研究評估了GPT-4在解讀乳房X光影像的表現,使用了120張影像,分為有發現和無發現兩類。GPT-4的正確識別率為53.3%,在微鈣化和腫塊的識別上,敏感度為50.0%,特異度為37.5%。研究顯示出許多假陽性和假陰性,並出現幻覺現象,顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險,呼籲對醫療AI工具進行專門訓練和驗證,以確保其臨床可靠性與安全性。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力,特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加,GPT-4在錯誤檢測方面表現優異,解釋性錯誤敏感度達84%,事實性錯誤敏感度達89%。相比之下,人類讀者的表現較差,檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性,但仍顯示出其在減輕醫師負擔和提升準確度的潛力,值得在臨床實踐中進一步探索。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這篇文章探討大型語言模型(LLMs),特別是生成預訓練變壓器(GPTs)在醫學和放射學的影響。重點在於優化技術,如提示工程和微調,以提升模型的準確性,讓像GPT-4這樣的模型能適應特定任務。儘管這些模型潛力無窮,文章也指出實施過程中的挑戰,包括複雜性、幻覺、偏見和安全風險等問題。作者希望為放射科醫師提供LLMs的基礎知識和最佳實踐,並探討這些技術在放射學中的應用及其限制。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT、Gemini和Copilot,在乳房影像學問題上的表現。研究中,五位乳房放射科醫生提出九個乳房攝影篩檢問題,並由兩位專家評估LLMs的回答。結果顯示,兩種語言的回答平均分數相似,約在3.6到4分之間。一般問題的回答較準確,但針對特定問題,尤其是密集乳房的定義,回答常常不完整。此外,意大利語的來源引用不夠專業,顯示LLMs在提供醫療資訊上的限制。總體而言,LLMs雖能促進醫療溝通,但在專業領域的準確性仍需加強,強調AI與醫療專業人員合作的重要性。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究發現,基於ChatGPT的工具在乳房X光片找腫塊的表現還可以,但在判斷乳房密度、腫瘤大小、位置、微鈣化和淋巴結侵犯等細節時,準確度不高。跟放射科醫師的BI-RADS評分一致性也只有普通到中等。總結來說,目前這類AI還不適合用在乳癌篩檢的全面影像分析。 PubMed DOI

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力,可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過,目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具,無法取代醫師,導入臨床還需嚴謹訓練和監督。 PubMed DOI

這項回溯性研究發現,ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時,表現比資淺放射科醫師更好,和資深醫師差不多。它預測惡性腫瘤的準確度高(AUC 0.82,準確率80.63%,敏感度90.56%,特異度73.51%)。若把ChatGPT-4納入影像判讀流程,能進一步提升醫師診斷準確率,減少不同醫師間的判讀差異。 PubMed DOI