原始文章

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI


站上相關主題文章列表

這項研究顯示生成式人工智慧,特別是OpenAI的GPT-4 Turbo API,在提升放射學訓練方面的潛力。研究發現,這個AI模型能檢測到的差異明顯多於專業放射科醫師,顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異,但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當,顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性,並探討AI反饋對實習生的長期影響。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

本研究探討大型語言模型(LLMs)在從放射科報告中提取額外影像檢查建議(RAIs)的有效性。研究回顧了250份報告,確認231份包含RAIs,並使用自然語言處理算法進行分析。結果顯示,GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5,顯示出LLMs在確保影像檢查建議及時完成的潛力,可能有助於減少診斷延遲。 PubMed DOI

這篇文章探討大型語言模型(LLMs),特別是生成預訓練變壓器(GPTs)在醫學和放射學的影響。重點在於優化技術,如提示工程和微調,以提升模型的準確性,讓像GPT-4這樣的模型能適應特定任務。儘管這些模型潛力無窮,文章也指出實施過程中的挑戰,包括複雜性、幻覺、偏見和安全風險等問題。作者希望為放射科醫師提供LLMs的基礎知識和最佳實踐,並探討這些技術在放射學中的應用及其限制。 PubMed DOI

這項研究探討大型語言模型(LLMs)在評估和修訂一年級住院醫師撰寫的放射科報告的效果,並與專業放射科醫師進行比較。分析了100份報告,根據六個準確性和完整性標準進行評估。結果顯示,GPT-4o 與人類醫師的意見一致性最高,住院醫師的報告技能在第一年內有顯著進步,尤其在前三個標準上。研究建議LLMs能有效協助住院醫師識別弱點並追蹤進展,減輕導師的工作負擔。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在總結中國放射科報告中對肺癌的印象表現。研究發現,ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確,但在簡潔性和真實性上仍有不足,且與放射科醫生撰寫的印象相比,仍存在顯著差距。整體來看,現有的 LLMs 雖能生成高完整性和正確性的報告,但尚無法完全取代放射科醫生。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI