原始文章

研究團隊用開源大型語言模型微調,讓它們能自動整理心臟超音波報告。其中 EchoGPT(基於 Llama-2)表現最好,產出的總結精簡度幾乎和心臟科醫師寫的一樣好。這技術有望加快報告產出速度又不影響品質,但目前評估 AI 報告的方法還需要改進。 PubMed DOI


站上相關主題文章列表

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在生成心臟超音波報告及提供臨床建議的效果。研究分為虛構案例和臨床案例兩組,並將LLM的結果與經驗豐富的心臟科醫師進行比較。結果顯示,LLM的平均得分為6.86分,臨床案例的診斷準確性較高,且建議通常適當。LLM在85.7%的案例中生成可接受的報告,誤解率僅5.3%。整體而言,ChatGPT在臨床實踐中顯示出提升工作流程的潛力。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在總結中國放射科報告中對肺癌的印象表現。研究發現,ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確,但在簡潔性和真實性上仍有不足,且與放射科醫生撰寫的印象相比,仍存在顯著差距。整體來看,現有的 LLMs 雖能生成高完整性和正確性的報告,但尚無法完全取代放射科醫生。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

開源大型語言模型能準確擷取心臟超音波報告的重點資料,像是瓣膜疾病嚴重度和人工瓣膜有無,對建立大規模資料庫和疾病監控很有幫助。經過優化後,像Llama3.0-70B、Qwen2.0這些頂尖模型準確率超過98%,但處理速度較慢。小型模型判斷嚴重度較不準,但辨識人工瓣膜還不錯。主要錯誤來自分心或沒照指示。整體來說,LLMs自動化擷取資料很有潛力,但要兼顧準確和效率。 PubMed DOI

生成式AI像ChatGPT,已經在心臟科協助衛教、簡化資訊和提升行政效率。不過,目前還無法解讀影像,且有錯誤資訊和偏見的風險。未來若能結合語言和影像分析,診斷會更精準,但仍需嚴格監督和倫理規範,確保安全有效。 PubMed DOI

這項研究發現,像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告,速度比傳統方式快,品質也差不多。雖然大多數錯誤跟模板有關,重大臨床錯誤很少見,但還是建議要有人工審查,確保報告正確無誤。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI