原始文章

這篇研究發現,就算只有少量高品質標註,只要用像 GPT-4o 這種高品質合成標註來微調 Llama 3.1-8B 這類輕量級語言模型,醫療任務表現也能大幅提升(micro F1 可達 0.91)。即使合成標註品質較差,微調後的模型表現還是能超越原本的雜訊標註,顯示模型很有韌性,合成資料在醫療 LLM 微調上很有潛力。 PubMed


站上相關主題文章列表

這項研究探討如何利用電子健康紀錄,特別是放射學報告,自動識別癌症患者的轉移部位。研究人員運用自然語言處理技術,透過大型語言模型Llama3生成合成訓練數據,來增強有限的數據集,並訓練較小的BERT模型。他們發現針對性的數據增強技術能有效提升檢測肺部、肝臟和腎上腺轉移的F1分數。此外,研究比較了標準化與非結構化報告在轉移識別上的準確性,結果顯示結合患者歷史與量身定制的模型能顯著提升性能。整體而言,這項研究提供了一種可擴展且具成本效益的方法,無需對不同機構進行廣泛的定制。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究用私有大型語言模型在本地處理814份放射科報告,成功把內容重組、精簡,並依器官系統分類。Mixtral LLM表現最好,能減少超過53%冗詞,提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全,也能有效簡化報告流程,幫助醫師更快掌握重點,優化臨床工作。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

這項研究用大型語言模型,解決放射科報告標註資料不足的問題,能自動抓出危及生命的異常發現。模型在1.5萬份未標註報告訓練,經專家和AI評分驗證,準確度高,內外部資料都適用。這方法提升危急異常偵測力,已開放給研究和臨床使用。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法,能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試,結果比傳統深度學習和其他提示法更準,外部驗證也表現優異。此方法不僅提升可解釋性,也有助臨床更精確診斷。 PubMed DOI