原始文章

這篇研究發現,就算只有少量高品質標註,只要用像 GPT-4o 這種高品質合成標註來微調 Llama 3.1-8B 這類輕量級語言模型,醫療任務表現也能大幅提升(micro F1 可達 0.91)。即使合成標註品質較差,微調後的模型表現還是能超越原本的雜訊標註,顯示模型很有韌性,合成資料在醫療 LLM 微調上很有潛力。 PubMed


站上相關主題文章列表

深度學習在放射學的應用有助於改善診斷,但臨床接受度仍有挑戰。本研究開發了一個基於Llama 3-8B的語言模型,旨在自動生成MRI和CT報告的結論,以協助放射科醫生並提升效率。使用了15,000份來自克拉約瓦醫藥與藥學大學的報告數據進行訓練,並在NVIDIA RTX 3090 GPU上進行微調。結果顯示,模型在生成結論的準確性上表現良好,並獲得放射科醫生的正面評價。未來需解決數據偏見及臨床整合等問題。 PubMed DOI

這項研究探討使用開源的大型語言模型(LLMs)來生成合成的放射科報告,目的是減少訓練人工智慧模型時對真實數據的標註需求。研究顯示,本地托管的LLMs在增強訓練數據方面,表現可與商業模型如ChatGPT和GPT-4媲美,尤其在識別誤診骨折等任務上。使用合成報告訓練的最佳模型,達到基於真實數據模型90%以上的效果,顯示開源LLMs在醫療應用中生成合成臨床報告的潛力。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究探討如何利用電子健康紀錄,特別是放射學報告,自動識別癌症患者的轉移部位。研究人員運用自然語言處理技術,透過大型語言模型Llama3生成合成訓練數據,來增強有限的數據集,並訓練較小的BERT模型。他們發現針對性的數據增強技術能有效提升檢測肺部、肝臟和腎上腺轉移的F1分數。此外,研究比較了標準化與非結構化報告在轉移識別上的準確性,結果顯示結合患者歷史與量身定制的模型能顯著提升性能。整體而言,這項研究提供了一種可擴展且具成本效益的方法,無需對不同機構進行廣泛的定制。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

這項研究用大型語言模型,解決放射科報告標註資料不足的問題,能自動抓出危及生命的異常發現。模型在1.5萬份未標註報告訓練,經專家和AI評分驗證,準確度高,內外部資料都適用。這方法提升危急異常偵測力,已開放給研究和臨床使用。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法,能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試,結果比傳統深度學習和其他提示法更準,外部驗證也表現優異。此方法不僅提升可解釋性,也有助臨床更精確診斷。 PubMed DOI