原始文章

這項研究評估了一個保護隱私的大型語言模型(LLM)在比對MRI報告的發現及追蹤變化的有效性。研究分為兩個階段:首先,LLM比對後續報告與先前報告的發現;其次,評估這些發現的變化。使用的數據集包含240份身體MRI報告和134份無對比劑的胸部CT報告。TenyxChat-7B LLM在七個模型中表現最佳,內部數據集F1分數達85.4%,外部數據集為81.8%。結果顯示,該模型能有效協助結構化報告,改善醫師之間的溝通。 PubMed DOI


站上相關主題文章列表

研究利用大型語言模型協助臨床醫生問心臟超聲心動圖報告,提升對複雜心臟病患見解,增進患者護理效率。研究收集西奈山醫療體系10年數據,每患者有10份報告。LLM模型LLaMA-2 70B回答問題準確率達90%,尤其在嚴重程度評估和診斷檢索表現較佳。研究顯示使用LLM解釋心臟超聲心動圖數據有效,比傳統搜索更佳,提高臨床決策和研究效率。 PubMed DOI

這項研究比較了一個經過微調的大型語言模型(LLM)與放射科醫師在從放射學報告中識別肺癌預防治療患者方面的表現。LLM在分類患者方面表現出高準確度和敏感度,與放射科醫師相似,但處理時間更快。研究結果表明,LLM能夠有效地及時從醫療記錄中提取相關信息。 PubMed DOI

隨著患者能更直接獲取醫療紀錄,放射科報告中的醫學術語卻常讓人困惑。為了解決這個問題,我們提出利用大型語言模型(LLM)自動生成更易懂的報告翻譯。我們在100份去識別化的神經放射科報告上進行測試,並在不同閱讀水平上生成翻譯。結果顯示,翻譯的準確率和可讀性均優於傳統方法,特別是在第八年級閱讀水平上,準確率分別達到88%和93%。這種方法不僅增強了患者的理解,也不會顯著增加醫生的工作負擔。 PubMed DOI

這項研究開發了一個大型語言模型(LLM),能根據影像生成放射學印象,並評估其專業及語言表現。研究在上海總醫院進行,六位放射科醫生使用該模型並進行修正。LLM在20 GB醫學及一般文本數據上預訓練,並用1.5 GB數據微調,包含800份放射學報告。結果顯示,LLM的中位召回率為0.775,精確度0.84,F1分數0.772,表現良好。專家對其印象評價高,顯示其在放射學檢查中具專業性。 PubMed DOI

這項研究介紹了一個開源流程,利用本地的大型語言模型(LLM)"Llama 2" 從臨床文本中提取定量數據,專注於識別失代償性肝硬化的特徵。研究在MIMIC IV數據集中測試500名患者的病歷,成功識別五個關鍵臨床特徵,敏感度達100%,特異度96%。此外,對其他病症的檢測也相當高,顯示出本地部署的LLM在提取臨床信息方面的有效性,且硬體需求低。 PubMed DOI

放射學中的結構化報告在可比性、可讀性和細節上有明顯優勢,但其採用仍然有限。本研究探討了一種本地托管的語言模型,能將自由文本的放射報告轉換為結構化數據,且不影響放射科醫師的工作流程。研究結果顯示,該模型生成的結構化報告在英語和德語的準確性接近人類讀者,顯示出良好的性能。結論指出,為了提高結構化報告的採用,需加強自動化系統與臨床流程的整合,讓醫師能在報告過程中受益於結構化數據。 PubMed DOI

這項研究分析了不同的自然語言處理(NLP)模型和大型語言模型(LLM)在放射科報告中匿名化個人健康資訊(PHI)的效果,並遵循HIPAA法規。研究發現,兩個NLP模型成功移除了所有日期、醫療紀錄號碼和檢查號碼,而LLM在日期的移除效果較差。針對準確性優化的NLP模型表現最佳,達到完美的F1分數。研究結論指出,預訓練的NLP模型在不影響臨床數據的情況下,更有效地進行匿名化,LLM則可能意外刪除重要資訊,強調了可靠的PHI匿名化對醫療應用的重要性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在翻譯放射科報告的效果。由於合格翻譯者不足,這對病人護理造成挑戰。研究團隊將100份合成報告翻譯成九種語言,並使用十個LLM進行自動翻譯,結果由18位放射科醫生評估。發現GPT-4的翻譯品質最佳,特別是在英德、英希、英泰和英土語言對上表現突出。雖然LLMs在清晰度和一致性上表現良好,但醫學術語的準確性仍需改進。總體來說,LLMs能有效翻譯放射科報告,但不同模型和語言的表現有所差異。 PubMed DOI

這項研究探討了開放權重的大型語言模型(LLMs)在從放射科報告中提取結構化內容的效果,並與傳統的規則系統及封閉權重模型(如GPT-4)進行比較。研究結果顯示,GPT-4o在英語報告中表現最佳,F1分數達92.4%,而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時,開放權重LLMs的表現顯著超過BERT。結論指出,開放權重模型在結構化報告數據方面具有效能,特別是在中等數據量微調時。 PubMed DOI

這項研究探討了符合隱私要求的開源大型語言模型(LLMs)在檢測放射科報告錯誤的有效性,並與商業封閉源模型比較。分析了120份報告,發現封閉源模型(如GPT-4)在錯誤檢測率上優於開源模型,分別為88%和79%。不過,開源模型的處理時間較短,每份報告僅需6秒。研究結論指出,開源模型雖然有效,但準確性尚未達到封閉源模型的水準,未來有潛力在保護病人隱私的同時提升臨床工作流程。 PubMed DOI