原始文章

這項研究建立了一個命名實體(NE)框架,從癌症基因組圖譜-甲狀腺癌(TCGA-THCA)數據庫的臨床筆記中提取資訊,專注於良性分化甲狀腺癌患者的AJCC分期和ATA風險類別。框架包含標註指導方針、數據標記、提示策略及評估代碼。我們測試了四個大型語言模型,並將其輸出與專家數據比較。基於50份病理筆記建立的框架,經289份筆記和35個偽臨床案例驗證,成功提高了分期和風險分類的效率與準確性。 PubMed DOI


站上相關主題文章列表

這項研究探討了使用大型語言模型(LLMs)來進行醫學影像解讀,尤其是在診斷甲狀腺結節方面。評估了三種LLMs的診斷準確性,其中ChatGPT 4.0表現最佳。將LLMs與圖像轉文字方法結合,有望提高醫學影像的診斷準確性。 PubMed DOI

這項研究探討如何利用自然語言處理(NLP)和生成語言模型(GLMs)從肺癌患者的病理報告中提取關鍵資訊。研究目的是評估這些模型在提取病理階段數據的有效性,並考慮在資源有限的情況下使用較小型GLMs的可行性。研究團隊從首爾國立大學醫院收集報告,確定42個關鍵詞進行腫瘤-淋巴結(TN)分類,並與臨床專家建立黃金標準。經過訓練,Deductive Mistral-7B模型在資訊提取上表現最佳,準確率達92.24%,TN分類準確率為0.9876,顯示針對性訓練能提升模型性能,對臨床決策有潛在幫助。 PubMed DOI

這項研究探討了使用GPT-3.5-turbo模型來自動分類胸部CT報告中的肺癌TNM分期,重點在英語和日語報告。研究顯示,英語報告中使用完整TNM定義能達到最高準確性,並分析了T、N、M因素的具體準確性。提供定義顯著提升了每個因素的準確性,但日語報告在N和M分類的準確性較低。這些結果顯示多語言模型在放射學自動化TNM分類的潛力,且即使不額外訓練,提供定義也能改善表現。 PubMed DOI

這項研究評估了NotebookLM這款檢索增強生成大型語言模型(RAG-LLM)在肺癌分期中的有效性。透過整合日本肺癌分期指引的可靠外部知識,NotebookLM在100個虛構案例中達到86%的診斷準確率,表現優於金標準的GPT-4 Omni,後者在提供外部知識時準確率僅39%。NotebookLM在定位參考資料方面也表現出色,準確率高達95%。研究顯示,NotebookLM在臨床影像診斷中具備更高的可靠性與實用性,特別是在放射學領域。 PubMed DOI

這項研究探討微調大型語言模型(LLMs)在自動化肺癌病理TN分期分類的應用,旨在克服傳統自然語言處理方法的缺點。研究比較了六個開源LLM,使用3,216份去識別化的肺癌外科病理報告進行評估。結果顯示,Orca2_13b模型表現最佳,分類準確度達0.934,生成理由的語義匹配率為0.864。這項研究顯示,生成式語言模型能顯著提升癌症分期的自動化,對臨床實踐和腫瘤數據管理有潛在好處。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

從自由文本醫療紀錄中提取結構化數據,特別是病理報告,面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道,能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作,我們將重大錯誤率降至0.99%。在3520份報告中,識別腎腫瘤亞型的F1分數達0.99,顯示LLM提取管道在良好指示下可達接近專家準確性,並可應用於其他臨床信息提取任務。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性,並與美國甲狀腺協會(ATA)及全國綜合癌症網絡(NCCN)的指導方針進行比較。322名放射科醫生參與評估,結果顯示Claude得分最高,其次是ChatGPT和Gemini。雖然不當回應比率相似,但ChatGPT在準確性上表現最佳。質性反饋指出,ChatGPT清晰且結構良好,Gemini則可及性高但內容淺薄,Claude組織性佳但偶爾偏離主題。總體而言,這些模型在輔助風險評估上有潛力,但仍需臨床監督以確保可靠性。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在使用日本FDG-PET報告中的Lugano分類來分類惡性淋巴瘤階段的效果。研究中,GPT-4o的準確率最高,達75%,顯示出顯著一致性。其他模型如Claude 3.5 Sonnet、Gemma 2 27B和Llama 3 70B的準確率分別為61.3%、58.8%和57.5%。整體來看,GPT-4o在解讀臨床文本方面表現最佳,顯示出LLMs在標準化放射學數據的潛力,雖然即時臨床應用仍有限。 PubMed DOI

這項研究探討使用本地部署的大型語言模型(LLM)自動回答醫療問題,特別針對甲狀腺癌的外科病理報告。研究比較了LLM與人類審閱者在提取關鍵資訊的表現。結果顯示,人類審閱者的一致率高達99%,而LLM的平均一致率為89%。在效率方面,LLM回答問題的時間約19.56分鐘,遠低於審閱者的170.7分鐘和115分鐘。研究顯示LLM能有效協助醫療問題回答,並有潛力進一步改善數據提取能力。 PubMed DOI