原始文章

這項研究建立了一個命名實體(NE)框架,從癌症基因組圖譜-甲狀腺癌(TCGA-THCA)數據庫的臨床筆記中提取資訊,專注於良性分化甲狀腺癌患者的AJCC分期和ATA風險類別。框架包含標註指導方針、數據標記、提示策略及評估代碼。我們測試了四個大型語言模型,並將其輸出與專家數據比較。基於50份病理筆記建立的框架,經289份筆記和35個偽臨床案例驗證,成功提高了分期和風險分類的效率與準確性。 PubMed DOI


站上相關主題文章列表

這項研究評估了NotebookLM這款檢索增強生成大型語言模型(RAG-LLM)在肺癌分期中的有效性。透過整合日本肺癌分期指引的可靠外部知識,NotebookLM在100個虛構案例中達到86%的診斷準確率,表現優於金標準的GPT-4 Omni,後者在提供外部知識時準確率僅39%。NotebookLM在定位參考資料方面也表現出色,準確率高達95%。研究顯示,NotebookLM在臨床影像診斷中具備更高的可靠性與實用性,特別是在放射學領域。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

從自由文本醫療紀錄中提取結構化數據,特別是病理報告,面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道,能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作,我們將重大錯誤率降至0.99%。在3520份報告中,識別腎腫瘤亞型的F1分數達0.99,顯示LLM提取管道在良好指示下可達接近專家準確性,並可應用於其他臨床信息提取任務。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性,並與美國甲狀腺協會(ATA)及全國綜合癌症網絡(NCCN)的指導方針進行比較。322名放射科醫生參與評估,結果顯示Claude得分最高,其次是ChatGPT和Gemini。雖然不當回應比率相似,但ChatGPT在準確性上表現最佳。質性反饋指出,ChatGPT清晰且結構良好,Gemini則可及性高但內容淺薄,Claude組織性佳但偶爾偏離主題。總體而言,這些模型在輔助風險評估上有潛力,但仍需臨床監督以確保可靠性。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在使用日本FDG-PET報告中的Lugano分類來分類惡性淋巴瘤階段的效果。研究中,GPT-4o的準確率最高,達75%,顯示出顯著一致性。其他模型如Claude 3.5 Sonnet、Gemma 2 27B和Llama 3 70B的準確率分別為61.3%、58.8%和57.5%。整體來看,GPT-4o在解讀臨床文本方面表現最佳,顯示出LLMs在標準化放射學數據的潛力,雖然即時臨床應用仍有限。 PubMed DOI

這篇回顧探討大型語言模型(LLMs)在腫瘤學中自動提取非結構化臨床文本的應用,強調其在提升癌症研究和病人照護的潛力。回顧分析了自2000年以來的24項研究,發現大多數使用BERT變體,少數使用Chat-GPT。研究顯示,LLMs能有效提取數據,減少醫療人員的手動工作量,並建議可減輕行政負擔,讓醫護人員更專注於病人照護。未來需進一步研究其在臨床實踐中的整合及表現。 PubMed DOI

這項研究探討使用本地部署的大型語言模型(LLM)自動回答醫療問題,特別針對甲狀腺癌的外科病理報告。研究比較了LLM與人類審閱者在提取關鍵資訊的表現。結果顯示,人類審閱者的一致率高達99%,而LLM的平均一致率為89%。在效率方面,LLM回答問題的時間約19.56分鐘,遠低於審閱者的170.7分鐘和115分鐘。研究顯示LLM能有效協助醫療問題回答,並有潛力進一步改善數據提取能力。 PubMed DOI

乳癌重建在癌症治療中扮演重要角色,通常與手術同時進行以促進病人恢復。本研究提出一個新框架,利用自然語言處理(NLP)和大型語言模型(LLMs),增強病人的恢復預測。透過BioBERT進行數據處理,並使用ChatGPT-4和Gemini提供個性化的重建成功率和併發症見解。研究顯示,這些模型的準確率高達98.4%和98.7%,並能有效預測術後情況,提升病人生活品質。這項技術結合了計算與生命科學,為臨床醫生提供強大工具。 PubMed DOI

這項研究發現,開源大型語言模型(LLMs)能準確從電子病歷的病理報告中,萃取癌症和異型增生等重要診斷,連複雜案例也適用。只用簡單「是/否」提示,在美國退伍軍人健康管理局資料庫中,診斷準確率超過93%。這方法不但省資源、設定簡單,還能大規模應用,對臨床和研究都很有幫助。 PubMed DOI

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現,發現商業版 o3 準確度和一致性最好,但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助,但提升有限。總結來說,這些 AI 工具還不夠成熟,還需要再改進才能安全用在臨床診斷上。 PubMed DOI