Application of NotebookLM, a large language model with retrieval-augmented generation, for lung cancer staging.
NotebookLM 在肺癌分期中的應用：一種具有檢索增強生成的大型語言模型。 Jpn J Radiol 2024-11-25

這項研究評估了NotebookLM這款檢索增強生成大型語言模型（RAG-LLM）在肺癌分期中的有效性。透過整合日本肺癌分期指引的可靠外部知識，NotebookLM在100個虛構案例中達到86%的診斷準確率，表現優於金標準的GPT-4 Omni，後者在提供外部知識時準確率僅39%。NotebookLM在定位參考資料方面也表現出色，準確率高達95%。研究顯示，NotebookLM在臨床影像診斷中具備更高的可靠性與實用性，特別是在放射學領域。 PubMed DOI

The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

Prompts to Table: Specification and Iterative Refinement for Clinical Information Extraction with Large Language Models.
使用大型語言模型進行臨床信息提取的提示到表格：規範與迭代精煉。 medRxiv 2025-02-24

從自由文本醫療紀錄中提取結構化數據，特別是病理報告，面臨不少挑戰。傳統方法因醫療語言複雜而困難重重。這項研究開發了一個端到端的LLM管道，能有效提取病理報告中的診斷、解剖部位等元素。透過人機協作，我們將重大錯誤率降至0.99%。在3520份報告中，識別腎腫瘤亞型的F1分數達0.99，顯示LLM提取管道在良好指示下可達接近專家準確性，並可應用於其他臨床信息提取任務。 PubMed DOI

Appropriateness of Thyroid Nodule Cancer Risk Assessment and Management Recommendations Provided by Large Language Models.
大型語言模型提供的甲狀腺結節癌風險評估與管理建議的適當性。 J Imaging Inform Med 2025-03-03

這項研究評估了大型語言模型（LLMs）如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性，並與美國甲狀腺協會（ATA）及全國綜合癌症網絡（NCCN）的指導方針進行比較。322名放射科醫生參與評估，結果顯示Claude得分最高，其次是ChatGPT和Gemini。雖然不當回應比率相似，但ChatGPT在準確性上表現最佳。質性反饋指出，ChatGPT清晰且結構良好，Gemini則可及性高但內容淺薄，Claude組織性佳但偶爾偏離主題。總體而言，這些模型在輔助風險評估上有潛力，但仍需臨床監督以確保可靠性。 PubMed DOI

Assessing large language models for Lugano classification of malignant lymphoma in Japanese FDG-PET reports.
評估大型語言模型在日本 FDG-PET 報告中對惡性淋巴瘤的 Lugano 分類的應用。 EJNMMI Rep 2025-03-10

這項研究評估了四種大型語言模型（LLMs）在使用日本FDG-PET報告中的Lugano分類來分類惡性淋巴瘤階段的效果。研究中，GPT-4o的準確率最高，達75%，顯示出顯著一致性。其他模型如Claude 3.5 Sonnet、Gemma 2 27B和Llama 3 70B的準確率分別為61.3%、58.8%和57.5%。整體來看，GPT-4o在解讀臨床文本方面表現最佳，顯示出LLMs在標準化放射學數據的潛力，雖然即時臨床應用仍有限。 PubMed DOI

Large Language Model Applications for Health Information Extraction in Oncology: Scoping Review.
腫瘤學中健康信息提取的大型語言模型應用：範疇回顧。 JMIR Cancer 2025-03-28

這篇回顧探討大型語言模型（LLMs）在腫瘤學中自動提取非結構化臨床文本的應用，強調其在提升癌症研究和病人照護的潛力。回顧分析了自2000年以來的24項研究，發現大多數使用BERT變體，少數使用Chat-GPT。研究顯示，LLMs能有效提取數據，減少醫療人員的手動工作量，並建議可減輕行政負擔，讓醫護人員更專注於病人照護。未來需進一步研究其在臨床實踐中的整合及表現。 PubMed DOI

Using Large Language Models to Automate Data Extraction From Surgical Pathology Reports: Retrospective Cohort Study.
使用大型語言模型自動化外科病理報告中的數據提取：回顧性隊列研究。 JMIR Form Res 2025-04-07

這項研究探討使用本地部署的大型語言模型（LLM）自動回答醫療問題，特別針對甲狀腺癌的外科病理報告。研究比較了LLM與人類審閱者在提取關鍵資訊的表現。結果顯示，人類審閱者的一致率高達99%，而LLM的平均一致率為89%。在效率方面，LLM回答問題的時間約19.56分鐘，遠低於審閱者的170.7分鐘和115分鐘。研究顯示LLM能有效協助醫療問題回答，並有潛力進一步改善數據提取能力。 PubMed DOI

Large Language Models in Breast Cancer Reconstruction: A Framework for Patient-Specific Recovery and Predictive Insights.
乳腺癌重建中的大型語言模型：患者特定恢復和預測洞察的框架。 SLAS Technol 2025-04-11

乳癌重建在癌症治療中扮演重要角色，通常與手術同時進行以促進病人恢復。本研究提出一個新框架，利用自然語言處理（NLP）和大型語言模型（LLMs），增強病人的恢復預測。透過BioBERT進行數據處理，並使用ChatGPT-4和Gemini提供個性化的重建成功率和併發症見解。研究顯示，這些模型的準確率高達98.4%和98.7%，並能有效預測術後情況，提升病人生活品質。這項技術結合了計算與生命科學，為臨床醫生提供強大工具。 PubMed DOI

Large language models for extracting histopathologic diagnoses of colorectal cancer and dysplasia from electronic health records.
運用大型語言模型從電子健康紀錄中擷取大腸直腸癌與異生症的組織病理診斷 medRxiv 2025-05-02

這項研究發現，開源大型語言模型（LLMs）能準確從電子病歷的病理報告中，萃取癌症和異型增生等重要診斷，連複雜案例也適用。只用簡單「是/否」提示，在美國退伍軍人健康管理局資料庫中，診斷準確率超過93%。這方法不但省資源、設定簡單，還能大規模應用，對臨床和研究都很有幫助。 PubMed DOI

A Multimodal Large Language Model as an End-to-End Classifier of Thyroid Nodule Malignancy Risk: Usability Study.
多模態大型語言模型作為甲狀腺結節惡性風險的端對端分類器：可用性研究 JMIR Form Res 2025-08-19

這項研究比較了三種多模態大型語言模型在甲狀腺超音波影像分類的表現，發現商業版 o3 準確度和一致性最好，但還是沒達到臨床標準。雖然加上影像標註和調整提示語有幫助，但提升有限。總結來說，這些 AI 工具還不夠成熟，還需要再改進才能安全用在臨床診斷上。 PubMed DOI

原始文章

站上相關主題文章列表