Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
最近對大型語言模型在放射腫瘤物理學表現的評估，使用隨機打亂選項的問題。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題，測試了五個LLM，包括OpenAI o1-preview和GPT-4o等。結果顯示，所有模型的表現達到專家水準，o1-preview在某些情況下甚至超越醫學物理學家。不過，當正確答案被移除時，模型表現明顯下降，顯示需改進。透過解釋優先和逐步提示的方式，LLaMA 3.1等模型的推理能力有所增強，顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

Large language model-augmented learning for auto-delineation of treatment targets in head-and-neck cancer radiotherapy.
大型語言模型增強學習於頭頸癌放射治療中自動勾畫治療目標的應用。 Radiother Oncol 2025-01-24

放射治療雖然有效，但手動劃定目標常常耗時且不穩定。這項研究介紹了Radformer，一種新型視覺語言模型，結合臨床文本和醫學影像，提升自動化的目標劃定。Radformer使用分層視覺變壓器和大型語言模型，並透過視覺語言注意模組整合信息。在2,985名頭頸癌患者的數據中，Radformer在目標劃定上表現優於現有模型，顯示出顯著的準確性進步，為AI輔助的放射治療計劃自動化鋪平道路。 PubMed DOI

Large language models for pretreatment education in pediatric radiation oncology: A comparative evaluation study.
大型語言模型在小兒放射腫瘤學中的預處理教育：一項比較評估研究。 Clin Transl Radiat Oncol 2025-01-27

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現，GPT-4和放射腫瘤科醫生的回答質量最高，但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本，但常常提供過於簡化的答案。整體來看，GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源，雖然使用GPT-3.5時需謹慎，因為它可能產生不足的回答。 PubMed DOI

Fine-tuning a local LLaMA-3 large language model for automated privacy-preserving physician letter generation in radiation oncology.
在放射腫瘤學中微調本地 LLaMA-3 大型語言模型以自動生成保護隱私的醫生信函。 Front Artif Intell 2025-01-29

這項研究探討大型語言模型（LLMs），特別是LLaMA模型在放射腫瘤學中生成醫師信件的應用，重點在隱私與效率。研究發現，未經微調的LLaMA模型效果不佳，但QLoRA演算法能在有限資源下進行有效微調，使模型學習相關資訊並生成符合機構風格的信件。結果顯示，8B LLaMA-3模型在生成摘要報告上表現優於13B LLaMA-2模型。醫師評估認為，微調後的模型能有效生成信件的基本內容，並在適當審查下具實際臨床價值。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

A feasibility study of automating radiotherapy planning with large language model agents.
利用大型語言模型代理自動化放射治療計劃的可行性研究。 Phys Med Biol 2025-03-12

本研究旨在透過GPT-Plan自動化系統提升放射治療計畫，利用GPT-4大型語言模型優化治療計畫，平衡腫瘤控制與周圍器官保護。研究中，GPT-Plan模擬劑量學家與物理學家的合作，並在12例肺癌及5例子宮頸癌病例中測試其性能。結果顯示，GPT-Plan在肺癌計畫中優於ECHO，且在子宮頸癌計畫中與資深物理學家相當。歷史計畫檢索顯著減少優化次數，顯示LLM驅動的代理在複雜治療決策中的潛力。 PubMed DOI

Large Language Models as Decision-Making Tools in Oncology: Comparing Artificial Intelligence Suggestions and Expert Recommendations.
大型語言模型作為腫瘤學中的決策工具：比較人工智慧建議與專家推薦。 JCO Clin Cancer Inform 2025-03-20

這項研究評估大型語言模型（LLMs）在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄，測試了三個AI模型：Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示，Claude3-Opus準確率86.6%，GPT4-Turbo為85.7%，LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好，但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

Using Large Language Models for Efficient Cancer Registry Coding in the Real Hospital Setting: A Feasibility Study.
在真實醫院環境中運用大型語言模型於癌症登記編碼之可行性研究 Pac Symp Biocomput 2025-04-29

這項研究發現，只要善用提示工程技巧，即使沒特別微調，公開的大型語言模型也能協助癌症登記編碼。結合RAG系統和思路鏈推理後，肺癌個案的編碼準確率大幅提升，顯示LLMs有助於提升登記人員的效率和精確度。 PubMed DOI

Fine-tuning open-source large language models to improve their performance on radiation oncology tasks: A feasibility study to investigate their potential clinical applications in radiation oncology.
微調開源大型語言模型以提升其在放射腫瘤學任務中的表現：探討其於放射腫瘤學臨床應用潛力的可行性研究 Med Phys 2025-07-16

這項研究用7,903筆放射腫瘤科資料微調LLaMA2-7B和Mistral-7B模型，提升它們在治療建議、治療選擇和ICD-10診斷預測三大任務的表現。微調後模型的準確度和臨床相關性都明顯進步，超過六成AI產生的治療方案被醫師認可，顯示未來在臨床應用上很有潛力。 PubMed DOI

原始文章

站上相關主題文章列表