原始文章

這項研究探討大型語言模型(LLMs)在分子腫瘤委員會(MTBs)中為癌症患者提供治療建議的應用。研究發現,LLM引用的75%文獻正確來自PubMed,但有17%是錯誤或虛構的。臨床醫生的查詢準確性較高,LLM的25%回應與醫生建議一致,37.5%則提供合理替代方案。雖然LLM能提升MTB會議效率,但仍需醫生的監督以減少錯誤。未來需進一步研究以增強其可靠性。 PubMed DOI


站上相關主題文章列表

研究比較五種大型語言模型對乳腺癌治療建議的一致性,發現GPT4與腫瘤委員會最符合,其次是GPT3.5、Llama2和Bard。GPT4在放射治療方面表現一致,但在基因檢測建議上有差異。研究指出,大型語言模型應用於臨床前,仍需進一步技術和方法改進。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

現代的生成式人工智慧技術,如檢索增強生成(RAG),能顯著提升癌症治療的討論效果。專家通常需花費大量時間審查文獻以尋找證據和建議,但透過RAG流程,這個過程變得更簡單。該流程從可信來源(如OncoKB)檢索相關文本,並提供給大型語言模型(LLM),無需微調。研究顯示,透過向Llama 2模型提出簡單問題,能重現超過80%的治療關係,顯示出減少文獻審查勞動量的潛力,並提升討論效率。 PubMed DOI

多學科腫瘤委員會由各類醫療專家組成,對癌症患者的治療計畫至關重要,雖然面臨物流和財務挑戰,但仍能顯著提升生存率。本研究評估大型語言模型在頭頸部腫瘤委員會的推薦程序有效性,使用參數高效微調和上下文學習等方法。結果顯示,治療方案一致性達86%,醫學上可辯護的建議達98%。參數高效微調表現優於上下文學習,且較大商業模型通常效果更佳。建議增強數據集並納入更新指導方針,以提升模型在醫療決策中的準確性,值得進一步研究。 PubMed DOI

這項研究介紹了MEREDITH,一個專為腫瘤科醫生設計的大型語言模型(LLM),幫助提供癌症治療建議。MEREDITH基於Google的Gemini Pro,運用檢索增強生成和思考鏈技術,並以德國癌症中心的虛構腫瘤案例進行評估。它的建議種類比專家多,符合率達94.7%。研究顯示,專家反饋和特定數據能顯著提升LLM的表現,未來可探討其在臨床工作中的應用。 PubMed DOI

多學科團隊(MDTs)在癌症護理中非常重要,但需要專家投入大量時間,導致醫療成本上升。最近大型語言模型(LLMs)的進展,可能提升臨床決策的效率,並降低MDT的相關成本。 一項針對171名新診斷前列腺癌患者的研究比較了兩個LLMs(chatGPT-4和Claude-3-Opus)與MDT會議的建議。結果顯示,LLMs的遵循率高達93%。不一致的情況主要因為臨床資訊不足。研究顯示,LLMs能生成準確的治療建議,未來有潛力簡化MDT流程,讓專家專注於更複雜的案例,並降低醫療成本。 PubMed DOI

檢索增強生成(RAG)透過整合最新數據,提升大型語言模型(LLMs)的準確性與上下文意識。這方法將文本轉為數值嵌入,幫助檢索與使用者查詢相關的數據片段,讓模型的回答更具時效性。在腫瘤學中,RAG能改善治療建議、增強臨床試驗匹配,並加速藥物開發。不過,RAG的效果取決於數據質量,偏見或不完整的信息可能導致錯誤結果,因此需謹慎實施並加強人類監督。 PubMed DOI

這篇文章探討了一項研究,分析檢索增強生成(RAG)如何提升大型語言模型(LLMs)在放射學的表現。RAG 讓 LLMs 能夠即時訪問更新的知識庫,無需微調即可生成準確答案。研究中使用了來自 *RadioGraphics* 的 3,689 篇文章作為數據庫,並評估了五種 LLMs 在192道放射學考題中的表現。結果顯示,RAG 顯著提升了 GPT-4 和 Command R+ 的得分,特別是在與 *RadioGraphics* 相關的問題上,成功檢索並引用了相關資料。整體而言,RAG 在放射學任務中展現了提升 LLM 能力的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI