原始文章

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI


站上相關主題文章列表

研究比較三款大型語言模型在乳癌臨床上的表現,結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳,勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋,在各臨床領域表現優異,尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力,特別是GPT-4.0,在乳癌臨床應用上的重要性,並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

研究比較五種大型語言模型對乳腺癌治療建議的一致性,發現GPT4與腫瘤委員會最符合,其次是GPT3.5、Llama2和Bard。GPT4在放射治療方面表現一致,但在基因檢測建議上有差異。研究指出,大型語言模型應用於臨床前,仍需進一步技術和方法改進。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示,這兩個模型對於一些常見問題的回答大多準確,如子宮頸癌篩檢和 BRCA 相關問題。然而,面對更複雜的案例時,它們的表現較差,常缺乏對地區指導方針的了解。儘管如此,這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出,LLMs 雖無法取代專業醫療建議,但可作為輔助工具,提供資訊和支持。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜婦科癌症案例中的表現,主要針對三個模型:ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例,六位專家根據多項指標評估模型的回應。結果顯示,Gemini Advanced的準確率最高,達81.87%,而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好,但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出,這些模型在婦科腫瘤學的臨床應用中有潛力,但仍需進一步精煉和評估。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

多學科團隊(MDTs)在癌症護理中非常重要,但需要專家投入大量時間,導致醫療成本上升。最近大型語言模型(LLMs)的進展,可能提升臨床決策的效率,並降低MDT的相關成本。 一項針對171名新診斷前列腺癌患者的研究比較了兩個LLMs(chatGPT-4和Claude-3-Opus)與MDT會議的建議。結果顯示,LLMs的遵循率高達93%。不一致的情況主要因為臨床資訊不足。研究顯示,LLMs能生成準確的治療建議,未來有潛力簡化MDT流程,讓專家專注於更複雜的案例,並降低醫療成本。 PubMed DOI

多學科腫瘤委員會(MTBs)在癌症治療決策中扮演重要角色,但常面臨案例過載,影響決策品質。臨床決策支持系統(CDSSs)雖已引入協助醫師,但使用仍有限。大型語言模型(LLMs)如ChatGPT的出現,為提升CDSS的效率提供新機會。 OncoDoc2專注於乳腺癌管理,研究探討LLMs如何透過提示工程技術(PETs)改善其可用性。使用200個乳腺癌患者摘要進行評估,結果顯示最佳方法結合Mistral和OpenChat模型,達到不錯的準確率,但與金標準建議的匹配度仍低,顯示LLMs在醫療決策中仍需進一步發展。 PubMed DOI

本研究探討大型語言模型(LLMs)在膀胱癌管理中的表現。研究設計了100個臨床問題,評估六種LLMs的回應準確性。結果顯示,Claude-3.5-Sonnet以89.33%準確率最佳,ChatGPT-4為85.67%。GPT-3.5-Turbo經過兩階段訓練後,準確率從74.33%提升至100%。研究顯示,針對性訓練能顯著改善模型表現,並指出策略性改進可克服專業醫學應用中的限制。 PubMed DOI