原始文章

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI


站上相關主題文章列表

LLMs在醫學領域的應用有潛力,但研究指出它們在生成摘要時可能不夠準確,容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠,人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此,在醫療保健領域中,我們應謹慎使用LLMs,不可全然依賴其能力。 PubMed DOI

GPT-4被用於病例報告的診斷挑戰,但僅在少數病例中表現良好。為了保護隱私,測試了提取術語生成提示的方法。結果顯示從結構化數據創建的提示效果更差,不同版本的GPT-4表現也不同。這凸顯了在臨床診斷中使用GPT-4的限制,強調了需要研究如何從臨床數據中創建有效提示。 PubMed DOI

這篇文章討論了如何巧妙運用大型語言模型(LLMs)來評估研究質量和偏見風險,取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估,但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估,或許是最佳的證據綜合方式。 PubMed DOI

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

研究比較了GPT-4等大型語言模型和傳統監督式模型在臨床註記中提取資訊的表現。結果顯示,對於標籤不平衡的任務,大型語言模型可能比監督式模型更有效。雖然大型語言模型減少了標註數據的需求,但監督式模型搭配詳細標註仍能提供相當結果。使用大型語言模型可加速臨床自然語言處理研究,減少對精心策劃數據集的需求,潛在增進臨床研究中自然語言處理變數的應用。 PubMed DOI

研究探討利用語言模型強化電子健康記錄的風險預測。提出兩種新方法「LLaMA2-EHR」和「Sent-e-Med」,利用病歷文本預測診斷結果,表現優於先前方法,特點是少量樣本學習和適應醫學詞彙。但結果受提示影響,語言模型安全問題尚待解決,建議謹慎使用。 PubMed DOI

這項研究探討使用大型語言模型(LLMs)來評估隨機臨床試驗(RCTs)中的偏見風險。兩個LLMs在30個RCTs上進行測試,顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率,顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件,尤其是為CSRs創建安全表摘要。評估顯示性能差異,特別是在事實準確性和寫作風格方面。團隊多使用GPT模型,改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力,強調需優化人類輸入和持續研究。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究系統性回顧了生成性大型語言模型(LLMs)在臨床環境,特別是電子健康紀錄(EHRs)的應用。儘管自然語言處理技術進步,LLMs在臨床實踐中的整合仍有限,面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻,發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性,以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估,以提升LLMs在醫療中的可靠性。總之,LLMs在病人護理上有潛力,但仍需克服重大障礙。 PubMed DOI