原始文章

這項研究探討如何透過微調提升開源大型語言模型(LLMs)在醫學證據摘要的表現。雖然專有模型通常更有效,但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集,對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示,微調後這些模型的表現顯著提升,特別是LongT5在零樣本設定中表現接近GPT-3.5,甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現,成為專有模型的可行替代方案。 PubMed DOI


站上相關主題文章列表

LLMs在醫學領域的應用有潛力,但研究指出它們在生成摘要時可能不夠準確,容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠,人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此,在醫療保健領域中,我們應謹慎使用LLMs,不可全然依賴其能力。 PubMed DOI

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

研究發現利用大型語言模型(LLMs)總結電子健康記錄(EHR)有助於減輕臨床文件負擔,提升臨床醫生專注於個性化患者護理。研究指出最佳適應的LLMs在完整性和正確性方面優於人工摘要,但也面臨挑戰,需要進一步改進。 PubMed DOI

研究評估大型語言模型在醫療保健領域的應用,尤其是在辨識轉移性癌症患者方面。比較了GPT-3.5 Turbo、GPT-4、Llama-7B和BERT模型,結果顯示GPT-4表現最佳,提升了提示和推理步驟。建議透過適當的提示工程,GPT-4可取代專門模型,並提供臨床使用的機會。 PubMed DOI

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

臨床敘述的摘要對編碼人員來說非常重要,但臨床文本的複雜性卻帶來挑戰。最近的研究顯示,大型語言模型(LLMs)在摘要臨床文本方面有潛力,特別是在放射學和心臟超音波領域。研究團隊從MIMIC-III資料庫創建了一個數據集,並對兩個開源LLM進行微調,結果發現生物醫學預訓練模型的表現優於一般模型。這顯示針對臨床領域的LLM能成為編碼人員的有用工具,未來應該調整更先進的模型以提升表現。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這項研究比較了OpenAI的GPT-4與幾個開源大型語言模型在從胸部X光報告中提取相關發現的表現。使用了來自ImaGenome和麻省總醫院的數據集。結果顯示,Llama 2-70B在ImaGenome數據集的微F1分數為0.97,而GPT-4為0.98。在機構數據集中,GPT-4的表現也優於其他模型。研究強調了少樣本提示能提升開源模型在醫療報告標註中的潛力。 PubMed DOI

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI