原始文章

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI


站上相關主題文章列表

LLMs在醫學領域的應用有潛力,但研究指出它們在生成摘要時可能不夠準確,容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠,人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此,在醫療保健領域中,我們應謹慎使用LLMs,不可全然依賴其能力。 PubMed DOI

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

研究發現利用大型語言模型(LLMs)總結電子健康記錄(EHR)有助於減輕臨床文件負擔,提升臨床醫生專注於個性化患者護理。研究指出最佳適應的LLMs在完整性和正確性方面優於人工摘要,但也面臨挑戰,需要進一步改進。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究發現大型語言模型(如GPT-3.5和Llama 2)在處理複雜醫學問題時表現出色。透過提示和專家註釋,它們展現出在推理和回憶專業知識方面的潛力。GPT-3.5利用提示技術,在醫學基準測試中表現優異。Llama 2也有競爭力,其中Llama 2 70B 通過了MedQA-USMLE基準測試。 PubMed DOI

文章介紹了一個名為PMC-LLaMA的醫學語言模型,整合了生物醫學論文和醫學教科書。經過微調後,用於醫學問答和推理任務,表現優於其他模型。PMC-LLaMA是一個輕量級模型,有13B個參數,旨在推動醫學語言模型的發展。該研究提供了消融研究和釋出模型、程式碼和資料集供研究使用。 PubMed DOI

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件,尤其是為CSRs創建安全表摘要。評估顯示性能差異,特別是在事實準確性和寫作風格方面。團隊多使用GPT模型,改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力,強調需優化人類輸入和持續研究。 PubMed DOI

研究評估大型語言模型在醫療保健領域的應用,尤其是在辨識轉移性癌症患者方面。比較了GPT-3.5 Turbo、GPT-4、Llama-7B和BERT模型,結果顯示GPT-4表現最佳,提升了提示和推理步驟。建議透過適當的提示工程,GPT-4可取代專門模型,並提供臨床使用的機會。 PubMed DOI

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在臨床筆記段落識別的應用,旨在克服傳統監督方法的限制。研究將段落識別設為問答任務,並評估不同的LLMs,結果顯示GPT-4的F1分數最高,達到0.77,表現優異。最佳的開源模型Tulu2-70b得分為0.64,與GPT-3.5相當。研究指出,雖然微調模型在大數據集上表現穩定,但增加段落識別範例能提升性能。總體而言,LLMs,特別是GPT-4,已接近實際應用於臨床筆記段落識別,並可透過微調進一步改善。 PubMed DOI