原始文章

這項研究探討大型語言模型(LLMs)在臨床筆記段落識別的應用,旨在克服傳統監督方法的限制。研究將段落識別設為問答任務,並評估不同的LLMs,結果顯示GPT-4的F1分數最高,達到0.77,表現優異。最佳的開源模型Tulu2-70b得分為0.64,與GPT-3.5相當。研究指出,雖然微調模型在大數據集上表現穩定,但增加段落識別範例能提升性能。總體而言,LLMs,特別是GPT-4,已接近實際應用於臨床筆記段落識別,並可透過微調進一步改善。 PubMed DOI


站上相關主題文章列表

研究發現利用大型語言模型(LLMs)總結電子健康記錄(EHR)有助於減輕臨床文件負擔,提升臨床醫生專注於個性化患者護理。研究指出最佳適應的LLMs在完整性和正確性方面優於人工摘要,但也面臨挑戰,需要進一步改進。 PubMed DOI

研究指出,GPT-3.5和GPT-4處理臨床數據時,只需少量訓練數據即可提取有價值資訊。透過改進提示策略,可增進模型在臨床命名實體識別任務表現,減少大量標註數據需求。雖GPT模型在臨床應用有潛力,仍需進一步改進。研究結果凸顯了量身定制的提示框架重要性,以提高大型語言模型在臨床環境性能。 PubMed DOI

研究發現,大型語言模型在醫療保健領域有潛力,尤其在識別轉移性癌症患者方面。GPT-4表現最佳,提示和推理步驟清晰簡潔效果更好。即使改變輸入標記,GPT-4仍保持高準確性。建議透過策略性提示設計,GPT-4或許可取代專門模型,提升醫療應用。 PubMed DOI

研究比較了GPT-4等大型語言模型和傳統監督式模型在臨床註記中提取資訊的表現。結果顯示,對於標籤不平衡的任務,大型語言模型可能比監督式模型更有效。雖然大型語言模型減少了標註數據的需求,但監督式模型搭配詳細標註仍能提供相當結果。使用大型語言模型可加速臨床自然語言處理研究,減少對精心策劃數據集的需求,潛在增進臨床研究中自然語言處理變數的應用。 PubMed DOI

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究評估大型語言模型在醫療保健領域的應用,尤其是在辨識轉移性癌症患者方面。比較了GPT-3.5 Turbo、GPT-4、Llama-7B和BERT模型,結果顯示GPT-4表現最佳,提升了提示和推理步驟。建議透過適當的提示工程,GPT-4可取代專門模型,並提供臨床使用的機會。 PubMed DOI

研究比較了GPT-4與傳統監督式模型在臨床註記中提取資訊的表現,結果顯示GPT-4在乳癌病理報告分類上表現優異,甚至超越其他LLMs和監督式模型。GPT-4的零-shot分類能力對標籤不平衡的任務特別有效。雖然LLMs減少了標註需求,但簡單模型配合大量標註資料也能達到相當效果。GPT-4有潛力加速臨床自然語言處理研究,減少標註需求,促進臨床研究中使用自然語言處理變數。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI