原始文章

大型語言模型(LLMs)大幅提升了臨床自然語言生成(NLG)的能力,為處理醫療文本提供了新方法。不過,將這些模型應用於醫療環境前,必須進行全面評估,以確保其可靠性與有效性。我們的回顧探討了現有NLG在醫療領域的評估指標,並提出一種未來的方法,旨在減少專家評估的限制,平衡資源效率與人類判斷的一致性,確保生成內容符合臨床高標準。 PubMed DOI


站上相關主題文章列表

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

大型語言模型(LLMs)是訓練在大量文本資料上的先進人工智慧模型,目的是模擬人類的表現。在醫療保健領域中,LLMs的應用越來越廣泛,用來回答醫學問題和生成臨床報告等任務。LLM公司與醫療系統的合作將這些模型帶入更貼近真實臨床應用的領域。醫療保健提供者需要了解LLMs的發展、應用以及在醫療環境中可能面臨的挑戰。這篇文章旨在教育醫療專業人士有關醫學中的LLMs,包括了它們在目前景觀中的應用以及未來在醫療領域的改進。 PubMed DOI

NLP中的LLMs是強大模型,能夠理解和生成人類文本。在醫療領域,可應用在聊天機器人、臨床文件和文獻。挑戰在於診斷輔助和患者分流。2023年將釋出針對醫療的LLMs,主要用於聊天機器人。跟進技術發展具有挑戰性,了解應用和限制是討論焦點。本文總結LLMs在醫學上的潛力,探討安全有效的應用。未來可能應用於決策的AI模型和虛擬臨床夥伴。 PubMed DOI

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件,尤其是為CSRs創建安全表摘要。評估顯示性能差異,特別是在事實準確性和寫作風格方面。團隊多使用GPT模型,改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力,強調需優化人類輸入和持續研究。 PubMed DOI

大型語言模型(LLMs)在臨床決策中或許有好處,但目前還不適合實際醫療使用。一項研究指出,LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果,且難以整合到臨床流程中,可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

這項研究強調人類評估在醫療大型語言模型(LLMs)中的重要性,回顧了各醫學專科的評估方法,特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示,現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題,作者提出了QUEST框架,包含規劃、實施與裁定、評分與審查三個階段,並圍繞五個關鍵評估原則,旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域的評估,指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章,資料來自PubMed、Embase和MEDLINE。結果顯示,LLM的評估主要分為測試考試和醫療專業人員的評估,部分研究則結合兩者。大多數評估問題數量不超過100題,且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論,以提升LLM在醫療應用中的表現。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs)在醫療保健中展現出顯著潛力,能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示,LLMs可作為虛擬病人和個性化導師,並在醫學知識評估中超越初級實習生。在臨床決策中,它們協助診斷和治療建議,但效果因專科而異。此外,LLMs能自動化臨床筆記和報告生成,減輕醫療人員的負擔。然而,仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎,並強調倫理與合作。 PubMed DOI