原始文章

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI


站上相關主題文章列表

LLMs在醫學領域的應用有潛力,但研究指出它們在生成摘要時可能不夠準確,容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠,人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此,在醫療保健領域中,我們應謹慎使用LLMs,不可全然依賴其能力。 PubMed DOI

LLMs(如GPT-3.5和ChatGPT)在各種任務上表現逐漸提升,包括醫學證據摘要。然而,自動評量不一定準確,人類評估發現LLMs有時會產生不準確或誤導性的摘要,尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

遠距醫療在 COVID-19 時期大受歡迎,讓人們可以線上看醫生。研究發現大型語言模型如GPT-3對醫療對話摘要有幫助。雖然BART模型表現較佳,但專家更喜歡ChatGPT。GPT-3.5在撰寫易懂醫療摘要方面有潛力,但評估指標或許需調整。 PubMed DOI

研究使用大型語言模型幫助病人提出問題,提升溝通效率。以范德堡大學醫學中心數據測試三個模型,CLAIR在清晰度、完整性和簡潔性表現最佳。GPT4在效用和完整性較高,但清晰度和簡潔性較差。CLAIR生成的問題與醫療者相符,有助改善溝通。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動摘要心理健康諮詢會議的應用,旨在解決手動摘要對諮詢過程的影響。研究人員建立了一個名為「心理健康諮詢-組件引導對話摘要」的數據集,包含191個諮詢會議的摘要。他們評估了11個先進的LLM,結果顯示像MentalLlama、Mistral和MentalBART等模型在摘要生成上表現不錯,特別是Mistral獲得專家高評價。然而,所有模型在機會成本和感知有效性上仍有不足,顯示尚未適合臨床使用,需進一步精煉和驗證。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在協助醫生對放射治療保險拒絕上訴的表現。測試的模型包括GPT-3.5、GPT-4及其具網路搜尋能力的版本。研究使用20個模擬病歷進行評估,結果顯示GPT-3.5、GPT-4和GPT-4web能產生清晰且具臨床相關性的上訴信,對加速上訴過程有幫助。相對而言,經微調的GPT-3.5ft表現較差,且所有模型在引用文獻時均有困難。整體而言,LLMs可減輕醫生的文書負擔,但小型數據集微調可能影響性能。 PubMed DOI