原始文章

最近大型語言模型(LLMs)在自動化健康輔導方面的進展,特別是其零樣本學習能力,提供了重要機會。本研究比較了健康輔導員與RAG啟用的LLaMa-2-7b-chat模型在睡眠問題回答的質量。使用去識別化數據集,100對問答由專家、一般使用者和GPT-4評估,根據準確性、可讀性等五個標準進行評分。結果顯示,LLM的回答在62.25%的評估中被偏好,尤其在有幫助性上更受一般使用者青睞。這顯示LLM在健康輔導中具潛力,建議進一步探索臨床應用。 PubMed DOI


站上相關主題文章列表

病患常覺得實驗室檢驗報告難懂,常上網求助。研究發現,使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果,結果發現Google Bard易讀性高,但適當性稍差;ChatGPT-3.5和ChatGPT-4在適當性表現較好,尤其ChatGPT-4更穩定。這些模型被認為無害,對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力,但仍需改進和考慮道德問題,未來研究應著重於安全整合策略。 PubMed DOI

研究使用大型語言模型幫助病人提出問題,提升溝通效率。以范德堡大學醫學中心數據測試三個模型,CLAIR在清晰度、完整性和簡潔性表現最佳。GPT4在效用和完整性較高,但清晰度和簡潔性較差。CLAIR生成的問題與醫療者相符,有助改善溝通。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

這項研究探討醫學生在與大型語言模型(如ChatGPT)和人類教練互動時,對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生,他們被分配到不同的互動方式,並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素,並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准,預期結果將為人工智慧在醫學診斷中的應用提供重要見解,並將發表於同行評審期刊。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4.0,對於三級醫療機構病人投訴的回應效果。研究比較了ChatGPT與病人關係部門的回應,結果顯示87.2%到97.3%的受訪者更偏好ChatGPT的回應,且其在適當性、同理心等方面得分較高。ChatGPT的回應平均較長,且與高得分有關。研究顯示,ChatGPT能有效提升病人投訴的解決效果,未來可進一步探討AI在醫療系統中的應用潛力。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI