原始文章

最近大型語言模型(LLMs)在自動化健康輔導方面的進展,特別是其零樣本學習能力,提供了重要機會。本研究比較了健康輔導員與RAG啟用的LLaMa-2-7b-chat模型在睡眠問題回答的質量。使用去識別化數據集,100對問答由專家、一般使用者和GPT-4評估,根據準確性、可讀性等五個標準進行評分。結果顯示,LLM的回答在62.25%的評估中被偏好,尤其在有幫助性上更受一般使用者青睞。這顯示LLM在健康輔導中具潛力,建議進一步探索臨床應用。 PubMed DOI


站上相關主題文章列表

這項研究探討醫學生在與大型語言模型(如ChatGPT)和人類教練互動時,對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生,他們被分配到不同的互動方式,並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素,並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准,預期結果將為人工智慧在醫學診斷中的應用提供重要見解,並將發表於同行評審期刊。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4.0,對於三級醫療機構病人投訴的回應效果。研究比較了ChatGPT與病人關係部門的回應,結果顯示87.2%到97.3%的受訪者更偏好ChatGPT的回應,且其在適當性、同理心等方面得分較高。ChatGPT的回應平均較長,且與高得分有關。研究顯示,ChatGPT能有效提升病人投訴的解決效果,未來可進一步探討AI在醫療系統中的應用潛力。 PubMed DOI

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI

最近大型語言模型在醫療和製藥領域的進展顯著。本研究評估了六個主要模型在回答患者自我照護問題的表現,重點在準確性和上下文敏感性。結果顯示,這些模型通常能提供準確的健康資訊,但回應存在變異,有些建議可能不安全。影響答案質量的因素包括語言、問題結構和使用者背景。GPT 4.0 獲得最高分,研究強調需謹慎驗證資訊,以降低錯誤風險,並建立基準以改善人工智慧在自我照護中的應用。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在解決基層醫療問題的表現,透過30道相關選擇題進行測試。結果顯示,ChatGPT正確回答了28題,準確率達93.33%。此外,專業人士對其答案的解釋給予高分4.58(滿分5分),顯示其回答有理有據。評估者之間的一致性也很高,內部一致性相關係數為0.94。這些結果顯示,ChatGPT可能成為解決基層醫療挑戰的有力資源,特別是在偏遠地區,並能協助醫學生自主學習。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

糖尿病是全球健康的重要議題,醫療人員對其知識水平參差不齊,顯示出有效訓練的必要性。大型語言模型(LLMs)如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現,結果顯示ChatGPT-4.0在英語考試中通過率達62.50%,在中文考試中也表現優異,準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI