原始文章

最近大型語言模型(LLMs)在自動化健康輔導方面的進展,特別是其零樣本學習能力,提供了重要機會。本研究比較了健康輔導員與RAG啟用的LLaMa-2-7b-chat模型在睡眠問題回答的質量。使用去識別化數據集,100對問答由專家、一般使用者和GPT-4評估,根據準確性、可讀性等五個標準進行評分。結果顯示,LLM的回答在62.25%的評估中被偏好,尤其在有幫助性上更受一般使用者青睞。這顯示LLM在健康輔導中具潛力,建議進一步探索臨床應用。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討生成式人工智慧,特別是大型語言模型(LLMs)在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應,並使用PubMedQA和QuoraQA數據集,結果顯示最新的模型,尤其是GPT-3.5和Llama2,在生成醫療回應方面表現優異。研究指出,升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識,目的是提升AI驅動的醫療諮詢系統,特別是在心理健康領域的應用。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

糖尿病是全球健康的重要議題,醫療人員對其知識水平參差不齊,顯示出有效訓練的必要性。大型語言模型(LLMs)如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現,結果顯示ChatGPT-4.0在英語考試中通過率達62.50%,在中文考試中也表現優異,準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLM)聊天機器人,包括Google、Bard、GPT-3.5和GPT-4,對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示,GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google,但後者的回應更易讀。整體來看,這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息,適合用於病人教育。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

慢性病是全球主要死因,LLMs(像ChatGPT)在管理慢性病上有潛力,能提供準確、易懂的健康建議,幫助病人自我管理和獲得支持。專業型LLMs表現更好,但目前證據有限,還有隱私、語言和診斷等挑戰。臨床應用還在初期,未來需加強資料安全、專業化和與穿戴裝置整合。 PubMed DOI