原始文章

這項研究探討了使用關鍵分析過濾器(CAF)系統,來提升一個針對精神分裂症教育的聊天機器人可靠性。考量到患者的認知挑戰,研究團隊整合了大型語言模型(LLMs),如GPT-4,來改善教育效果。為了解決LLMs的不穩定性,研究人員開發了一個聊天機器人,能夠訪問專為患者和照顧者設計的手冊,並透過CAF進行回應的批判性評估。結果顯示,啟用CAF後,67%的回應符合標準,顯示CAF能有效提升心理健康教育的安全性與有效性。 PubMed DOI


站上相關主題文章列表

研究使用ChatGPT協助輔導員與患者互動,並比較其回應與人類內容。整合AI技術改善心理健康干預,框架準確率達93.76%,ChatGPT回應有禮且簡潔。AI內容可增進傳統干預方法,提升醫療系統患者照護和輔導實踐。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究探討了提示工程對大型語言模型(LLM),特別是GPT-4,在醫療提供者回應病人詢問時的影響。研究持續8個月,參與者有27位醫療提供者,主要評估LLM生成訊息的使用情況及提供者的情感變化。 結果顯示,7605條訊息中僅17.5%被使用,負面情感顯著減少,但整體使用量卻下降。隨著護士的加入,使用量提升至35.8%。雖然提示工程改善了內容質量,但整合LLM進工作流程仍面臨挑戰,未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

生成式AI模型如ChatGPT正在改變醫療保健,透過提示工程提升AI輸出的準確性和倫理標準。這個九階段的過程包括:識別應用、了解利益相關者需求、設計量身定制的提示、迭代測試與改進、倫理考量、協作反饋、文檔記錄、培訓及持續更新。研究強調生成式AI在醫療中的應用,確保AI提示能滿足病人及醫療提供者的需求,促進病人對症狀、治療和預防策略的知情決策。 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現,特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異,但在影像問題上則較弱。研究人員設計了四種角色,使用不同提示來評估其對準確性的影響。結果顯示,鼓勵性提示或責任免責聲明能提高準確性,而威脅法律行動的提示則降低準確性,且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性,並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 PubMed DOI

這項研究探討了生成式人工智慧,特別是ChatGPT-3.5和ChatGPT-4,如何在管理和解釋Sour Seven Questionnaire工具中評估譫妄。目的是評估AI在臨床環境中模仿人類評估者的能力,並透過提示工程增強模型的理解。結果顯示,經過調整後,兩個ChatGPT模型在識別和評分譫妄症狀上有所改善,顯示AI在標準化臨床評估中的潛力,但仍需進一步研究以驗證其在現實情境中的應用。 PubMed DOI

這項研究探討了人工智慧在敘事人格評估中的潛力,特別是使用社會認知與物件關係量表 - 總體評分法(SCORS-G)。研究發現,透過精煉的提示,AI聊天機器人能更準確地評估敘事,尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說,這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔,並提出未來研究的方向。 PubMed DOI

大型語言模型(LLMs)在醫學知識的教育、訓練和治療上有顯著進展,但早期研究顯示其不穩定性和潛在的有害輸出。為了解決這些問題,我們提出了一個經過驗證的數據集來訓練LLMs,並設計了一個演員-評論者的提示協議。在這個框架中,治療師生成初步回應,然後由監督者進行精煉。盲驗證研究顯示,LLM的評分常高於適當的治療師回應,顯示其符合專家標準,為安全整合LLM技術於醫療應用提供了基礎。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試,但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現,結果顯示其正確率僅31%,且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確,但整體表現未達及格標準。研究強調了LLMs的局限性,並呼籲需建立更全面的自我診斷數據集,以提升其在醫療中的可靠性。 PubMed DOI