原始文章

這項研究探討了提示的構建對AI聊天機器人在頭頸外科回應質量的影響。由16位研究人員在11個歐洲中心進行,涉及24個問題,分為臨床情境、理論問題和病人詢問。結果顯示,使用結構化提示(SMART格式)生成的回應在質量評估上顯著優於非結構化提示,特別是在臨床情境和病人詢問中。研究強調良好構建提示的重要性,並建議未來可在其他醫學領域進行類似研究。 PubMed DOI


站上相關主題文章列表

研究比較了不同AI聊天機器人在正顎手術中的表現,結果顯示回答品質高、可靠性佳,但易讀性需高學歷。ChatGPT-4有創意,OpenEvidence則回答相似。儘管聊天機器人提供高品質答案,仍建議諮詢專業醫師。 PubMed DOI

生成式AI模型如ChatGPT正在改變醫療保健,透過提示工程提升AI輸出的準確性和倫理標準。這個九階段的過程包括:識別應用、了解利益相關者需求、設計量身定制的提示、迭代測試與改進、倫理考量、協作反饋、文檔記錄、培訓及持續更新。研究強調生成式AI在醫療中的應用,確保AI提示能滿足病人及醫療提供者的需求,促進病人對症狀、治療和預防策略的知情決策。 PubMed DOI

這項研究探討不同提示工程技術對大型語言模型(如ChatGPT3.5和GPT4)在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題,並在獨立問題、優化提示(提示A)及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性,結果顯示兩個模型在各指標上無顯著差異,但提示B的可讀性較高,卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在2021年ASPS整形外科在職考試中的表現,使用了不同的提示和檢索增強生成(RAG)技術。結果顯示,當以「住院醫師」身份回應時,準確率最高為54%,而RAG的使用並未顯著改善表現,準確率僅微幅提升至54.3%。整體而言,ChatGPT的表現位於第10百分位,顯示出需要進一步微調及採用更先進的方法,以提升AI在複雜醫療任務中的有效性。 PubMed DOI

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現,特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異,但在影像問題上則較弱。研究人員設計了四種角色,使用不同提示來評估其對準確性的影響。結果顯示,鼓勵性提示或責任免責聲明能提高準確性,而威脅法律行動的提示則降低準確性,且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性,並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 PubMed DOI

這項研究評估了兩個版本的 ChatGPT—4o 和 4.0—在提供復發性和轉移性頭頸部鱗狀細胞癌 (HNSCC) 治療建議的表現。結果顯示,兩者主要提供手術、緩和醫療或系統性治療的一般建議。ChatGPT 4o 的反應速度比 4.0 快 48.5%。雖然兩者在臨床建議的質量上表現良好,但仍需經驗豐富的醫師進行驗證,因為有時會建議不符合當前指導方針的選項。因此,這些 AI 模型可作為輔助工具,但不應取代臨床判斷。 PubMed DOI

這項研究強調與像 ChatGPT 這樣的聊天機器人互動時,使用描述性、對話式的提示能提升健康資訊的可讀性和理解度,特別是針對脆弱性骨折的資訊。研究發現,簡單語言提示的回應在可讀性和理解度上明顯較高,且更容易讓患者理解。這顯示在創建以患者為中心的健康資訊時,對話式提示能增強理解能力。研究呼籲臨床醫生和內容創作者在使用 AI 工具進行患者教育時,應採用這種方法,以便讓健康資訊更易取得,幫助患者做出明智的健康決策。 PubMed DOI

這項研究指出,像 ChatGPT 這樣的 AI 平台在病人教育,特別是甲狀腺癌管理中越來越重要。研究人員設計了 50 個問題,評估 ChatGPT 的回答在準確性、全面性、人性化、滿意度和可讀性等方面的表現。結果顯示,使用「統計數據和參考文獻」的提示能產生最準確的答案,而「六年級水平」的提示則讓內容更易懂。不過,沒有特定提示的回答通常較複雜。雖然大部分引用自醫學文獻,但仍有少部分錯誤資訊,因此監督 AI 內容的準確性非常重要。 PubMed DOI

這項研究探討了使用關鍵分析過濾器(CAF)系統,來提升一個針對精神分裂症教育的聊天機器人可靠性。考量到患者的認知挑戰,研究團隊整合了大型語言模型(LLMs),如GPT-4,來改善教育效果。為了解決LLMs的不穩定性,研究人員開發了一個聊天機器人,能夠訪問專為患者和照顧者設計的手冊,並透過CAF進行回應的批判性評估。結果顯示,啟用CAF後,67%的回應符合標準,顯示CAF能有效提升心理健康教育的安全性與有效性。 PubMed DOI

這項研究評估了基於人工智慧的聊天機器人,特別是ChatGPT 3.5和Claude-instant,在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題,並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示,ChatGPT和Claude-instant都提供高質量的回應,ChatGPT的質量評分分別為86%和79.6%,而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步,可能提升醫療效率並降低成本。 PubMed DOI