Leveraging ChatGPT to optimize depression intervention through explainable deep learning.
利用 ChatGPT 通過可解釋的深度學習來優化抑鬱症干預。 Front Psychiatry 2024-06-21

研究使用ChatGPT協助輔導員與患者互動，並比較其回應與人類內容。整合AI技術改善心理健康干預，框架準確率達93.76%，ChatGPT回應有禮且簡潔。AI內容可增進傳統干預方法，提升醫療系統患者照護和輔導實踐。 PubMed DOI

Prompt engineering on leveraging large language models in generating response to InBasket messages.
利用大型語言模型生成 InBasket 訊息回應的提示工程。 J Am Med Inform Assoc 2024-07-19

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程，優化提示，提升回應質量。經過三次迭代後，臨床醫師對草擬回應的接受度從62%提升至84%，且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳，76%的病人無法分辨人類與LLM生成的回應。研究顯示，根據醫師和病人的反饋來精煉提示，能有效生成有用的醫療建議。 PubMed DOI

Prompt engineering with a large language model to assist providers in responding to patient inquiries: a real-time implementation in the electronic health record.
利用大型語言模型進行提示工程，以協助醫療提供者回應病人詢問：在電子健康紀錄中的即時實施。 JAMIA Open 2024-08-21

這項研究探討了提示工程對大型語言模型（LLM），特別是GPT-4，在醫療提供者回應病人詢問時的影響。研究持續8個月，參與者有27位醫療提供者，主要評估LLM生成訊息的使用情況及提供者的情感變化。結果顯示，7605條訊息中僅17.5%被使用，負面情感顯著減少，但整體使用量卻下降。隨著護士的加入，使用量提升至35.8%。雖然提示工程改善了內容質量，但整合LLM進工作流程仍面臨挑戰，未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

A Road Map of Prompt Engineering for ChatGPT in Healthcare: A Perspective Study.
ChatGPT 在醫療領域的即時工程路線圖：一項觀點研究。 Stud Health Technol Inform 2024-08-23

生成式AI模型如ChatGPT正在改變醫療保健，透過提示工程提升AI輸出的準確性和倫理標準。這個九階段的過程包括：識別應用、了解利益相關者需求、設計量身定制的提示、迭代測試與改進、倫理考量、協作反饋、文檔記錄、培訓及持續更新。研究強調生成式AI在醫療中的應用，確保AI提示能滿足病人及醫療提供者的需求，促進病人對症狀、治療和預防策略的知情決策。 PubMed DOI

Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases.
使用 ChatGPT3.5 和 GPT4 進行提示工程，以改善對視網膜疾病的患者教育。 Can J Ophthalmol 2024-09-08

這項研究探討不同提示工程技術對大型語言模型（如ChatGPT3.5和GPT4）在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題，並在獨立問題、優化提示（提示A）及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性，結果顯示兩個模型在各指標上無顯著差異，但提示B的可讀性較高，卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

Encouragement vs. liability: How prompt engineering influences ChatGPT-4's radiology exam performance.
鼓勵與責任：提示工程如何影響 ChatGPT-4 的放射科考試表現。 Clin Imaging 2024-09-17

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現，特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異，但在影像問題上則較弱。研究人員設計了四種角色，使用不同提示來評估其對準確性的影響。結果顯示，鼓勵性提示或責任免責聲明能提高準確性，而威脅法律行動的提示則降低準確性，且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性，並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 PubMed DOI

Optimizing ChatGPT's Interpretation and Reporting of Delirium Assessment Outcomes: Exploratory Study.
優化 ChatGPT 對譫妄評估結果的解讀與報告：探索性研究。 JMIR Form Res 2024-10-01

這項研究探討了生成式人工智慧，特別是ChatGPT-3.5和ChatGPT-4，如何在管理和解釋Sour Seven Questionnaire工具中評估譫妄。目的是評估AI在臨床環境中模仿人類評估者的能力，並透過提示工程增強模型的理解。結果顯示，經過調整後，兩個ChatGPT模型在識別和評分譫妄症狀上有所改善，顯示AI在標準化臨床評估中的潛力，但仍需進一步研究以驗證其在現實情境中的應用。 PubMed DOI

From Llama to language: prompt-engineering allows general-purpose artificial intelligence to rate narratives like expert psychologists.
從 Llama 到語言：提示工程使通用人工智慧能夠像專家心理學家一樣評估敘事。 Front Artif Intell 2025-02-21

這項研究探討了人工智慧在敘事人格評估中的潛力，特別是使用社會認知與物件關係量表 - 總體評分法（SCORS-G）。研究發現，透過精煉的提示，AI聊天機器人能更準確地評估敘事，尤其在總體層面上表現良好。專家們改進的提示在評估者間的可靠性和與既定評分的一致性上優於基本提示。總體來說，這顯示AI能有效減輕臨床醫生和研究人員在使用SCORS-G時的時間和資源負擔，並提出未來研究的方向。 PubMed DOI

An active inference strategy for prompting reliable responses from large language models in medical practice.
在醫學實踐中促使大型語言模型產生可靠回應的主動推理策略。 NPJ Digit Med 2025-02-22

大型語言模型（LLMs）在醫學知識的教育、訓練和治療上有顯著進展，但早期研究顯示其不穩定性和潛在的有害輸出。為了解決這些問題，我們提出了一個經過驗證的數據集來訓練LLMs，並設計了一個演員-評論者的提示協議。在這個框架中，治療師生成初步回應，然後由監督者進行精煉。盲驗證研究顯示，LLM的評分常高於適當的治療師回應，顯示其符合專家標準，為安全整合LLM技術於醫療應用提供了基礎。 PubMed DOI

Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models.
AI輔助自我診斷中的醫療錯誤資訊：分析大型語言模型的方法（EvalPrompt）的開發。 JMIR Form Res 2025-03-10

大型語言模型（LLMs）如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試，但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現，結果顯示其正確率僅31%，且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確，但整體表現未達及格標準。研究強調了LLMs的局限性，並呼籲需建立更全面的自我診斷數據集，以提升其在醫療中的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表