Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models.
大型語言模型的即時互動和視覺提示工程，用於即時任務適應。 IEEE Trans Vis Comput Graph 2023-04-05

神經語言模型現在能處理各種語言任務，不需特定訓練，全靠零提示技術。研究者展示了對不同任務的有效提示。但找到正確提示需試錯，因提示結構影響結果。PromptIDE讓用戶試不同提示，逐步改進。這工具從小數據反饋開始，驗證有效提示，用戶可輕鬆部署。真實案例證明了PromptIDE和工作流程的有效性。 PubMed DOI

Evaluating Large Language Models on Medical Evidence Summarization.
評估大型語言模型在醫學證據摘要上的表現。 medRxiv 2023-09-04

LLMs在醫學領域的應用有潛力，但研究指出它們在生成摘要時可能不夠準確，容易出現錯誤或誤導性資訊。自動評估工具並不完全可靠，人工評估顯示在長篇文章中尤其難以辨識關鍵訊息。因此，在醫療保健領域中，我們應謹慎使用LLMs，不可全然依賴其能力。 PubMed DOI

Evaluating large language models on medical evidence summarization.
評估大型語言模型在醫學證據摘要上的表現。 NPJ Digit Med 2024-04-02

LLMs（如GPT-3.5和ChatGPT）在各種任務上表現逐漸提升，包括醫學證據摘要。然而，自動評量不一定準確，人類評估發現LLMs有時會產生不準確或誤導性的摘要，尤其在醫學領域。這些模型在識別關鍵信息和處理長文本時仍有改進空間。 PubMed DOI

Improving the use of LLMs in radiology through prompt engineering: from precision prompts to zero-shot learning.
從精確提示到零樣本學習：通過及時工程改進放射學中 LLMs 的應用。 Rofo 2024-02-26

大型語言模型如ChatGPT在放射學領域有潛力，但成效需靠即時工程處理。不同提示策略可客製化模型回應，無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中，提示工程對LLMs利用至關重要，隨模型演進，零樣本學習等方法愈見重要。 PubMed DOI

Exploring the potential of ChatGPT in medical dialogue summarization: a study on consistency with human preferences.
探索 ChatGPT 在醫學對話摘要中的潛力：與人類偏好一致性的研究。 BMC Med Inform Decis Mak 2024-03-18

遠距醫療在 COVID-19 時期大受歡迎，讓人們可以線上看醫生。研究發現大型語言模型如GPT-3對醫療對話摘要有幫助。雖然BART模型表現較佳，但專家更喜歡ChatGPT。GPT-3.5在撰寫易懂醫療摘要方面有潛力，但評估指標或許需調整。 PubMed DOI

An Empirical Evaluation of Prompting Strategies for Large Language Models in Zero-Shot Clinical Natural Language Processing: Algorithm Development and Validation Study.
大型語言模型在零-shot臨床自然語言處理中提示策略的實證評估：演算法開發和驗證研究。 JMIR Med Inform 2024-04-08

LLMs在臨床應用上很強大，但缺乏標記數據。為了掌握臨床知識，需要進行上下文學習。研究評估了零-shot和少-shot臨床信息提取的提示工程技術。結果顯示，定制任務特定提示至關重要，而啟發式和集成提示也很有效。GPT-3.5表現最佳，並且集成方法有助於提升性能。這項研究為臨床自然語言處理的提示工程提供了重要的指導。 PubMed DOI

Using large language models for safety-related table summarization in clinical study reports.
使用大型語言模型進行臨床研究報告中與安全相關的表格摘要。 JAMIA Open 2024-05-31

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件，尤其是為CSRs創建安全表摘要。評估顯示性能差異，特別是在事實準確性和寫作風格方面。團隊多使用GPT模型，改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力，強調需優化人類輸入和持續研究。 PubMed DOI

Prompt engineering on leveraging large language models in generating response to InBasket messages.
利用大型語言模型生成 InBasket 訊息回應的提示工程。 J Am Med Inform Assoc 2024-07-19

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程，優化提示，提升回應質量。經過三次迭代後，臨床醫師對草擬回應的接受度從62%提升至84%，且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳，76%的病人無法分辨人類與LLM生成的回應。研究顯示，根據醫師和病人的反饋來精煉提示，能有效生成有用的醫療建議。 PubMed DOI

Exploring the Efficacy of Large Language Models in Summarizing Mental Health Counseling Sessions: Benchmark Study.
探索大型語言模型在總結心理健康諮詢會議中的有效性：基準研究。 JMIR Ment Health 2024-07-23

這項研究探討大型語言模型（LLMs）在自動摘要心理健康諮詢會議的應用，旨在解決手動摘要對諮詢過程的影響。研究人員建立了一個名為「心理健康諮詢-組件引導對話摘要」的數據集，包含191個諮詢會議的摘要。他們評估了11個先進的LLM，結果顯示像MentalLlama、Mistral和MentalBART等模型在摘要生成上表現不錯，特別是Mistral獲得專家高評價。然而，所有模型在機會成本和感知有效性上仍有不足，顯示尚未適合臨床使用，需進一步精煉和驗證。 PubMed DOI

Prompt engineering with a large language model to assist providers in responding to patient inquiries: a real-time implementation in the electronic health record.
利用大型語言模型進行提示工程，以協助醫療提供者回應病人詢問：在電子健康紀錄中的即時實施。 JAMIA Open 2024-08-21

這項研究探討了提示工程對大型語言模型（LLM），特別是GPT-4，在醫療提供者回應病人詢問時的影響。研究持續8個月，參與者有27位醫療提供者，主要評估LLM生成訊息的使用情況及提供者的情感變化。結果顯示，7605條訊息中僅17.5%被使用，負面情感顯著減少，但整體使用量卻下降。隨著護士的加入，使用量提升至35.8%。雖然提示工程改善了內容質量，但整合LLM進工作流程仍面臨挑戰，未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

原始文章

站上相關主題文章列表