Improving the use of LLMs in radiology through prompt engineering: from precision prompts to zero-shot learning.
從精確提示到零樣本學習：通過及時工程改進放射學中 LLMs 的應用。 Rofo 2024-02-26

大型語言模型如ChatGPT在放射學領域有潛力，但成效需靠即時工程處理。不同提示策略可客製化模型回應，無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中，提示工程對LLMs利用至關重要，隨模型演進，零樣本學習等方法愈見重要。 PubMed DOI

Detecting hallucinations in large language models using semantic entropy.
利用語義熵檢測大型語言模型中的幻覺。 Nature 2024-06-19

大型語言模型（LLM）如ChatGPT或Gemini具有強大的推理和問答能力，但可能產生虛假輸出。這可能對各領域應用造成問題，如製造虛假法律先例或散佈虛假新聞。為提升誠實性，研究者致力於開發檢測虛假輸出的方法，著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出，幫助用戶警惕LLM的潛在風險，並拓展新應用。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Improving Factuality by Contrastive Decoding with Factual and Hallucination Prompts.
透過事實與幻覺提示的對比解碼來改善事實性。 Sensors (Basel) 2024-11-09

引入事實與幻覺提示解碼法（DFHP）的目的是解決大型語言模型中的幻覺問題，避免生成不相關或無意義的文本。透過對比解碼，DFHP強調事實提示與幻覺提示的輸出概率差異。實驗顯示，這方法在多項任務中提升了像LLaMA這類模型的事實準確性，且不需額外訓練。在TruthfulQA數據集上，DFHP在不同模型大小中平均提升了6.4%的準確性，特別適合用於醫療診斷和法律等高風險應用。 PubMed DOI

ESCARGOT: An AI Agent Leveraging Large Language Models, Dynamic Graph of Thoughts, and Biomedical Knowledge Graphs for Enhanced Reasoning.
ESCARGOT：一個利用大型語言模型、動態思維圖和生物醫學知識圖譜以增強推理的 AI 代理。 Bioinformatics 2025-01-22

ESCARGOT 是一種創新的方法，結合動態思維圖和生物醫學知識圖譜，提升像 GPT-4 這樣的大型語言模型的效能。它解決了檢索增強生成技術的常見問題，如上下文長度限制和向量相似性搜索的不準確性，從而提高輸出可靠性，減少幻覺，特別在高精確度的開放式問題上表現優異。此外，ESCARGOT 提供更大的透明度，使用者能檢視代碼和知識請求，避免傳統模型的黑箱問題。它可作為 pip 套件使用，並可在 GitHub 上找到，網址是：https://github.com/EpistasisLab/ESCARGOT。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

An active inference strategy for prompting reliable responses from large language models in medical practice.
在醫學實踐中促使大型語言模型產生可靠回應的主動推理策略。 NPJ Digit Med 2025-02-22

大型語言模型（LLMs）在醫學知識的教育、訓練和治療上有顯著進展，但早期研究顯示其不穩定性和潛在的有害輸出。為了解決這些問題，我們提出了一個經過驗證的數據集來訓練LLMs，並設計了一個演員-評論者的提示協議。在這個框架中，治療師生成初步回應，然後由監督者進行精煉。盲驗證研究顯示，LLM的評分常高於適當的治療師回應，顯示其符合專家標準，為安全整合LLM技術於醫療應用提供了基礎。 PubMed DOI

Enhancement of long-horizon task planning via active and passive modification in large language models.
透過主動與被動修改增強大型語言模型的長期任務規劃。 Sci Rep 2025-02-27

這項研究提出了一種新方法，利用大型語言模型（LLMs）為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃，動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答，精煉任務計畫，並能識別和解決長期任務中的模糊性，增強計畫細節。研究以烹飪任務為例，實驗結果顯示，這種方法成功提升了任務計畫的資訊量，填補了長期機器人任務研究的空白。 PubMed DOI

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models.
LLMER：利用大型語言模型生成的 JSON 數據創建互動擴展現實世界。 IEEE Trans Vis Comput Graph 2025-03-10

大型語言模型（LLMs）如GPT-4與擴增實境（XR）技術結合，能創造沉浸式環境，並透過自然語言與使用者互動。不過，XR環境的複雜性使得提取上下文數據變得困難，導致成本上升和錯誤產生。為了解決這些問題，我們推出了LLMER框架，利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲，初步研究顯示其令牌消耗減少超過80%，任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning.
NavCoT: 透過學習解耦推理提升基於大型語言模型的視覺與語言導航。 IEEE Trans Pattern Anal Mach Intell 2025-03-25

這篇論文介紹了一種新策略，稱為導航思維鏈（NavCoT），旨在提升大型語言模型（LLMs）在視覺與語言導航（VLN）中的表現。由於訓練數據與VLN任務之間的差距，LLMs常面臨挑戰。NavCoT透過領域內訓練，幫助LLM進行自我引導的導航決策，包含三個步驟：想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示，NavCoT在多個VLN基準測試中表現優於傳統方法，並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

原始文章

站上相關主題文章列表