Detecting hallucinations in large language models using semantic entropy.
利用語義熵檢測大型語言模型中的幻覺。 Nature 2024-06-19

大型語言模型（LLM）如ChatGPT或Gemini具有強大的推理和問答能力，但可能產生虛假輸出。這可能對各領域應用造成問題，如製造虛假法律先例或散佈虛假新聞。為提升誠實性，研究者致力於開發檢測虛假輸出的方法，著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出，幫助用戶警惕LLM的潛在風險，並拓展新應用。 PubMed DOI

Large Language Model Prompting Techniques for Advancement in Clinical Medicine.
臨床醫學進步的大型語言模型提示技術。 J Clin Med 2024-09-14

大型語言模型（LLMs）有潛力顯著改變臨床醫學，能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過，這些模型的有效運用需謹慎設計提示，以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念，以及運用策略性提示技術，對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解，能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Fact-checking information from large language models can decrease headline discernment.
大型語言模型的事實查核資訊可能會降低標題辨識能力。 Proc Natl Acad Sci U S A 2024-12-04

這項研究探討大型語言模型（LLM）在事實查核方面對政治新聞標題的影響。雖然該模型在識別虛假標題的準確率高達90%，但並未顯著提升參與者的辨識能力或分享準確新聞的意圖。相對而言，人類生成的查核更有效。此外，AI查核可能導致對真實標題的信念下降，對虛假標題的信念上升。總之，雖然AI能協助查核，但錯誤標記也可能帶來風險，需謹慎應用並制定相關政策。 PubMed DOI

Mitigating spatial hallucination in large language models for path planning via prompt engineering.
透過提示工程減輕大型語言模型在路徑規劃中的空間幻覺。 Sci Rep 2025-03-15

S2ERS 技術旨在提升大型語言模型（LLMs）在迷宮環境中的空間推理能力，改善路徑規劃。它採用了三個關鍵策略：首先，透過圖結構提取，幫助 LLMs 理解空間關係，減少錯誤；其次，納入狀態-行動價值函數（Q），指導 LLM 的決策，避免陷入死胡同；最後，透過多步推理，動態插入局部 Q 表，讓 LLM 同時生成多個行動步驟。實驗顯示，S2ERS 顯著減少了空間幻覺問題，成功率和最佳率分別提高約 29% 和 19%。 PubMed DOI

Enhancing structured data generation with GPT-4o evaluating prompt efficiency across prompt styles.
利用 GPT-4 增強結構化數據生成，評估不同提示風格的提示效率。 Front Artif Intell 2025-04-10

這篇論文探討了不同提示風格（JSON、YAML 和混合 CSV/前綴）對大型語言模型（如 GPT-4o）生成結構化數據的影響，強調提示風格在準確性、效率和成本效益上的重要性。研究評估了這些風格在個人故事、收據和醫療記錄等應用中的表現，並根據準確性、標記成本和處理時間進行比較。主要發現包括： - **JSON**：高準確性但標記成本較高。 - **YAML**：在可讀性和效率間取得平衡。 - **混合 CSV/前綴**：在簡單數據結構中表現優異。論文提供了選擇合適提示風格的建議，幫助優化 AI 應用的數據生成。 PubMed DOI

Augmented and Programmatically Optimized LLM Prompts Reduce Chemical Hallucinations.
增強式與程式化優化的 LLM 提示可減少化學幻覺現象 J Chem Inf Model 2025-04-22

這項研究把增強式生成和機器學習優化的提示結合，讓大型語言模型預測分子TPSA的準確度大幅提升，預測誤差從62.34降到11.76。這方法不只減少模型產生幻覺，也不用重新訓練模型，就能擴展LLM在科學研究的應用。 PubMed DOI

Prompt architecture induces methodological artifacts in large language models.
提示架構在大型語言模型中引發方法學假象 PLoS One 2025-04-28

提示的結構（像是順序、標籤、描述和理由）會大幅影響LLM在相似度評估的表現，這些偏誤即使提醒模型也難以完全消除。只有針對多種不同提示彙整結果，才能有效減少偏誤，所以用LLM時要特別注意結果的解讀。 PubMed DOI

Prompting Pro Tips! Best Practices for Generating Clinical Narrative Summaries.
臨床敘述摘要撰寫技巧！產生臨床敘述摘要的最佳實務指南 Mil Med 2025-05-31

這項研究發現，用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要，但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要，因此各機構還是要自行把關，確保摘要內容正確無誤。 PubMed DOI

AFSPrompt: An Axiomatic Fuzzy Set Prompt Pipeline for Knowledge-Based VQA.
AFSPrompt：一個用於知識型視覺問答（VQA）的公理化模糊集提示流程 IEEE Trans Neural Netw Learn Syst 2025-06-02

這篇論文提出 AFSPrompt，一種免訓練的新方法，專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例，讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例，再用模糊集合邏輯排序，適合小型語言模型，減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼：https://github.com/afs001/AFSPrompt PubMed DOI

原始文章

站上相關主題文章列表