原始文章

引入事實與幻覺提示解碼法(DFHP)的目的是解決大型語言模型中的幻覺問題,避免生成不相關或無意義的文本。透過對比解碼,DFHP強調事實提示與幻覺提示的輸出概率差異。實驗顯示,這方法在多項任務中提升了像LLaMA這類模型的事實準確性,且不需額外訓練。在TruthfulQA數據集上,DFHP在不同模型大小中平均提升了6.4%的準確性,特別適合用於醫療診斷和法律等高風險應用。 PubMed DOI


站上相關主題文章列表

研究使用真實世界數據評估大型語言模型(LLMs)在標準化產科診斷術語時的表現,發現LLMs在無監督設置中表現較佳。不同的提示工程設置會影響LLMs的表現,其中QWEN提示效果最好,有助於提高診斷術語對齊效率。 PubMed DOI

GPT-4等大型語言模型在事實核查上扮演重要角色,尤其在防止假消息擴散。瞭解它們的能力和限制對維護資訊環境至關重要。研究指出,提供上下文資訊可增進模型表現。雖GPT-4比GPT-3強,但準確性受查詢語言和真實性主張影響。使用時應謹慎,呼籲進一步研究以深入了解模型成功與失敗。 PubMed DOI

大型語言模型如ChatGPT在放射學領域有潛力,但成效需靠即時工程處理。不同提示策略可客製化模型回應,無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中,提示工程對LLMs利用至關重要,隨模型演進,零樣本學習等方法愈見重要。 PubMed DOI

LLMs在臨床應用上很強大,但缺乏標記數據。為了掌握臨床知識,需要進行上下文學習。研究評估了零-shot和少-shot臨床信息提取的提示工程技術。結果顯示,定制任務特定提示至關重要,而啟發式和集成提示也很有效。GPT-3.5表現最佳,並且集成方法有助於提升性能。這項研究為臨床自然語言處理的提示工程提供了重要的指導。 PubMed DOI

研究發現ChatGPT和Bard等大型語言模型在科學寫作參考文獻生成方面表現不佳,容易產生錯誤資訊。建議在進行系統性回顧時謹慎使用這些模型,研究人員應該先驗證資料的正確性。在學術領域使用這些模型前,需要改進它們的訓練和功能。 PubMed DOI

大型語言模型(LLM)如ChatGPT或Gemini具有強大的推理和問答能力,但可能產生虛假輸出。這可能對各領域應用造成問題,如製造虛假法律先例或散佈虛假新聞。為提升誠實性,研究者致力於開發檢測虛假輸出的方法,著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出,幫助用戶警惕LLM的潛在風險,並拓展新應用。 PubMed DOI

從生物醫學文獻中提取準確資訊相當複雜,因為這個領域跨學科且術語專業。早期的自然語言處理(NLP)方法常常無法掌握語言的細微差別,導致錯誤答案。隨著變壓器模型的出現,大型語言模型(LLMs)在問答任務中表現改善,但仍面臨挑戰,經常產生「幻覺」信息。我們的研究透過增強檢索架構來提升LLMs在生物醫學問答中的表現,並開發了問答機器人WeiseEule,強調用戶查詢信號的重要性,改善了回應的準確性和相關性。 PubMed DOI

大型語言模型(LLMs)有潛力顯著改變臨床醫學,能改善醫療服務的可及性、增強診斷、協助手術規劃及促進教育。不過,這些模型的有效運用需謹慎設計提示,以應對幻覺和偏見等挑戰。理解標記化、嵌入和注意力機制等關鍵概念,以及運用策略性提示技術,對生成準確輸出至關重要。AI技術與醫療專業人員的合作、重視倫理問題如數據安全和偏見緩解,能提升醫療服務質量與可及性。持續的研究與發展對於發揮LLMs在醫療領域的潛力至關重要。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

這項研究探討了創建有效摘要的挑戰,目的是在細節與可讀性之間取得平衡。研究提出了一種名為「密度鏈」(CoD)的方法,利用GPT-4生成初步摘要,然後逐步添加重要資訊,卻不增加整體長度。這樣的摘要更具抽象性,且對引導性資訊的偏見較少。針對100篇CNN DailyMail文章的研究顯示,讀者更偏好密度較高的CoD摘要,認為其效果接近人類撰寫的摘要。研究提供了500個註解的CoD摘要及5,000個未註解的摘要,資料可在HuggingFace上使用。 PubMed DOI