原始文章

S2ERS 技術旨在提升大型語言模型(LLMs)在迷宮環境中的空間推理能力,改善路徑規劃。它採用了三個關鍵策略:首先,透過圖結構提取,幫助 LLMs 理解空間關係,減少錯誤;其次,納入狀態-行動價值函數(Q),指導 LLM 的決策,避免陷入死胡同;最後,透過多步推理,動態插入局部 Q 表,讓 LLM 同時生成多個行動步驟。實驗顯示,S2ERS 顯著減少了空間幻覺問題,成功率和最佳率分別提高約 29% 和 19%。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLM)如ChatGPT或Gemini具有強大的推理和問答能力,但可能產生虛假輸出。這可能對各領域應用造成問題,如製造虛假法律先例或散佈虛假新聞。為提升誠實性,研究者致力於開發檢測虛假輸出的方法,著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出,幫助用戶警惕LLM的潛在風險,並拓展新應用。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

大型語言模型(LLMs)在醫學知識的教育、訓練和治療上有顯著進展,但早期研究顯示其不穩定性和潛在的有害輸出。為了解決這些問題,我們提出了一個經過驗證的數據集來訓練LLMs,並設計了一個演員-評論者的提示協議。在這個框架中,治療師生成初步回應,然後由監督者進行精煉。盲驗證研究顯示,LLM的評分常高於適當的治療師回應,顯示其符合專家標準,為安全整合LLM技術於醫療應用提供了基礎。 PubMed DOI

這項研究提出了一種新方法,利用大型語言模型(LLMs)為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃,動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答,精煉任務計畫,並能識別和解決長期任務中的模糊性,增強計畫細節。研究以烹飪任務為例,實驗結果顯示,這種方法成功提升了任務計畫的資訊量,填補了長期機器人任務研究的空白。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

這篇論文介紹了一種新策略,稱為導航思維鏈(NavCoT),旨在提升大型語言模型(LLMs)在視覺與語言導航(VLN)中的表現。由於訓練數據與VLN任務之間的差距,LLMs常面臨挑戰。NavCoT透過領域內訓練,幫助LLM進行自我引導的導航決策,包含三個步驟:想像觀察結果、選擇最匹配的結果、決定行動。實驗顯示,NavCoT在多個VLN基準測試中表現優於傳統方法,並在R2R數據集上實現7%的提升。研究代碼已在GitHub公開。 PubMed DOI

這項研究把增強式生成和機器學習優化的提示結合,讓大型語言模型預測分子TPSA的準確度大幅提升,預測誤差從62.34降到11.76。這方法不只減少模型產生幻覺,也不用重新訓練模型,就能擴展LLM在科學研究的應用。 PubMed DOI

提示的結構(像是順序、標籤、描述和理由)會大幅影響LLM在相似度評估的表現,這些偏誤即使提醒模型也難以完全消除。只有針對多種不同提示彙整結果,才能有效減少偏誤,所以用LLM時要特別注意結果的解讀。 PubMed DOI

這篇文章介紹了幾種常見的提示工程技巧,像是 zero-shot、few-shot 和 chain-of-thought,說明它們如何幫助提升 AI 在介入放射學領域的表現。內容也討論資料隱私、法規等挑戰,並展望未來像檢索增強生成、多模態模型等新方向。 PubMed DOI

這項研究評估多種大型語言模型,利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示,大型且專業化的模型在基本資訊擷取表現最好,但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助,顯示LLMs自動化醫療文本分析有潛力,但還需改進。 PubMed DOI