原始文章

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI


站上相關主題文章列表

Anatomy3DExplorer 是一個專為探索 3D 解剖模型設計的 ChatGPT 版本,提供自然語言介面。這篇論文強調大型語言模型(LLMs)在讓用戶輕鬆訪問數據庫方面的有效性,並展示如何利用 GPTS 框架將 LLMs 與數據庫 API 無縫整合,提出一種簡單卻具潛力的方法,增強用戶與複雜數據的互動體驗。 PubMed DOI

盲人使用應用程式時,常需記住各種快捷鍵和導航方式,這讓他們感到困擾。為了解決這個問題,我們推出了Savant,一種創新的輔助技術,利用大型語言模型(LLMs),讓盲人用螢幕閱讀器能以自然語言與任何應用程式互動。Savant能根據用戶指令自動化重複任務,提升互動靈活性,無需精確指定控制元件名稱。針對11位盲人參與者的研究顯示,Savant在互動效率和可用性上明顯優於現有方法。 PubMed DOI

這項研究探討大型語言模型(LLMs)如何協助輔助科技(AT)從業人員為有障礙的個體選擇合適產品。研究利用Keplo這個AI平台,分析亞馬遜上的顧客評論,評估三款主流產品和三種輔助科技。分析提供了使用者人口統計、使用模式、優缺點及設計改進建議。結果顯示,LLMs能有效提取有價值的見解,幫助AT從業人員做出明智推薦,但也強調了LLM分析的局限性,從業人員需批判性評估顧客評論以確保相關性。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

這項研究發現,GPT-4o用街景照評估都市可步行性時,和人類在多數指標(像是可行性、可達性、安全性)評分差不多,但在人類感受較細膩的舒適度和活力上有落差。總結來說,GPT-4o雖然有潛力,但要完整反映人類感受,還是得靠人類參與,模型也需再優化。 PubMed DOI

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 PubMed DOI

這項研究發現,ChatGPT-4o在幫助視障者導航時,表現中等,特別是只靠自己描述場景時更明顯。若用人工撰寫的描述,準確度會提升。經過調整的提示語能減少錯誤,但整體還是比不上人類。未來若針對視障者需求訓練AI,有望讓導航協助更精準。 PubMed DOI