原始文章

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 PubMed DOI


站上相關主題文章列表

這篇論文探討了在人機合作環境中運用大型語言模型(LLMs)如GPT進行口語溝通的方法。介紹了一個以GPT為核心的機器人代理在Unity VR環境中的模擬框架。透過12位參與者的使用者研究,探討了GPT-4在多機器人環境中的效用。研究結果顯示,使用者可能對與機器人互動有先入為主的看法,但透過自然語言溝通的探索,可以帶來更有效的互動。同時提供了寶貴的教訓和未來研究的建議。 PubMed DOI

研究探討了低成本虛擬逃脫遊戲中使用GPT人工智慧語言模型的可行性。結果顯示GPT透過語音互動能幫助解決虛擬實境中的邏輯挑戰,使用者對其協助給予正面回饋,但也指出處理複雜挑戰的限制。研究提出GPT在解決問題中有潛力,但在拼圖難度和情境理解方面仍有改進空間。這項研究討論了整合GPT等人工智慧模型在虛擬遊戲中的機會和挑戰,為未來發展提供了洞察。 PubMed DOI

這項研究探討了人工智慧在語言治療中的應用,使用名為 **QuickPic AAC** 的應用程式。該程式能即時生成主題相關的溝通顯示,並透過照片輔助交流。研究比較了兩種人工智慧演算法—NLG-AAC 和 GPT-3.5,發現 GPT-3.5 在產生特定詞彙的有效性上表現更佳。此外,語言治療師對 QuickPic AAC 的可用性表示高度滿意,顯示這個工具在臨床上可能非常有價值,能即時滿足溝通需求。 PubMed DOI

現有的影像描述方法對視障或低視力人士(BLV)常常無法滿足需求,因為描述過於簡短、不連貫或過於詳細。為了解決這個問題,我們推出了VIIDA,專為視障人士設計的影像描述方法,並提出了InViDe,評估影像描述的新指標,專注於BLV用戶的包容性。VIIDA結合多模態視覺問答模型與自然語言處理,生成與影像內容相符的描述,並具人類語言特質。InViDe則提供對各種描述方法的性能分析。我們希望這項技術能促進輔助技術的進一步發展,相關代碼可在GitHub上獲得。 PubMed DOI

盲人使用應用程式時,常需記住各種快捷鍵和導航方式,這讓他們感到困擾。為了解決這個問題,我們推出了Savant,一種創新的輔助技術,利用大型語言模型(LLMs),讓盲人用螢幕閱讀器能以自然語言與任何應用程式互動。Savant能根據用戶指令自動化重複任務,提升互動靈活性,無需精確指定控制元件名稱。針對11位盲人參與者的研究顯示,Savant在互動效率和可用性上明顯優於現有方法。 PubMed DOI

這項研究探討大型語言模型(LLMs)如何協助輔助科技(AT)從業人員為有障礙的個體選擇合適產品。研究利用Keplo這個AI平台,分析亞馬遜上的顧客評論,評估三款主流產品和三種輔助科技。分析提供了使用者人口統計、使用模式、優缺點及設計改進建議。結果顯示,LLMs能有效提取有價值的見解,幫助AT從業人員做出明智推薦,但也強調了LLM分析的局限性,從業人員需批判性評估顧客評論以確保相關性。 PubMed DOI

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架,利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs,並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能,讓使用者能用自然語言互動。為了確保安全性,系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%,顯示出在認知機器人技術上的重大進展。 PubMed DOI

這篇文件探討擴增實境(XR)的快速發展,並強調大型語言模型(LLMs)整合進XR系統的潛力。它提出三個主要支柱:感知與情境意識、知識建模與推理,以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處,同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究,目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

遠端視覺輔助(RSA)技術透過即時視訊連結視力障礙者與有視力的代理人,協助他們導航。研究發現使用者和代理人面臨四大挑戰:定位困難、環境解讀問題、情境資訊提供挑戰,以及網路不良影響。研究識別了15個導航挑戰,並提出10個新興問題,強調人類與人工智慧(AI)合作的重要性。隨著大型語言模型的發展,RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

大型語言模型(LLMs)如GPT-4與擴增實境(XR)技術結合,能創造沉浸式環境,並透過自然語言與使用者互動。不過,XR環境的複雜性使得提取上下文數據變得困難,導致成本上升和錯誤產生。為了解決這些問題,我們推出了LLMER框架,利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲,初步研究顯示其令牌消耗減少超過80%,任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI