Exploring a GPT-based large language model for variable autonomy in a VR-based human-robot teaming simulation.
探索基於GPT的大型語言模型在基於VR的人機協作模擬中的可變自主性。 Front Robot AI 2024-04-18

這篇論文探討了在人機合作環境中運用大型語言模型（LLMs）如GPT進行口語溝通的方法。介紹了一個以GPT為核心的機器人代理在Unity VR環境中的模擬框架。透過12位參與者的使用者研究，探討了GPT-4在多機器人環境中的效用。研究結果顯示，使用者可能對與機器人互動有先入為主的看法，但透過自然語言溝通的探索，可以帶來更有效的互動。同時提供了寶貴的教訓和未來研究的建議。 PubMed DOI

Special Issue on Multisensory eXtended Reality Integrating GPT as an Assistant for Low-Cost Virtual Reality Escape-Room Games.
多感官擴增實境整合 GPT 為助手的低成本虛擬實境逃脫遊戲專題。 IEEE Comput Graph Appl 2024-07-11

研究探討了低成本虛擬逃脫遊戲中使用GPT人工智慧語言模型的可行性。結果顯示GPT透過語音互動能幫助解決虛擬實境中的邏輯挑戰，使用者對其協助給予正面回饋，但也指出處理複雜挑戰的限制。研究提出GPT在解決問題中有潛力，但在拼圖難度和情境理解方面仍有改進空間。這項研究討論了整合GPT等人工智慧模型在虛擬遊戲中的機會和挑戰，為未來發展提供了洞察。 PubMed DOI

<i>QuickPic AAC</i>: An AI-Based Application to Enable Just-in-Time Generation of Topic-Specific Displays for Persons Who Are Minimally Speaking.
<i>QuickPic AAC</i>：一款基於人工智慧的應用程式，旨在為最少說話者即時生成主題特定的顯示內容。 Int J Environ Res Public Health 2024-09-28

這項研究探討了人工智慧在語言治療中的應用，使用名為 **QuickPic AAC** 的應用程式。該程式能即時生成主題相關的溝通顯示，並透過照片輔助交流。研究比較了兩種人工智慧演算法—NLG-AAC 和 GPT-3.5，發現 GPT-3.5 在產生特定詞彙的有效性上表現更佳。此外，語言治療師對 QuickPic AAC 的可用性表示高度滿意，顯示這個工具在臨床上可能非常有價值，能即時滿足溝通需求。 PubMed DOI

VIIDA and InViDe: computational approaches for generating and evaluating inclusive image paragraphs for the visually impaired.
VIIDA 和 InViDe：為視障人士生成和評估包容性圖像段落的計算方法。 Disabil Rehabil Assist Technol 2024-12-11

現有的影像描述方法對視障或低視力人士（BLV）常常無法滿足需求，因為描述過於簡短、不連貫或過於詳細。為了解決這個問題，我們推出了VIIDA，專為視障人士設計的影像描述方法，並提出了InViDe，評估影像描述的新指標，專注於BLV用戶的包容性。VIIDA結合多模態視覺問答模型與自然語言處理，生成與影像內容相符的描述，並具人類語言特質。InViDe則提供對各種描述方法的性能分析。我們希望這項技術能促進輔助技術的進一步發展，相關代碼可在GitHub上獲得。 PubMed DOI

Enabling Uniform Computer Interaction Experience for Blind Users through Large Language Models.
透過大型語言模型為盲人用戶提供統一的電腦互動體驗。 ASSETS 2025-01-09

盲人使用應用程式時，常需記住各種快捷鍵和導航方式，這讓他們感到困擾。為了解決這個問題，我們推出了Savant，一種創新的輔助技術，利用大型語言模型（LLMs），讓盲人用螢幕閱讀器能以自然語言與任何應用程式互動。Savant能根據用戶指令自動化重複任務，提升互動靈活性，無需精確指定控制元件名稱。針對11位盲人參與者的研究顯示，Savant在互動效率和可用性上明顯優於現有方法。 PubMed DOI

Leveraging AI and customer reviews to evaluate technology used by people with disabilities.
利用人工智慧和顧客評價來評估殘障人士使用的技術。 Disabil Rehabil Assist Technol 2025-02-16

這項研究探討大型語言模型（LLMs）如何協助輔助科技（AT）從業人員為有障礙的個體選擇合適產品。研究利用Keplo這個AI平台，分析亞馬遜上的顧客評論，評估三款主流產品和三種輔助科技。分析提供了使用者人口統計、使用模式、優缺點及設計改進建議。結果顯示，LLMs能有效提取有價值的見解，幫助AT從業人員做出明智推薦，但也強調了LLM分析的局限性，從業人員需批判性評估顧客評論以確保相關性。 PubMed DOI

A novel voice in head actor critic reinforcement learning with human feedback framework for enhanced robot navigation.
一種新穎的頭腦聲音演員評論家強化學習框架，結合人類反饋以增強機器人導航。 Sci Rep 2025-02-28

這項工作介紹了一個名為 Voice in Head (ViH) 的新框架，利用大型語言模型 (LLMs) 和語意理解來提升機器人的導航與互動能力。系統結合了 GPT 和 Gemini LLMs，並透過強化學習 (RL) 進行持續學習。它還具備由 Azure AI Search 支持的語意搜尋功能，讓使用者能用自然語言互動。為了確保安全性，系統內建人類反饋的強化學習 (RLHF) 元件。ViH 框架成功率高達 94.54%，顯示出在認知機器人技術上的重大進展。 PubMed DOI

Next Generation XR Systems-Large Language Models Meet Augmented and Virtual Reality.
下一代 XR 系統 - 大型語言模型與擴增實境及虛擬實境的結合。 IEEE Comput Graph Appl 2025-03-06

這篇文件探討擴增實境（XR）的快速發展，並強調大型語言模型（LLMs）整合進XR系統的潛力。它提出三個主要支柱：感知與情境意識、知識建模與推理，以及視覺化與互動。這種整合在神經康復、安全訓練和建築設計等領域具有顯著好處，同時也需考量隱私、透明度和包容性等倫理問題。文件鼓勵進一步研究，目的是創造更智能且以使用者為中心的XR系統。 PubMed DOI

Human-AI Collaboration for Remote Sighted Assistance: Perspectives from the LLM Era.
人類與人工智慧合作進行遠程視覺輔助：來自大型語言模型時代的觀點。 Future Internet 2025-03-07

遠端視覺輔助（RSA）技術透過即時視訊連結視力障礙者與有視力的代理人，協助他們導航。研究發現使用者和代理人面臨四大挑戰：定位困難、環境解讀問題、情境資訊提供挑戰，以及網路不良影響。研究識別了15個導航挑戰，並提出10個新興問題，強調人類與人工智慧（AI）合作的重要性。隨著大型語言模型的發展，RSA與AI的整合有望提升視覺輔助技術的效能。 PubMed DOI

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models.
LLMER：利用大型語言模型生成的 JSON 數據創建互動擴展現實世界。 IEEE Trans Vis Comput Graph 2025-03-10

大型語言模型（LLMs）如GPT-4與擴增實境（XR）技術結合，能創造沉浸式環境，並透過自然語言與使用者互動。不過，XR環境的複雜性使得提取上下文數據變得困難，導致成本上升和錯誤產生。為了解決這些問題，我們推出了LLMER框架，利用LLMs生成的JSON數據來構建互動式XR世界。LLMER能有效減少應用崩潰和延遲，初步研究顯示其令牌消耗減少超過80%，任務完成時間減少約60%。使用者反饋也指出了優化的空間。 PubMed DOI

原始文章

站上相關主題文章列表