原始文章

這篇論文探討了人體與機器人互動中,單一模式數據的限制,特別是在廚房環境下,並提出新的多模態數據收集方法。研究收集了來自20位成人的數據,使用17種廚房工具,涵蓋觸覺、肌電圖(EMG)、音頻、全身運動和眼動追蹤等多種數據類型。這個數據集包含680個片段,約11小時的數據,並在七種模態中有56,000個標註。研究旨在提升多樣數據在具身人工智慧中的整合,為機器人技能學習設定新基準。 PubMed DOI


站上相關主題文章列表

這篇文章探討感測器技術(如環境感測器、生物識別和物聯網設備)與對話式人工智慧(如ChatGPT 4.0)的整合。強調即時數據如何增強AI對環境和使用者情境的理解。內容涵蓋感測器網路的科學原理、數據處理技術,以及這些技術如何與生成模型結合,創造智能互動系統。主要主題包括ChatGPT分析感測器數據進行情境對話、醫療應用(如穿戴式感測器和AI聊天機器人)及智慧家庭互動,旨在促進感測器技術與AI開發的研究進展。 PubMed DOI

這份報告探討了基於音頻數據訓練的人工智慧(AI)模型在提升臨床任務和醫療決策的潛力,特別是在資源有限的環境中。目前技術主要依賴高收入國家的數據,這對廣泛應用造成挑戰。報告介紹了一個新應用程式HEAR,透過音頻問題收集健康資訊,創造「語音電子健康紀錄(Voice EHR)」。初步實驗顯示,這種方法收集的數據與傳統方式相比,相關性相當甚至更高,能捕捉複雜的健康生物標記,可能解決標準臨床數據集的限制。 PubMed DOI

這項研究提出了一種新方法,利用大型語言模型(LLMs)為機器人生成複雜的長期任務計畫。過去的研究多集中於簡單的任務規劃,動作指令通常不超過十個。新方法透過讓LLM主動收集資訊並進行問答,精煉任務計畫,並能識別和解決長期任務中的模糊性,增強計畫細節。研究以烹飪任務為例,實驗結果顯示,這種方法成功提升了任務計畫的資訊量,填補了長期機器人任務研究的空白。 PubMed DOI

這項研究探討自閉症兒童的挑戰性行為,特別是攻擊性和自我傷害。修訂版家庭觀察量表第三版(FOS-R-III)是一個用於評估這些行為的工具。以往的AI方法多集中於視覺數據,缺乏臨床相關量表。本研究引入AV-FOS模型,結合音頻和視覺數據,並基於FOS-R-III進行編碼,能準確識別互動風格。此外,研究還使用多模態大型語言模型GPT4V進行比較,認為這些進展將提升自閉症研究的臨床應用。 PubMed DOI

功能性動作篩檢(FMS)對於評估運動技能及預防運動傷害非常重要,但現有的深度學習自動評估方法僅提供排名分數,缺乏詳細反饋,影響其有效性。為了解決這個問題,我們開發了LLM-FMS數據集,包含1812個關鍵幀圖像及七個FMS動作的詳細數據。我們還提出了一個新框架,利用大型語言模型(LLMs)來評估動作質量,結合專家規則和關鍵骨骼特徵,提供更準確且可解釋的評估結果,顯示出我們方法的潛力。 PubMed DOI

這篇論文探討如何利用自由文本專家意見(軟性數據)來評估外科手術技能,並結合傳統的運動學和視頻數據(硬性數據)。研究中引入「Vertex Pursuit」實驗,挑戰參與者的手眼協調與靈巧度,並收集反饋。這些反饋透過自然語言處理技術分析,發現隨著方法複雜度提升,評估準確性也提高,最佳結果來自解碼的LLMs和基於規則的提示。研究顯示,軟性數據能減少主觀性,並減輕專家負擔,未來可進一步研究以優化這些方法。 PubMed DOI

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 PubMed DOI

研究團隊開發的 ELLMER 機器人架構,結合 GPT-4 和檢索增強生成技術,讓機器人能適應變化多端的環境,執行像泡咖啡、擺盤等多步驟任務。透過力覺和視覺回饋,機器人的智慧和適應力大幅提升。 PubMed DOI

這篇論文提出一套多模態系統,能整合影像、感測器數據和生產紀錄,並結合大型語言模型。系統有統一資料格式、動態分詞和強大跨模態對齊能力,採用兩階段訓練。新開發的Transformer模型同時支援影像和文字生成,提升即時決策。實驗證明,這方法在影像-文字檢索和視覺問答等任務表現優異,對智慧製造和異常偵測等應用很有幫助。 PubMed DOI

這篇文章探討多模態大型語言模型(MLLMs)和訓練資料的互動關係,強調優質多元資料能提升模型表現,而先進模型也能幫助資料優化。文中分析資料與模型如何共同進步,並提供未來研究方向,協助推動MLLMs與資料的雙向發展。 PubMed DOI