原始文章

這項研究評估了商業自動語音辨識(ASR)系統在聽障和重聽者的表現,並與正常聽力者比較。測試了850個音頻檔案,結果顯示聽障者的平均字詞錯誤率(WER)高達52.6%,而正常聽力者僅5.0%。特別是低可懂度的聽障者,WER高達85.9%。這顯示ASR系統對聽障者的服務不足,尤其是對於使用手語或有先天性聽損的人,凸顯了科技公司在可及性上的承諾需要加強,並需使用多樣化的數據來改善ASR系統。 PubMed DOI


站上相關主題文章列表

為了發展聽覺植入物的聲音編碼和語音處理技術,模擬聲碼器扮演著重要的角色。研究建議使用語音識別模型來分析聲碼器模擬的耳蜗植入處理對語音知覺的影響,取代傳統的人類受試者方式。這樣的方法更快速、成本較低,並且避免了人類受試者的變異性,顯示了深度學習模型在聽覺植入物研究中的潛力。 PubMed DOI

研究比較了三種自動語音識別(ASR)服務在臨床訪談中的字錯率(WER),結果顯示Amazon Transcribe表現最佳。ASR技術逐漸進步,可能成為醫療保健領域的好選擇,但仍需進一步研究不同人群和臨床情境中轉錄可用性的影響。 PubMed DOI

論文提出使用LSTM結構系統,解釋葡萄牙手語姿勢序列。克服手語識別挑戰,如互通性和手勢標記。系統有數據擴增和互動技術,提供即時反饋。實驗顯示高準確度和用戶滿意。整合語言模型服務有希望結果。 PubMed DOI

研究使用音訊處理和轉錄技術,分析自發性言語以提高檢測阿茲海默症的準確性。AI轉錄比手動更優,尤其當地的Wav2Vec表現最好,Rev AI也不錯。訪談者言語影響模型表現。AI技術能準確區分AD等,但需要更多訓練數據。這研究為未來語言分析監測認知障礙鋪平道路。 PubMed DOI

研究發現 Whisper 的 ASR 系統在美式口音下表現較佳,對英式和澳洲口音識別較差,加拿大口音則類似。母語為英語者辨識率較高。研究也分析說話者特徵,如性別、母語和第二語言能力對錯誤率的影響。閱讀性語音表現較對話性好,並根據說話者性別調整。研究討論了這些結果的影響。 PubMed DOI

研究介紹了一個新穎的多語言語音識別系統,使用了OpenAI的Whisper模型。專注於解決動態、多人說話環境下的語音識別和語者辨識難題,特別針對普通話和台灣口音。整合了先進的即時處理技術,並以台灣脫口秀和政治評論節目數據進行評估,顯示處理說話者切換和複雜對話動態的潛力。 PubMed DOI

研究發現ChatGPT-4在2023年台灣聽力師資格考試表現良好,回答299題中有75%正確,超過60%及格標準。錯誤多因資訊不準確。研究指出AI聊天機器人在聽力學有潛力,建議提升資訊準確性可進一步提升表現。 PubMed DOI

這項研究探討了人工智慧模型,特別是ChatGPT和Perplexity AI,在評估聲音病理的有效性。研究比較了這些AI的聲音障礙評估與專家聽覺評估,分析了50名成人聲音障礙患者的資料。結果顯示,AI評估與專家評估之間並無顯著一致性(Cohen's Kappa, p = 0.429),而AI模型之間的診斷則有低度正相關(r_s = 0.30, p = 0.03)。總體來看,研究指出人工智慧可能不適合作為聲音護理團隊評估聲音障礙的工具。 PubMed DOI

這項研究探討了先進自動語音辨識(ASR)技術在病人接觸過程中轉錄醫療資訊的效果,特別是在嘈雜的緊急醫療服務(EMS)環境中。研究評估了四個ASR引擎,結果顯示Google Speech-to-Text Clinical Conversation表現最佳,尤其在「心理狀態」和「過敏」類別上。然而,所有引擎在「治療」和「藥物」等關鍵類別的表現都不理想,顯示目前ASR技術尚無法完全自動化EMS的臨床文檔。這強調了進一步提升ASR技術的必要性。 PubMed DOI

這項研究探討了生成式AI聊天機器人的能力偏見,特別是OpenAI的ChatGPT和Google的Gemini。研究人員生成了300個描述,涵蓋一般人、殘障人士及運動員,並進行語言學分析。結果顯示,這兩個AI模型顯著低估殘障人士,將他們描繪成擁有較少優勢特質,顯示出可量化的能力偏見。這強調了在醫療環境中使用這些AI的倫理影響,呼籲開發者解決這些偏見,促進更公平的AI技術。 PubMed DOI