原始文章

EMTeC 資料庫收錄 107 位英語母語者閱讀由各種大型語言模型產生文章時的眼動追蹤數據,包含原始與處理後資料、模型內部資訊及語言學標註。這些資料有助於閱讀行為研究、模型可解釋性分析和演算法開發,所有資源都可在 GitHub 免費取得。 PubMed DOI


站上相關主題文章列表

這項研究探討成年人在忽略一位講者的情況下,如何處理來自兩位不同講者的語音,並利用腦電圖(EEG)測量神經反應。研究重點在於語音的聲學特徵、單字頻率及單字的可預測性,後者是透過GPT-4估算的。結果顯示,英語母語者在分辨目標講者與干擾講者上表現較佳,而視覺任務能減少詞彙處理。當單字可預測性低時,聽眾更專注於聲學特徵,顯示語音感知涉及聽覺與詞彙處理的複雜互動,突顯在挑戰性聆聽環境中的適應性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

EmoAtlas是一個情感分析計算庫,能從18種語言的文本中提取情感與詞彙聯想。它運用可解釋的人工智慧進行語法解析,根據Plutchik理論識別八種情感,並在英語和意大利語的情感檢測上表現優於BERT和ChatGPT 3.5。其憤怒檢測準確率達85.6%,速度比BERT快12倍,且無需微調。EmoAtlas還能分析文本中情感的表達,提供如酒店評論等情境下的客戶情感見解,作為獨立資源發布,旨在提取可解釋的見解。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來進行大規模的人類記憶實驗,特別是針對自然敘事的分析。研究發現,隨著敘事長度增加,記憶表現會改善,但參與者常常只會總結長敘事,而非回憶具體細節。當敘事順序被打亂時,回憶表現顯著下降,但識別表現穩定,顯示參與者仍能根據理解重建故事。研究還利用LLM生成的文本嵌入來測量敘事的語義相似度,與回憶可能性有強相關性,顯示LLMs在記憶研究中的潛力。 PubMed DOI

這個自然主義腦皮層電圖(ECoG)數據集是研究大腦語言處理的重要資源,包含九位參與者在聆聽30分鐘播客時的1,330個電極錄音。ECoG的高時間解析度讓研究人員能探索不同時間尺度和頻率的腦部活動,並捕捉關鍵語言區域的反應。 數據集還提供從播客提取的語言信息,包括語音細節和詞嵌入,方便研究者分析聽覺刺激與神經反應的關係。此外,附帶的全面教程指導如何預處理數據和進行分析,對教育和新研究都非常有幫助。 PubMed DOI

這項研究探討了閱讀理解的挑戰,這是許多學習者常遇到的困難。研究者利用腦機介面(BCI)技術,預測閱讀的單詞與目標推論單詞的相關性。他們結合腦電圖(EEG)和眼動追蹤數據,運用大型語言模型(LLMs)創建新的閱讀嵌入表示。結果顯示,九名受試者的平均準確率為68.7%,最佳可達71.2%。此外,對BERT模型進行微調後,達到92.7%的準確率。這項研究在增強閱讀技能工具的開發上邁出了重要一步,相關代碼和數據已在GitHub上公開。 PubMed DOI

深度計算文本分析器(DECOTA)是一種新型機器學習工具,能自動分析大量自由文本數據,幫助研究人員和政策制定者更有效地了解公眾意見。透過結構主題建模和精細調整的語言模型,DECOTA能快速識別關鍵主題和代碼,無需大量人力。與傳統方法相比,DECOTA的速度快378倍,成本低1,920倍,且與人類編碼結果高度一致,對於基於證據的政策制定和公眾參與具有重要意義。 PubMed DOI

這項研究比較 ChatGPT-3.5、ChatGPT-4o 和 Google Gemini 在製作兒童近視衛教資料的表現。結果發現,三款 AI 都能產出正確、易懂的內容,但只有 ChatGPT-3.5 和 4o 能穩定達到國小六年級的閱讀程度。ChatGPT-4o 在內容品質和易讀性上表現最好,但三者都缺乏高度可執行的建議。整體來說,ChatGPT-4o 最有潛力用來優化兒童近視衛教資料。 PubMed DOI

這篇研究探討大型語言模型(LLM)如何幫助病人解讀連續血糖監測(CGM)數據,協助糖尿病管理。作者建立了開源的CGM數據問答基準,評估多種LLM表現,並指出LLM在解讀穿戴式健康數據上還有進步空間,這些方法也能應用到其他穿戴裝置。 PubMed DOI

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI