原始文章

這項研究探討BERT語言模型如何處理論證結構建構(ASC),基於先前的LSTM研究。研究使用2000句的數據集,分析BERT的12層標記嵌入,並運用多維縮放和t-SNE技術可視化嵌入,計算廣義區分值評估聚類情況。主要發現包括:CLS標記在第2至4層聚類最佳,OBJ標記在第10層達高峰,探測準確率從第2層起超過90%。此外,OBJ標記在區分ASC方面最有效。研究顯示BERT在語言結構處理的複雜性,並揭示其與LSTM的相似與差異。未來將探索神經影像數據以深入理解大腦中的ASC處理。 PubMed DOI


站上相關主題文章列表

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

研究比較了不同情感分析技術,結果顯示BERT在第一階段最佳,GPT-3在第二階段處理COP9會議推文表現優異。強調預訓練模型如BERT和GPT-3在情感分析中的有效性,尤其在數據有限情況下。 PubMed DOI

平行架構理論認為,語言理解中的句法和語義處理是分開的,但會有互動。心理語言學和神經語言學研究探討這些機制在人類理解中的作用,但尚不清楚最新神經語言模型如何互動。本研究探討了GPT-3模型在語言和行為任務中的表現,發現它能獨立處理語義任務,類似人類,但結果複雜,引發了對語言模型如何學習結構化概念的疑問。 PubMed DOI

這篇文章探討利用先進的機器學習技術來檢測自閉症譜系障礙(ASD)。研究主要有三個目標:評估模型在不同數據集上的有效性、檢視模型之間的知識轉移潛力,以及評估數據增強對模型表現的影響。研究使用了微調HerBERT和OpenAI的文本嵌入技術,數據集來自TLC工具和ADOS-2。結果顯示,模型在TLC數據上表現較好,但知識轉移未見成效,且數據增強技術可能掩蓋重要信號。總體而言,模型的有效性受數據類型和診斷工具影響。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

「反轉詛咒」突顯了自回歸解碼器模型(如GPT)的限制,這些模型在推斷關係時常常遇到困難,例如從「A是B」推斷「B是A」。這引發了對它們在知識圖譜構建等任務中的有效性擔憂。相對而言,雙向模型如BERT則不會面臨這個問題。我們的研究進一步探討了演繹推理,發現雖然這兩種模型在處理兩個集合時表現良好,但在三個集合的運算上卻有困難。因此,選擇BERT或GPT應根據具體任務需求,利用各自的優勢。 PubMed DOI

這項研究比較了三種不同版本的BERT模型和大型語言模型(LLMs)在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子,經心理學家標註。結果顯示,Bing/GPT-4表現最佳,準確率達98%,其次是微調過的BERTimbau-Large(96%)和BERTimbau-Base(94%)。Bard最低,僅62%。雖然模型召回率高,但研究強調尚未在臨床環境驗證,使用時需謹慎。 PubMed DOI

這項研究探討了閱讀理解的挑戰,這是許多學習者常遇到的困難。研究者利用腦機介面(BCI)技術,預測閱讀的單詞與目標推論單詞的相關性。他們結合腦電圖(EEG)和眼動追蹤數據,運用大型語言模型(LLMs)創建新的閱讀嵌入表示。結果顯示,九名受試者的平均準確率為68.7%,最佳可達71.2%。此外,對BERT模型進行微調後,達到92.7%的準確率。這項研究在增強閱讀技能工具的開發上邁出了重要一步,相關代碼和數據已在GitHub上公開。 PubMed DOI

這項研究探討了兩個大型語言模型(LLMs),BERT-base 和 Llama-2-13b,對複合詞如「snowman」的理解能力。根據心理語言學理論,理解複合詞需拆解成組成部分並連結其隱含意義。研究發現,當複合詞被同義詞替換時,嵌入變化與同義詞的合理性呈反比,這在舊有和新穎複合詞中皆有觀察到。雖然對新穎複合詞的結果較弱,舊的分佈模型表現更佳,但LLMs仍能有效近似複合詞的內部結構,成為建模隱含詞義的有用工具。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI