Beyond rating scales: With targeted evaluation, large language models are poised for psychological assessment.
超越評分量表：透過有針對性的評估，大型語言模型準備好進行心理評估。 Psychiatry Res 2024-02-19

討論了最新研究，認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確，且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證，專注自然語言溝通可改變心理健康評估。 PubMed DOI

Sentiment analysis of COP9-related tweets: a comparative study of pre-trained models and traditional techniques.
COP9相關推文的情感分析：預先訓練模型與傳統技術的比較研究。 Front Big Data 2024-04-05

研究比較了不同情感分析技術，結果顯示BERT在第一階段最佳，GPT-3在第二階段處理COP9會議推文表現優異。強調預訓練模型如BERT和GPT-3在情感分析中的有效性，尤其在數據有限情況下。 PubMed DOI

Neural Generative Models and the Parallel Architecture of Language: A Critical Review and Outlook.
神經生成模型與語言的平行架構：批判性評論與展望。 Top Cogn Sci 2024-04-18

平行架構理論認為，語言理解中的句法和語義處理是分開的，但會有互動。心理語言學和神經語言學研究探討這些機制在人類理解中的作用，但尚不清楚最新神經語言模型如何互動。本研究探討了GPT-3模型在語言和行為任務中的表現，發現它能獨立處理語義任務，類似人類，但結果複雜，引發了對語言模型如何學習結構化概念的疑問。 PubMed DOI

A cross-dataset study on automatic detection of autism spectrum disorder from text data.
從文本數據自動檢測自閉症譜系障礙的跨數據集研究。 Acta Psychiatr Scand 2024-07-20

這篇文章探討利用先進的機器學習技術來檢測自閉症譜系障礙（ASD）。研究主要有三個目標：評估模型在不同數據集上的有效性、檢視模型之間的知識轉移潛力，以及評估數據增強對模型表現的影響。研究使用了微調HerBERT和OpenAI的文本嵌入技術，數據集來自TLC工具和ADOS-2。結果顯示，模型在TLC數據上表現較好，但知識轉移未見成效，且數據增強技術可能掩蓋重要信號。總體而言，模型的有效性受數據類型和診斷工具影響。 PubMed DOI

Fine-Tuning Large Language Models to Enhance Programmatic Assessment in Graduate Medical Education.
微調大型語言模型以增強研究生醫學教育中的程式性評估。 J Educ Perioper Med 2024-10-02

這項研究探討了訓練大型語言模型（LLMs）來根據美國住院醫師教育認證委員會（ACGME）的標準分類受訓者的反饋。研究發現，雖然複雜的模型未必能提高分類準確率，但較小的模型如BERT-mini在性能上與FastText相當，且在個人設備上部署時更具優勢，能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

Exploring the reversal curse and other deductive logical reasoning in BERT and GPT-based large language models.
探索 BERT 和 GPT 基礎的大型語言模型中的逆轉詛咒及其他演繹邏輯推理。 Patterns (N Y) 2024-11-21

「反轉詛咒」突顯了自回歸解碼器模型（如GPT）的限制，這些模型在推斷關係時常常遇到困難，例如從「A是B」推斷「B是A」。這引發了對它們在知識圖譜構建等任務中的有效性擔憂。相對而言，雙向模型如BERT則不會面臨這個問題。我們的研究進一步探討了演繹推理，發現雖然這兩種模型在處理兩個集合時表現良好，但在三個集合的運算上卻有困難。因此，選擇BERT或GPT應根據具體任務需求，利用各自的優勢。 PubMed DOI

Comparative analysis of BERT-based and generative large language models for detecting suicidal ideation: a performance evaluation study.
基於 BERT 的模型與生成性大型語言模型在偵測自殺意念方面的比較分析：一項性能評估研究。 Cad Saude Publica 2024-11-28

這項研究比較了三種不同版本的BERT模型和大型語言模型（LLMs）在檢測巴西葡萄牙語文本中的自殺意念的效果。數據集包含2,691句無自殺意念和1,097句有自殺意念的句子，經心理學家標註。結果顯示，Bing/GPT-4表現最佳，準確率達98%，其次是微調過的BERTimbau-Large（96%）和BERTimbau-Base（94%）。Bard最低，僅62%。雖然模型召回率高，但研究強調尚未在臨床環境驗證，使用時需謹慎。 PubMed DOI

From Word Embedding to Reading Embedding Using Large Language Model, EEG and Eye-tracking.
從詞嵌入到閱讀嵌入：使用大型語言模型、腦電圖和眼動追蹤。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-03

這項研究探討了閱讀理解的挑戰，這是許多學習者常遇到的困難。研究者利用腦機介面（BCI）技術，預測閱讀的單詞與目標推論單詞的相關性。他們結合腦電圖（EEG）和眼動追蹤數據，運用大型語言模型（LLMs）創建新的閱讀嵌入表示。結果顯示，九名受試者的平均準確率為68.7%，最佳可達71.2%。此外，對BERT模型進行微調後，達到92.7%的準確率。這項研究在增強閱讀技能工具的開發上邁出了重要一步，相關代碼和數據已在GitHub上公開。 PubMed DOI

Conceptual Combination in Large Language Models: Uncovering Implicit Relational Interpretations in Compound Words With Contextualized Word Embeddings.
大型語言模型中的概念組合：揭示複合詞中隱含的關係解釋與上下文化的詞嵌入。 Cogn Sci 2025-03-13

這項研究探討了兩個大型語言模型（LLMs），BERT-base 和 Llama-2-13b，對複合詞如「snowman」的理解能力。根據心理語言學理論，理解複合詞需拆解成組成部分並連結其隱含意義。研究發現，當複合詞被同義詞替換時，嵌入變化與同義詞的合理性呈反比，這在舊有和新穎複合詞中皆有觀察到。雖然對新穎複合詞的結果較弱，舊的分佈模型表現更佳，但LLMs仍能有效近似複合詞的內部結構，成為建模隱含詞義的有用工具。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

原始文章

站上相關主題文章列表