Deploying large language models for discourse studies: An exploration of automated analysis of media attitudes.
部署大型語言模型於話語研究：媒體態度自動分析的探索。 PLoS One 2025-01-09

這項研究探討如何利用大型語言模型（LLM）分析媒體對中國的態度，以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性，並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度，並運用Meta的開源Llama2（13b）模型進行分析，針對40,000條與中國相關的表達進行量化。結果顯示，LLM能有效識別顯性和隱性態度，準確率約80%，與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

Linguistically informed ChatGPT prompts to enhance Japanese-Chinese machine translation: A case study on attributive clauses.
語言學知識驅動的 ChatGPT 提示以增強日中機器翻譯：以定語從句為案例研究。 PLoS One 2025-01-09

這篇論文探討了將日文定語從句翻譯成中文的挑戰，特別是名詞語義角色對翻譯的影響。研究指出目前機器翻譯工具的局限性，並透過範例分析提出了一種經ChatGPT測試的三步驟提示鏈接策略，翻譯品質顯著提升，平均分數提高超過43%。結果強調語言學知識在設計提示時的重要性，對於提升複雜句子的翻譯準確性至關重要。這項研究不僅連結了語言學理論與機器翻譯，還為優化大型語言模型的提示及改善語言教育工具提供了新見解。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Comparative performance analysis of global and chinese-domain large language models for myopia.
全球與中國域大型語言模型在近視方面的比較性能分析。 Eye (Lond) 2025-04-13

這項研究評估了全球大型語言模型（LLMs）和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等，還有華佗GPT、MedGPT等中文模型。共評估39個問題，專家用3分制評分。結果顯示，ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳，且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看，無論是全球還是中文模型，都能有效解決近視問題，特別是全球模型表現優異。 PubMed DOI

An LLM-based hybrid approach for enhanced automated essay scoring.
基於LLM的混合式方法以提升自動作文評分效能 Sci Rep 2025-04-25

傳統自動作文評分系統只看單字和句子，無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型，利用大型語言模型提升作文連貫性和品質評估。實驗證明，我們的方法比現有技術更準確，有助提升學生寫作評量的公正性與精確度。 PubMed DOI

Complementing but Not Replacing: Comparing the Impacts of GPT-4 and Native-Speaker Interaction on Chinese L2 Writing Outcomes.
互補而非取代：比較GPT-4與母語者互動對中文第二語言寫作成果的影響 Behav Sci (Basel) 2025-04-26

這項研究發現，中文母語者在寫英文前，和真人夥伴討論比用GPT-4或沒討論，寫作表現更好。兩種互動都能增加主題熟悉度、信心，減少困難感。建議GPT-4可當輔助工具，但不能取代真人夥伴。 PubMed DOI

Designing AI-powered translation education tools: a framework for parallel sentence generation using SauLTC and LLMs.
AI 驅動翻譯教育工具的設計：結合 SauLTC 與 LLMs 進行平行句生成的框架 PeerJ Comput Sci 2025-06-26

翻譯教學很花時間，但AI工具能自動化重複工作。現在缺乏阿拉伯語相關資料集，這項研究用GPT把SauLTC轉成平行語料庫，方便教學。用餘弦相似度和人工評估檢查品質，發現LaBSE加GPT的組合相似度最高，達85.2%，顯示AI很有潛力協助翻譯教學資源建置。 PubMed DOI

Delving into LLM-assisted writing in biomedical publications through excess vocabulary.
透過過度詞彙探討LLM輔助撰寫於生物醫學出版物中的應用 Sci Adv 2025-07-02

研究發現，隨著ChatGPT等大型語言模型普及，生醫論文摘要中有特定風格用詞明顯增加。2024年，至少13.5%的摘要疑似經LLM處理，部分領域甚至高達40%。LLM對生醫寫作的影響前所未見，甚至超越COVID-19疫情時期。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

A hybrid architecture for enhancing Chinese text processing using CNN and LLaMA2.
結合 CNN 與 LLaMA2 之混合式架構以提升中文文本處理效能 Sci Rep 2025-07-09

這篇論文提出一個結合深度語境嵌入和CNN的混合模型，專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵，讓中文NLP任務更準確又有效率，並在多項測試中表現優異，也有望應用在翻譯和情感分析等領域。 PubMed DOI

原始文章

站上相關主題文章列表