原始文章

這項研究發現,不論是人類還是大型語言模型(LLM)翻譯英文到中文,句法都比原文簡單,支持「簡化假說」。而且人類翻譯在簡化句法上比LLM更明顯,顯示人類在處理複雜結構時更擅長。這些結果有助於改進機器翻譯,也為翻譯研究帶來新觀點。 PubMed DOI


站上相關主題文章列表

這項研究探討如何利用大型語言模型(LLM)分析媒體對中國的態度,以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性,並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度,並運用Meta的開源Llama2(13b)模型進行分析,針對40,000條與中國相關的表達進行量化。結果顯示,LLM能有效識別顯性和隱性態度,準確率約80%,與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

這篇論文探討了將日文定語從句翻譯成中文的挑戰,特別是名詞語義角色對翻譯的影響。研究指出目前機器翻譯工具的局限性,並透過範例分析提出了一種經ChatGPT測試的三步驟提示鏈接策略,翻譯品質顯著提升,平均分數提高超過43%。結果強調語言學知識在設計提示時的重要性,對於提升複雜句子的翻譯準確性至關重要。這項研究不僅連結了語言學理論與機器翻譯,還為優化大型語言模型的提示及改善語言教育工具提供了新見解。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

這項研究評估了全球大型語言模型(LLMs)和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等,還有華佗GPT、MedGPT等中文模型。共評估39個問題,專家用3分制評分。結果顯示,ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳,且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看,無論是全球還是中文模型,都能有效解決近視問題,特別是全球模型表現優異。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

這項研究發現,中文母語者在寫英文前,和真人夥伴討論比用GPT-4或沒討論,寫作表現更好。兩種互動都能增加主題熟悉度、信心,減少困難感。建議GPT-4可當輔助工具,但不能取代真人夥伴。 PubMed DOI

翻譯教學很花時間,但AI工具能自動化重複工作。現在缺乏阿拉伯語相關資料集,這項研究用GPT把SauLTC轉成平行語料庫,方便教學。用餘弦相似度和人工評估檢查品質,發現LaBSE加GPT的組合相似度最高,達85.2%,顯示AI很有潛力協助翻譯教學資源建置。 PubMed DOI

研究發現,隨著ChatGPT等大型語言模型普及,生醫論文摘要中有特定風格用詞明顯增加。2024年,至少13.5%的摘要疑似經LLM處理,部分領域甚至高達40%。LLM對生醫寫作的影響前所未見,甚至超越COVID-19疫情時期。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI

這篇論文提出一個結合深度語境嵌入和CNN的混合模型,專門提升像LLaMA2這類大型語言模型在標準化中文文本處理的表現。新方法能同時抓住語意和結構特徵,讓中文NLP任務更準確又有效率,並在多項測試中表現優異,也有望應用在翻譯和情感分析等領域。 PubMed DOI