原始文章

這項研究介紹了一個全面的孟加拉語數據集,來自九個新聞網站,收錄超過190萬篇文章,涵蓋體育、經濟、政治等多個類別。數據集包含標題、內容、發佈時間等屬性,旨在幫助數據科學家探索孟加拉語自然語言處理的理論,並有助於開發針對當地情境的大型語言模型,以及創建主題分類的深度學習和機器學習模型。 PubMed DOI


站上相關主題文章列表

研究探討2020年6月1日至2023年12月31日期間,針對大型語言模型(LLMs)的主題建模方法。使用Web of Science和LexisNexis數據,聚焦於"Large language model"、"LLM"和"ChatGPT"等LLMs。評估LDA、NMF、CTM和BERTopic等方法,發現BERTopic表現最佳。新聞報導著重LLM應用,學術論文則更專業。研究提供LLMs未來挑戰見解,對LLM服務業者有幫助。 PubMed DOI