這項研究介紹了一個全面的孟加拉語數據集,來自九個新聞網站,收錄超過190萬篇文章,涵蓋體育、經濟、政治等多個類別。數據集包含標題、內容、發佈時間等屬性,旨在幫助數據科學家探索孟加拉語自然語言處理的理論,並有助於開發針對當地情境的大型語言模型,以及創建主題分類的深度學習和機器學習模型。 PubMed DOI ♡
這篇文獻回顧專注於偵測超偏見新聞,這類新聞對特定政黨有強烈偏見,導致讀者極化,影響社會凝聚力與民主穩定。透過機器學習和深度學習的進展,自動化工具可協助解決此問題。回顧採用PRISMA方法,涵蓋2015至2024年間的81篇文章,系統整理偵測方法與數據集。分析中指出該領域的空白,如對超偏見的定義不明及少數語言資源不足。雖然深度學習模型表現佳,但大型語言模型的潛力尚未被充分發掘,為未來研究奠定基礎。 PubMed DOI
這篇文章介紹汶萊首個公開房地產資料集,收錄1993到2025年超過三萬筆房產刊登資料,內容包含價格、地點、類型等資訊。資料來源多元,結合人工和自動化蒐集,並用AI處理文字。雖然刊登價不等於成交價,但這資料集對房市、經濟和都市規劃研究很有幫助。 PubMed DOI
這項研究針對烏爾都語假新聞偵測資源不足的問題,建立了超過7.8萬篇標註新聞的大型資料集,並用LLaMA 2模型進行單語和多語微調。結果在準確率和F1分數上都大幅超越過去方法,且採用LoRA微調提升運算效率。資料集已公開,有助後續相關研究與應用。 PubMed DOI