原始文章

這篇文章介紹汶萊首個公開房地產資料集,收錄1993到2025年超過三萬筆房產刊登資料,內容包含價格、地點、類型等資訊。資料來源多元,結合人工和自動化蒐集,並用AI處理文字。雖然刊登價不等於成交價,但這資料集對房市、經濟和都市規劃研究很有幫助。 PubMed DOI


站上相關主題文章列表

這項研究介紹了一個全面的孟加拉語數據集,來自九個新聞網站,收錄超過190萬篇文章,涵蓋體育、經濟、政治等多個類別。數據集包含標題、內容、發佈時間等屬性,旨在幫助數據科學家探索孟加拉語自然語言處理的理論,並有助於開發針對當地情境的大型語言模型,以及創建主題分類的深度學習和機器學習模型。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

衛星影像的可用性不斷提升,讓地球表面地圖的繪製加速,但準確性仍受限於現場數據不足。公民科學計畫如Geo-Wiki和Picture Pile雖有效收集數據,但仍需更佳策略來優化志願者的時間與努力。雖然部分專案已開始使用機器學習,生成式AI的潛力尚未被充分利用。本文探討如何透過生成式AI改善土地覆蓋與使用的繪製,特別是整合多模態大型語言模型(MLLMs),以提升AI的空間意識,進而增強數據收集與繪圖的效率。 PubMed DOI

這項研究用BERT和Llama3.3等AI模型,自動分析2000到2022年非法腎臟買賣的新聞,建立詳細資料庫,記錄各國在事件中是賣家、買家、中介還是手術地點。AI能準確辨識國家角色,發現發展中國家多是供應者,已開發國家則多為買家。這方法比傳統技術更精確提取地理和角色資訊。 PubMed DOI

BRAD agent 是一套開源軟體,能把大型語言模型和外部研究工具、資料來源整合,提升生醫研究的透明度和可重現性。它強調資料來源清楚、操作流程可靠,能自動化文獻檢索、biomarker 發現等任務,彈性高,適合多種應用。原始碼和文件都已公開。 PubMed DOI

這篇研究發現,用GPT-4o這類大型語言模型,只要給很少範例,就能準確從科學文獻中擷取材料性質資料,還能用資料增強法提升傳統模型表現。研究也分析了錯誤和資料品質,幫助了解實際應用時會遇到的問題。 PubMed DOI

這項研究比較GPT-4 Turbo和Elicit兩款AI工具,從33篇社區型漁業管理論文中擷取質性資料的表現。結果發現,AI在抓取情境性資料時表現不一,但有時能和人工審查者一樣好。整體來說,AI可協助文獻回顧,但還是需要人工把關,顯示AI有潛力但目前仍有限制。 PubMed DOI

DeepInnovationAI 是全球性的 AI 創新資料集,收錄超過 230 萬筆 AI 專利、350 萬篇論文,以及 350 萬組論文-專利配對。透過語言模型和超圖分析,能協助研究 AI 創新趨勢、合作網絡與國際競爭,對學術和產業都很有幫助。 PubMed DOI