原始文章

這篇文章介紹汶萊首個公開房地產資料集,收錄1993到2025年超過三萬筆房產刊登資料,內容包含價格、地點、類型等資訊。資料來源多元,結合人工和自動化蒐集,並用AI處理文字。雖然刊登價不等於成交價,但這資料集對房市、經濟和都市規劃研究很有幫助。 PubMed DOI


站上相關主題文章列表

大型語言模型的崛起導致了從網絡文本中創建預訓練數據集的增加。將這些數據集視為非正式檔案庫,研究人員分析它們對塑造模型行為以外的影響,突顯在數據選擇中的主觀價值取向決策。這種檔案館觀點為研究科技社會影響的研究人員提供了洞察,以應對創建此類數據集時的挑戰。 PubMed DOI

這項研究介紹了一個全面的孟加拉語數據集,來自九個新聞網站,收錄超過190萬篇文章,涵蓋體育、經濟、政治等多個類別。數據集包含標題、內容、發佈時間等屬性,旨在幫助數據科學家探索孟加拉語自然語言處理的理論,並有助於開發針對當地情境的大型語言模型,以及創建主題分類的深度學習和機器學習模型。 PubMed DOI

ChatGPT 和類似的 AI 技術在科學研究中的應用引起了廣泛關注。有效利用 AI 的關鍵在於高品質、大規模的數據可用性。考量包括: 1. **數據來源**:各領域如基因組學、氣候科學等產生大量數據,公共數據庫可提供訪問。 2. **數據質量**:高品質、標註良好的數據集對訓練 AI 模型至關重要。 3. **跨學科合作**:不同學科合作可創建綜合數據集,增強研究。 4. **倫理考量**:需注意隱私、數據所有權及偏見問題。 5. **數據可及性**:確保數據對研究人員可及,保護敏感信息。 6. **持續數據生成**:新技術可提供穩定數據流。 總之,持續供應高品質數據對 AI 在科學研究中的成功至關重要。 PubMed DOI

人工智慧(AI)的發展推動了應用材料的研究,但常常只聚焦於文獻中常見的材料,限制了候選材料的多樣性。為了解決這個問題,研究團隊建立了一個包含1,453,493個自然語言-材料敘述的數據集,來自多個資料庫,確保元素的均衡代表性。這些敘述經過人類專家和GPT-4模型的評估,結果顯示兩者評分相似,但人類在內容深度上有所不足。這種數據與大型語言模型的結合,為AI在固態材料的探索和發現提供了新機會。 PubMed DOI

這篇論文探討如何利用大型語言模型(LLMs)來簡化生物醫學數據處理,特別是自動化數據發現與整合。我們推廣互操作性標準,透過創建共同數據元素(CDEs)來提升數據整合的效率。經過分析三十一項研究,我們開發了CDEs,並使用API填寫OpenAI GPT模型的元數據。經專家審查,94%的元數據無需手動修訂。我們的方法在阿茲海默症和帕金森基因計畫的數據中測試,顯示出良好的互操作性,旨在提升生物醫學研究的效率與合作性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在識別孕婦臨床筆記中的住房不安全性方面的效果。主要發現顯示,GPT-4在識別住房不穩定案例上表現優於GPT-3.5,回憶率達0.924,超過人類抽取者的0.702。雖然GPT-4的精確度低於人類,但在去識別筆記中略有提升。研究建議,雖然手動抽取準確性較高,LLMs如GPT-4提供了可擴展且具成本效益的選擇,適合半自動化抽取,但仍需人類審查以避免錯誤解釋。 PubMed DOI

世界銀行指出,洪水對社區發展造成重大挑戰,可能逆轉減貧進展。本研究分析了506個洪水管理關鍵字與76個國家的32個宏觀環境指標之間的關係,並開發出506個神經網絡模型,顯示洪水管理關鍵字與環境、社會、經濟、政治及文化等面向有關聯。隨著國家可持續性和績效指標改善,洪水相關關鍵字的使用量也會增加。研究還利用Microsoft Azure AI和ChatGPT簡化分析,強調基於證據的洪水資訊的重要性。 PubMed DOI

您的研究強調住房對健康的重要性,並提出利用自然語言處理(NLP)來識別臨床文本中的住房相關概念。透過開發詞彙表和基於規則的方法,您成功從不同群體中提取資訊,特別是在合成群體和物質使用障礙(SUD)群體中,顯示出高召回率和精確率,證明方法的穩健性。不過,對於HEC群體的召回數據不足,顯示需進一步調整。整體而言,您的研究為住房與健康的關聯提供了重要見解,可能影響未來的臨床實踐和政策。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

衛星影像的可用性不斷提升,讓地球表面地圖的繪製加速,但準確性仍受限於現場數據不足。公民科學計畫如Geo-Wiki和Picture Pile雖有效收集數據,但仍需更佳策略來優化志願者的時間與努力。雖然部分專案已開始使用機器學習,生成式AI的潛力尚未被充分利用。本文探討如何透過生成式AI改善土地覆蓋與使用的繪製,特別是整合多模態大型語言模型(MLLMs),以提升AI的空間意識,進而增強數據收集與繪圖的效率。 PubMed DOI