原始文章

在當前數位時代,準確辨識氣候資訊的真偽非常重要,因為錯誤資訊會影響公眾認知和政策決策。本研究針對氣候聲明的事實查核挑戰,提出了Climinator,這是一個利用大型語言模型的工具。Climinator整合權威來源,透過獨特的辯論框架來增強自動化查核能力,提供可信且具上下文的分析。它能即時偵測錯誤資訊,促進有關氣候變遷的討論,展現人工智慧在環境對話和政策制定中的潛力。 PubMed DOI


站上相關主題文章列表

GPT-4等大型語言模型在事實核查上扮演重要角色,尤其在防止假消息擴散。瞭解它們的能力和限制對維護資訊環境至關重要。研究指出,提供上下文資訊可增進模型表現。雖GPT-4比GPT-3強,但準確性受查詢語言和真實性主張影響。使用時應謹慎,呼籲進一步研究以深入了解模型成功與失敗。 PubMed DOI

氣候變遷是全球重要議題,了解民眾想法對政策制定至關重要。透過NLP和資料視覺化分析社群媒體和部落格內容,使用BERTopic和LDA等技術找出主題,並根據句子相似度分組評論。比較了不同關鍵詞提取方法,發現基於OpenAI的BERTopic效果最好。研究提供了民眾對氣候變遷態度的見解,有助於政策制定和因應氣候變遷。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從科學文獻中提取生態數據的表現,並與人類審稿人進行比較。結果顯示,LLMs提取相關數據的速度超過50倍,對於離散和類別數據的準確率超過90%。不過,它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率,但仍需額外的質量保證措施來確保數據的完整性。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

對於大型語言模型(LLMs)可能擴散錯誤資訊的擔憂是合理的,因為這些模型生成的內容難以與可信來源區分,容易造成真實與虛假資訊的混淆。這可能導致錯誤資訊的強化,讓人們難以辨別事實。 使用者互動和分享這些內容,可能形成反饋循環,進一步鞏固錯誤資訊。這樣的情況可能影響民主過程、信任機構,甚至造成社會分裂。因此,推廣媒體素養、批判性思維及事實查核機制非常重要。同時,提升LLMs訓練和資訊來源的透明度,能減少錯誤資訊的風險,確保科技能增進我們對現實的理解。 PubMed DOI

這項研究探討大型語言模型(LLM)在事實查核方面對政治新聞標題的影響。雖然該模型在識別虛假標題的準確率高達90%,但並未顯著提升參與者的辨識能力或分享準確新聞的意圖。相對而言,人類生成的查核更有效。此外,AI查核可能導致對真實標題的信念下降,對虛假標題的信念上升。總之,雖然AI能協助查核,但錯誤標記也可能帶來風險,需謹慎應用並制定相關政策。 PubMed DOI

這項研究強調環境科學中創新研究方法的必要性,以應對氣候變遷和生物多樣性喪失等全球挑戰。由於現有文獻的複雜性,識別有意義的研究主題變得困難。傳統文獻計量學無法捕捉新興跨學科領域,但人工智慧(AI)和大型語言模型(LLMs)的進步提供了新機會。研究發現,GPT-3.5在分析環境科學前沿主題上表現更佳,顯示跨學科研究、AI和大數據對解決環境挑戰的重要性。LLMs可成為研究人員的寶貴工具,提供未來研究方向的靈感。 PubMed DOI

CliniFact是一個新推出的數據集,旨在提升大型語言模型(LLMs)對健康聲明的驗證能力。它包含1,970個來自22種疾病的獨特臨床試驗實例,重點在假設檢驗結果。數據集提供研究組別、介入措施及主要結果的詳細資訊,並將聲明與科學出版物的證據連結。在評估中,BioBERT模型的準確率達80.2%,遠超過Llama3-70B的53.6%。這顯示CliniFact在臨床研究聲明驗證中的基準潛力,並回應醫療應用中對幻覺和邏輯理解的擔憂。 PubMed DOI

這項研究首次探討大型語言模型(LLMs)在環境決策中的應用,分析其潛在優勢與限制。研究提出兩個框架:一是LLMs輔助的框架,增強人類專業知識;二是LLMs驅動的框架,自動化優化任務。透過水工程中PFAS控制的案例,顯示這兩個框架在環境決策中的優化效果。結果顯示,LLMs輔助框架在調節流量和改善PFAS攔截上表現良好,而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識,為未來的合作奠定基礎。 PubMed DOI

這項研究分析了四個大型語言模型(LMMs)——ChatGPT-4o、Claude 3.5 Sonnet、Gemini 和 Copilot——在辨識開放存取文章中的錯誤健康資訊的效果。結果顯示,ChatGPT-4o 和 Claude 能有效標記不可靠文章,但Gemini 和 Copilot卻漏掉了幾個重要問題。在驗證階段,ChatGPT-4o 的準確性無法重現,只有Claude持續檢測出重大問題。研究指出,這些模型在識別虛假資訊上存在顯著差異,並建議改進以提升其在健康應用中的可靠性。 PubMed DOI