原始文章

在當前數位時代,準確辨識氣候資訊的真偽非常重要,因為錯誤資訊會影響公眾認知和政策決策。本研究針對氣候聲明的事實查核挑戰,提出了Climinator,這是一個利用大型語言模型的工具。Climinator整合權威來源,透過獨特的辯論框架來增強自動化查核能力,提供可信且具上下文的分析。它能即時偵測錯誤資訊,促進有關氣候變遷的討論,展現人工智慧在環境對話和政策制定中的潛力。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)的環境影響引發了不同看法。一些研究指出,訓練和使用LLMs會產生顯著的碳足跡,而另一些則認為LLMs可能比傳統方法更可持續。我們的分析顯示,儘管LLMs對環境有影響,但在美國,它們的效率可能高於人力勞動。經濟考量可能促使人類與LLMs共同工作,而非單純取代。隨著LLMs規模增長,能源消耗可能上升,這凸顯了持續研究以確保其可持續性的重要性。 PubMed DOI

CliniFact是一個新推出的數據集,旨在提升大型語言模型(LLMs)對健康聲明的驗證能力。它包含1,970個來自22種疾病的獨特臨床試驗實例,重點在假設檢驗結果。數據集提供研究組別、介入措施及主要結果的詳細資訊,並將聲明與科學出版物的證據連結。在評估中,BioBERT模型的準確率達80.2%,遠超過Llama3-70B的53.6%。這顯示CliniFact在臨床研究聲明驗證中的基準潛力,並回應醫療應用中對幻覺和邏輯理解的擔憂。 PubMed DOI

這項研究首次探討大型語言模型(LLMs)在環境決策中的應用,分析其潛在優勢與限制。研究提出兩個框架:一是LLMs輔助的框架,增強人類專業知識;二是LLMs驅動的框架,自動化優化任務。透過水工程中PFAS控制的案例,顯示這兩個框架在環境決策中的優化效果。結果顯示,LLMs輔助框架在調節流量和改善PFAS攔截上表現良好,而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識,為未來的合作奠定基礎。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

這篇論文探討大型語言模型(LLMs)如ChatGPT在編輯用戶生成內容(UGC)時的意外影響,特別是情感變化。分析氣候變遷推文後發現,LLMs重述的推文通常情感更中立,這可能扭曲依賴UGC的研究結果。為了應對這些偏見,論文提出兩種策略:一是使用預測模型識別原始情感,二是微調LLMs以更好地對齊人類情感。整體而言,研究強調了LLMs對UGC情感的影響,並提供減少偏見的實用方法,確保情感分析的可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動化選舉虛假資訊操作的潛力,介紹了名為DisElect的數據集,包含2,200個惡意提示和50個良性提示,專為英國情境設計。結果顯示,大多數LLM會遵從生成惡意內容的請求,少數拒絕的模型也會拒絕良性請求,特別是右派觀點的內容。此外,自2022年以來,許多LLM生成的虛假資訊與人類文本幾乎無法區分,部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊,為研究人員和政策制定者提供基準。 PubMed DOI

這項研究分析了四個大型語言模型(LMMs)——ChatGPT-4o、Claude 3.5 Sonnet、Gemini 和 Copilot——在辨識開放存取文章中的錯誤健康資訊的效果。結果顯示,ChatGPT-4o 和 Claude 能有效標記不可靠文章,但Gemini 和 Copilot卻漏掉了幾個重要問題。在驗證階段,ChatGPT-4o 的準確性無法重現,只有Claude持續檢測出重大問題。研究指出,這些模型在識別虛假資訊上存在顯著差異,並建議改進以提升其在健康應用中的可靠性。 PubMed DOI

這項研究開發了 SourceCheckup 工具,能自動檢查 GPT-4o 等大型語言模型在健康問題回答時,所引用的資料是否真的可靠。結果顯示,七種 LLM 中有 50–90% 的回答其實沒被來源完整支持,就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點,顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

這項研究發現,把像GPT-4這類大型語言模型結合進階RAG系統,並用大量COVID-19研究資料,可以大幅提升自動事實查核的準確度與可靠性。進階RAG模型(CRAG、SRAG)不僅減少幻覺現象,還能提供更有根據的解釋,整體表現比單純LLM更好,對抗疫情期間的錯假訊息很有幫助。 PubMed DOI

這項研究發現,只要經過細心設計和調整,大型語言模型(LLMs)在回答保育問題時,表現可媲美人類專家。但如果直接用沒客製化的 LLMs,結果可能很差,甚至會產生誤導資訊。總結來說,LLMs 有潛力幫助專家更有效利用保育證據,但一定要針對專業領域優化才行。 PubMed DOI