The perils and promises of fact-checking with large language models.
使用大型語言模型進行事實核查的危機與潛力。 Front Artif Intell 2024-02-24

GPT-4等大型語言模型在事實核查上扮演重要角色，尤其在防止假消息擴散。瞭解它們的能力和限制對維護資訊環境至關重要。研究指出，提供上下文資訊可增進模型表現。雖GPT-4比GPT-3強，但準確性受查詢語言和真實性主張影響。使用時應謹慎，呼籲進一步研究以深入了解模型成功與失敗。 PubMed DOI

Exploring climate change discourse on social media and blogs using a topic modeling analysis.
在社交媒體和部落格上使用主題建模分析探討氣候變遷的討論。 Heliyon 2024-07-01

氣候變遷是全球重要議題，了解民眾想法對政策制定至關重要。透過NLP和資料視覺化分析社群媒體和部落格內容，使用BERTopic和LDA等技術找出主題，並根據句子相似度分組評論。比較了不同關鍵詞提取方法，發現基於OpenAI的BERTopic效果最好。研究提供了民眾對氣候變遷態度的見解，有助於政策制定和因應氣候變遷。 PubMed DOI

Testing the reliability of an AI-based large language model to extract ecological information from the scientific literature.
測試基於人工智慧的大型語言模型從科學文獻中提取生態信息的可靠性。 NPJ Biodivers 2024-09-06

這項研究評估大型語言模型（LLMs）在從科學文獻中提取生態數據的表現，並與人類審稿人進行比較。結果顯示，LLMs提取相關數據的速度超過50倍，對於離散和類別數據的準確率超過90%。不過，它們在某些定量數據的提取上仍有困難。雖然LLMs能顯著提升建立大型生態數據庫的效率，但仍需額外的質量保證措施來確保數據的完整性。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Large language models (LLMs) and the institutionalization of misinformation.
大型語言模型 (LLMs) 與錯誤資訊的制度化。 Trends Cogn Sci 2024-10-11

對於大型語言模型（LLMs）可能擴散錯誤資訊的擔憂是合理的，因為這些模型生成的內容難以與可信來源區分，容易造成真實與虛假資訊的混淆。這可能導致錯誤資訊的強化，讓人們難以辨別事實。使用者互動和分享這些內容，可能形成反饋循環，進一步鞏固錯誤資訊。這樣的情況可能影響民主過程、信任機構，甚至造成社會分裂。因此，推廣媒體素養、批判性思維及事實查核機制非常重要。同時，提升LLMs訓練和資訊來源的透明度，能減少錯誤資訊的風險，確保科技能增進我們對現實的理解。 PubMed DOI

Fact-checking information from large language models can decrease headline discernment.
大型語言模型的事實查核資訊可能會降低標題辨識能力。 Proc Natl Acad Sci U S A 2024-12-04

這項研究探討大型語言模型（LLM）在事實查核方面對政治新聞標題的影響。雖然該模型在識別虛假標題的準確率高達90%，但並未顯著提升參與者的辨識能力或分享準確新聞的意圖。相對而言，人類生成的查核更有效。此外，AI查核可能導致對真實標題的信念下降，對虛假標題的信念上升。總之，雖然AI能協助查核，但錯誤標記也可能帶來風險，需謹慎應用並制定相關政策。 PubMed DOI

Utilizing large language models for identifying future research opportunities in environmental science.
利用大型語言模型識別環境科學未來研究機會。 J Environ Manage 2024-12-14

這項研究強調環境科學中創新研究方法的必要性，以應對氣候變遷和生物多樣性喪失等全球挑戰。由於現有文獻的複雜性，識別有意義的研究主題變得困難。傳統文獻計量學無法捕捉新興跨學科領域，但人工智慧（AI）和大型語言模型（LLMs）的進步提供了新機會。研究發現，GPT-3.5在分析環境科學前沿主題上表現更佳，顯示跨學科研究、AI和大數據對解決環境挑戰的重要性。LLMs可成為研究人員的寶貴工具，提供未來研究方向的靈感。 PubMed DOI

A dataset for evaluating clinical research claims in large language models.
用於評估大型語言模型臨床研究主張的數據集。 Sci Data 2025-01-17

CliniFact是一個新推出的數據集，旨在提升大型語言模型（LLMs）對健康聲明的驗證能力。它包含1,970個來自22種疾病的獨特臨床試驗實例，重點在假設檢驗結果。數據集提供研究組別、介入措施及主要結果的詳細資訊，並將聲明與科學出版物的證據連結。在評估中，BioBERT模型的準確率達80.2%，遠超過Llama3-70B的53.6%。這顯示CliniFact在臨床研究聲明驗證中的基準潛力，並回應醫療應用中對幻覺和邏輯理解的擔憂。 PubMed DOI

Large language models: Tools for new environmental decision-making.
大型語言模型：新環境決策的工具。 J Environ Manage 2025-02-02

這項研究首次探討大型語言模型（LLMs）在環境決策中的應用，分析其潛在優勢與限制。研究提出兩個框架：一是LLMs輔助的框架，增強人類專業知識；二是LLMs驅動的框架，自動化優化任務。透過水工程中PFAS控制的案例，顯示這兩個框架在環境決策中的優化效果。結果顯示，LLMs輔助框架在調節流量和改善PFAS攔截上表現良好，而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識，為未來的合作奠定基礎。 PubMed DOI

Use of large language models to identify pseudo-information: Implications for health information.
大型語言模型在識別偽資訊中的應用：對健康資訊的影響。 Health Info Libr J 2025-03-20

這項研究分析了四個大型語言模型（LMMs）——ChatGPT-4o、Claude 3.5 Sonnet、Gemini 和 Copilot——在辨識開放存取文章中的錯誤健康資訊的效果。結果顯示，ChatGPT-4o 和 Claude 能有效標記不可靠文章，但Gemini 和 Copilot卻漏掉了幾個重要問題。在驗證階段，ChatGPT-4o 的準確性無法重現，只有Claude持續檢測出重大問題。研究指出，這些模型在識別虛假資訊上存在顯著差異，並建議改進以提升其在健康應用中的可靠性。 PubMed DOI

原始文章

站上相關主題文章列表