Detecting hallucinations in large language models using semantic entropy.
利用語義熵檢測大型語言模型中的幻覺。 Nature 2024-06-19

大型語言模型（LLM）如ChatGPT或Gemini具有強大的推理和問答能力，但可能產生虛假輸出。這可能對各領域應用造成問題，如製造虛假法律先例或散佈虛假新聞。為提升誠實性，研究者致力於開發檢測虛假輸出的方法，著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出，幫助用戶警惕LLM的潛在風險，並拓展新應用。 PubMed DOI

AdversaFlow: Visual Red Teaming for Large Language Models with Multi-Level Adversarial Flow.
AdversaFlow：針對大型語言模型的多層對抗流可視化紅隊測試。 IEEE Trans Vis Comput Graph 2024-09-16

這篇論文介紹了AdversaFlow，一個視覺分析系統，旨在提升大型語言模型（LLMs）對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識，限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力，並具備創新的視覺化功能，幫助專家理解對抗動態。論文中提供了定量評估和案例研究，顯示AdversaFlow能有效提升LLM的安全性，特別在社交媒體監管等應用上，能幫助檢測和減輕有害內容。 PubMed DOI

Large language models (LLMs) and the institutionalization of misinformation.
大型語言模型 (LLMs) 與錯誤資訊的制度化。 Trends Cogn Sci 2024-10-11

對於大型語言模型（LLMs）可能擴散錯誤資訊的擔憂是合理的，因為這些模型生成的內容難以與可信來源區分，容易造成真實與虛假資訊的混淆。這可能導致錯誤資訊的強化，讓人們難以辨別事實。使用者互動和分享這些內容，可能形成反饋循環，進一步鞏固錯誤資訊。這樣的情況可能影響民主過程、信任機構，甚至造成社會分裂。因此，推廣媒體素養、批判性思維及事實查核機制非常重要。同時，提升LLMs訓練和資訊來源的透明度，能減少錯誤資訊的風險，確保科技能增進我們對現實的理解。 PubMed DOI

Improving authenticity and provenance in digital biomarkers: the case for digital watermarking.
提升數位生物標記的真實性和來源：數位水印的案例。 NPJ Digit Med 2025-01-15

隨著數位生物標記（DBx）技術的進步，產生的數據量不斷增加，對醫療評估、診斷和監測變得愈加重要。然而，數據的激增也引發了對其真實性和準確性的擔憂。近期研究指出，大型語言模型（LLMs）可能加劇這些風險。為了應對這些挑戰，研究建議採用數位水印技術，以確保數據的完整性，並提升DBx數據的可靠性與來源，進而解決健康系統中的相關問題。 PubMed DOI

Echoes of authenticity: Reclaiming human sentiment in the large language model era.
真實性的回聲：在大型語言模型時代重拾人類情感。 PNAS Nexus 2025-02-26

這篇論文探討大型語言模型（LLMs）如ChatGPT在編輯用戶生成內容（UGC）時的意外影響，特別是情感變化。分析氣候變遷推文後發現，LLMs重述的推文通常情感更中立，這可能扭曲依賴UGC的研究結果。為了應對這些偏見，論文提出兩種策略：一是使用預測模型識別原始情感，二是微調LLMs以更好地對齊人類情感。整體而言，研究強調了LLMs對UGC情感的影響，並提供減少偏見的實用方法，確保情感分析的可靠性。 PubMed DOI

Large language models can consistently generate high-quality content for election disinformation operations.
大型語言模型可以持續生成高品質內容，用於選舉虛假資訊操作。 PLoS One 2025-03-17

這項研究探討大型語言模型（LLMs）在自動化選舉虛假資訊操作的潛力，介紹了名為DisElect的數據集，包含2,200個惡意提示和50個良性提示，專為英國情境設計。結果顯示，大多數LLM會遵從生成惡意內容的請求，少數拒絕的模型也會拒絕良性請求，特別是右派觀點的內容。此外，自2022年以來，許多LLM生成的虛假資訊與人類文本幾乎無法區分，部分模型甚至超越人類的「人性化」水平。這顯示LLM能以低成本有效生成高品質的選舉虛假資訊，為研究人員和政策制定者提供基準。 PubMed DOI

Ethical-Lens: Curbing malicious usages of open-source text-to-image models.
倫理視角：遏制開源文本轉圖像模型的惡意使用。 Patterns (N Y) 2025-04-04

隨著Midjourney和DALL·E 3等文本生成圖像模型的興起，內容創作方式發生了變化，但也帶來了倫理問題，特別是開源模型被濫用的風險。為了解決這些問題，我們提出了Ethical-Lens框架，旨在確保這些工具的使用符合道德標準，而不需改變模型本身。Ethical-Lens透過優化用戶輸入和修正模型輸出來解決毒性和偏見問題。我們的實驗顯示，Ethical-Lens能提升對齊能力，並在圖像生成品質上達到或超越商業模型的水準，顯示其在推動開源工具負責任發展的潛力。 PubMed DOI

Industrial applications of large language models.
大型語言模型的產業應用 Sci Rep 2025-04-21

大型語言模型（LLMs）能理解和產生自然語言，正改變醫療、教育、金融等產業，提升效率和準確度。不過，LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制，並探討未來趨勢。 PubMed DOI

Large Language Models for Synthetic Dataset Generation of Cybersecurity Indicators of Compromise.
用於生成網路安全威脅指標（Indicators of Compromise, IoC）合成資料集的大型語言模型 Sensors (Basel) 2025-05-14

這項研究解決了社群媒體上IoC分類缺乏高品質標註資料的問題，透過微調GPT-3.5來產生擬真合成資料集。用這些資料訓練模型，準確率最高達82%，證明微調後的LLM能有效生成有用的資安資料，提升IoC分類表現，對資安領域很有幫助。 PubMed DOI

Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.
大型語言模型可用於提取人類神經影像學文獻的註釋中繼資料 bioRxiv 2025-06-04

最新的商業大型語言模型（像GPT-4o），在神經影像的中繼資料標註上，表現幾乎跟專業人員一樣好（zero-shot下得分0.91–0.97），錯誤率也差不多，很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集，方便未來測試。 PubMed DOI

原始文章

站上相關主題文章列表