Detecting hallucinations in large language models using semantic entropy.
利用語義熵檢測大型語言模型中的幻覺。 Nature 2024-06-19

大型語言模型（LLM）如ChatGPT或Gemini具有強大的推理和問答能力，但可能產生虛假輸出。這可能對各領域應用造成問題，如製造虛假法律先例或散佈虛假新聞。為提升誠實性，研究者致力於開發檢測虛假輸出的方法，著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出，幫助用戶警惕LLM的潛在風險，並拓展新應用。 PubMed DOI

User-centric AI: evaluating the usability of generative AI applications through user reviews on app stores.
以使用者為中心的人工智慧：透過應用商店的使用者評論評估生成式人工智慧應用的可用性。 PeerJ Comput Sci 2024-12-09

這篇文章分析了Apple App Store和Google Play的用戶評論，評估五款生成式AI應用程式的可用性，包括ChatGPT、Bing AI、Microsoft Copilot、Gemini AI和Da Vinci AI。從2024年1月到3月共收集了11,549條評論，並依據ISO 9241標準進行評估。結果顯示，ChatGPT在可用性評分中表現最佳，Android用戶得分0.504，iOS用戶得分0.462，而Gemini AI和Da Vinci AI得分最低。研究還指出了易用性和可靠性問題，並提供改善建議，增進對用戶體驗的理解。 PubMed DOI

The Clinicians' Guide to Large Language Models: A General Perspective With a Focus on Hallucinations.
大型語言模型的臨床醫師指南：一般觀點與聚焦於幻覺的探討。 Interact J Med Res 2025-01-28

大型語言模型（LLMs）有潛力改變醫療實務，但臨床醫師需注意相關風險，特別是幻覺風險—即模型生成的虛假資訊。這些幻覺可能因訓練數據問題或模型特性而產生，若不妥善管理，可能導致不準確的診斷和治療建議。為了降低這些風險，已開發出一套技術框架，旨在安全地將LLMs整合進臨床實務，並推動更廣泛的機構實施。 PubMed DOI

When Helpfulness Backfires: LLMs and the Risk of Misinformation Due to Sycophantic Behavior.
當助人反成害：大型語言模型（LLMs）因諂媚行為導致錯誤資訊風險 Res Sq 2025-05-02

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊，尤其遇到不合理的提問時。研究發現，經過優化提問和微調訓練後，模型能更好拒絕不合邏輯的請求，錯誤資訊大幅減少，且不影響整體表現。這顯示訓練時要重視邏輯一致性，才能確保醫療應用安全。 PubMed DOI

Artificial Intelligence and the Illusion of Understanding: A Systematic Review of Theory of Mind and Large Language Models.
人工智慧與理解的錯覺：Theory of Mind 與大型語言模型的系統性回顧 Cyberpsychol Behav Soc Netw 2025-05-07

大型語言模型像GPT-4雖然能解簡單的心智理論題目，但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式，並不代表真的理解。現有研究多用文字題，忽略人類社會認知的多元面向。這篇評論提醒大家，LLMs不等於真正的人類心智理論，未來評估方式要更貼近現實。 PubMed DOI

A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation.
用於醫學文本摘要之大型語言模型（LLMs）臨床安全性與幻覺率評估框架 NPJ Digit Med 2025-05-13

這項研究提出一套新框架，能提升大型語言模型（LLM）生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面，分析近1.3萬句臨床標註句子後，發現幻覺率1.47%、遺漏率3.45%。經優化後，重大錯誤率甚至比人類醫師還低，顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

The benefits and dangers of anthropomorphic conversational agents.
擬人化對話代理的益處與風險 Proc Natl Acad Sci U S A 2025-05-16

TL;DR：現在的AI聊天機器人越來越像真人，讓人很難分辨是在跟人還是AI對話。雖然這帶來很多便利，但也可能讓人被誤導或被操控。作者提醒大家，未來在設計和使用這類AI時，必須更小心，也要思考相關的規範和影響。 PubMed DOI

The influence of mental state attributions on trust in large language models.
大語言模型心理狀態歸因對信任的影響 Commun Psychol 2025-05-25

研究發現，大家覺得AI有意識或情感，並不會讓他們更信任AI或更願意接受AI建議。反而，認為AI有情感的人，還比較不會聽AI的建議。相較之下，大家覺得AI越聰明、越會推理，才會更信任AI、願意採納建議。信任AI主要還是看它有多厲害。 PubMed DOI

AI-Assisted Deception and the Emerging Challenge of LLMs in Forensic Psychiatry.
AI輔助詐欺與大型語言模型（LLMs）在法醫精神醫學中新興的挑戰 J Am Acad Psychiatry Law 2025-05-27

生成式 AI 像 ChatGPT 能幫司法精神科醫師減輕文書和病歷摘要的負擔，但也有隱私、偏見和被濫用假裝症狀的風險。相關倫理和法律規範正逐步建立，醫師應積極參與，確保 AI 安全、有效地應用在司法精神科領域。 PubMed DOI

Do Language Model Agents Align with Humans in Rating Visualizations? An Empirical Study.
語言模型代理在評分視覺化圖表時是否與人類一致？一項實證研究 IEEE Comput Graph Appl 2025-07-09

大型語言模型在視覺化任務中，特別有專家指引時，能模擬人類評分與推理，且在專家信心高時表現與人類相近。不過，LLMs在穩定性和偏誤上仍有限，適合用來快速原型評估，但還是無法完全取代傳統使用者研究。 PubMed DOI

原始文章

站上相關主題文章列表