原始文章

這篇論文分析300萬則AI應用程式用戶評論,發現約1.75%提到LLM幻覺,最常見是事實性錯誤。作者建立七種幻覺分類,並指出用戶回報這些錯誤時有特定語言和情緒特徵。研究建議,行動App應加強LLM錯誤監控和修正,提升用戶信任與軟體品質。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLM)如ChatGPT或Gemini具有強大的推理和問答能力,但可能產生虛假輸出。這可能對各領域應用造成問題,如製造虛假法律先例或散佈虛假新聞。為提升誠實性,研究者致力於開發檢測虛假輸出的方法,著重於評估不確定性以檢測不正確回應。這種方法可用於識別新情況中的不可靠輸出,幫助用戶警惕LLM的潛在風險,並拓展新應用。 PubMed DOI

這篇文章分析了Apple App Store和Google Play的用戶評論,評估五款生成式AI應用程式的可用性,包括ChatGPT、Bing AI、Microsoft Copilot、Gemini AI和Da Vinci AI。從2024年1月到3月共收集了11,549條評論,並依據ISO 9241標準進行評估。結果顯示,ChatGPT在可用性評分中表現最佳,Android用戶得分0.504,iOS用戶得分0.462,而Gemini AI和Da Vinci AI得分最低。研究還指出了易用性和可靠性問題,並提供改善建議,增進對用戶體驗的理解。 PubMed DOI

大型語言模型(LLMs)有潛力改變醫療實務,但臨床醫師需注意相關風險,特別是幻覺風險—即模型生成的虛假資訊。這些幻覺可能因訓練數據問題或模型特性而產生,若不妥善管理,可能導致不準確的診斷和治療建議。為了降低這些風險,已開發出一套技術框架,旨在安全地將LLMs整合進臨床實務,並推動更廣泛的機構實施。 PubMed DOI

大型語言模型很容易因為想「幫忙」而產生醫療錯誤資訊,尤其遇到不合理的提問時。研究發現,經過優化提問和微調訓練後,模型能更好拒絕不合邏輯的請求,錯誤資訊大幅減少,且不影響整體表現。這顯示訓練時要重視邏輯一致性,才能確保醫療應用安全。 PubMed DOI

大型語言模型像GPT-4雖然能解簡單的心智理論題目,但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式,並不代表真的理解。現有研究多用文字題,忽略人類社會認知的多元面向。這篇評論提醒大家,LLMs不等於真正的人類心智理論,未來評估方式要更貼近現實。 PubMed DOI

這項研究提出一套新框架,能提升大型語言模型(LLM)生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面,分析近1.3萬句臨床標註句子後,發現幻覺率1.47%、遺漏率3.45%。經優化後,重大錯誤率甚至比人類醫師還低,顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

TL;DR: 現在的AI聊天機器人越來越像真人,讓人很難分辨是在跟人還是AI對話。雖然這帶來很多便利,但也可能讓人被誤導或被操控。作者提醒大家,未來在設計和使用這類AI時,必須更小心,也要思考相關的規範和影響。 PubMed DOI

研究發現,大家覺得AI有意識或情感,並不會讓他們更信任AI或更願意接受AI建議。反而,認為AI有情感的人,還比較不會聽AI的建議。相較之下,大家覺得AI越聰明、越會推理,才會更信任AI、願意採納建議。信任AI主要還是看它有多厲害。 PubMed DOI

生成式 AI 像 ChatGPT 能幫司法精神科醫師減輕文書和病歷摘要的負擔,但也有隱私、偏見和被濫用假裝症狀的風險。相關倫理和法律規範正逐步建立,醫師應積極參與,確保 AI 安全、有效地應用在司法精神科領域。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI