原始文章

在機器學習中,平衡預測準確性、模型可解釋性和領域泛化是一大挑戰。我們研究了77,640個配置中的120個可解釋模型和166個不透明模型,進行文本分類以識別文本複雜性,並預測讀者的處理難度感知。結果顯示,任務1中準確性與可解釋性之間存在權衡,但在任務2中,可解釋模型在領域泛化上表現更佳。加入乘法互動也增強了可解釋模型的能力。我們強調使用大型數據集訓練,並整合外部理論與分佈外數據以驗證模型,確保穩健性。 PubMed DOI


站上相關主題文章列表

目前增強大型語言模型的策略主要是透過擴大模型規模、數據量和計算能力,並進行後處理和微調。然而,這樣的調整可能會影響模型的可靠性。我們的研究發現,雖然模型在簡單任務上表現不錯,但在低難度領域的準確性卻不穩定,特別是人類監督能夠發現的錯誤。早期模型常避免回答,而新模型則可能給出看似合理但實際錯誤的回應。這顯示出對通用人工智慧的重新設計是必要的,尤其是在需要可預測錯誤的應用中。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這篇論文探討大型語言模型(LLMs)對自然科學和社會科學的影響,特別是透過生成代理模型(GABMs)模擬人類行為。研究涵蓋網絡科學、演化博弈論等領域,顯示LLMs能預測社會行為、增強合作及模擬疾病傳播。雖然LLMs能模仿公平性和合作,但仍面臨提示敏感性和幻覺等挑戰,影響行為一致性。未來研究應聚焦於完善模型、標準化方法,並探討LLMs與人類互動可能帶來的新合作行為,重塑決策過程。 PubMed DOI

這篇論文批判性地回顧了可解釋人工智慧(XAI)的方法,特別針對AI聊天機器人如ChatGPT。目的是探討如何增強這些系統的可解釋性,並識別挑戰與限制,建議未來研究方向。論文強調透明度和可解釋性對於促進用戶信任的重要性,並討論跨學科的方法,如結合知識圖譜來改善可解釋性,滿足以用戶為中心的設計需求。最後,提供的見解旨在指導透明、可靠且高效的AI聊天機器人發展。 PubMed DOI

這項研究探討大型語言模型(如 GPT-4)如何在不微調的情況下實現超出分佈的泛化,特別是從輸入提示推斷隱藏規則。研究重點在於變壓器的訓練動態及歸納頭的角色。主要發現指出,OOD 泛化與模型在自注意力層間組合資訊的能力有關,並且嵌入空間中的共享潛在子空間有助於這種組合,形成「共同橋接表徵假說」。這顯示模型的早期層和後期層能夠協調,以支持學習 OOD 任務所需的規則。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

這篇論文評估了兩個大型語言模型(LLMs)的視覺素養,分別是 OpenAI 的 GPT 和 Google 的 Gemini。研究目的是建立它們在視覺化能力上的基準。雖然這些模型在生成描述和圖表設計上有潛力,但它們的視覺化評估能力仍未被充分檢視。透過修改過的 53 項視覺素養評估測試(VLAT),結果顯示這些 LLMs 的視覺素養水平低於普通公眾,且在回答問題時多依賴先前知識,而非視覺化呈現的信息。 PubMed DOI

大型語言模型(LLM)雖然讓科學資訊更容易取得,但在摘要科學研究時,常常會把結論講得太廣,甚至比原本研究還誇張。測試10款主流LLM後發現,26%到73%的摘要都有這問題,LLM比人類更容易過度泛化,尤其是新一代模型。這會讓大眾誤解科學內容,建議調低LLM溫度參數,並加強泛化準確度的檢測。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI