原始文章

常識推理在人工智慧中是一大挑戰,特別是在可行性評估方面。由於這個領域尚未深入研究,人類標註的基準對進展至關重要。這篇文章介紹了如何透過亞馬遜機械土耳其進行大規模眾包,重新標註SemEval-2020任務4的常識可行性數據集。我們收集了10,000個標註,涵蓋2,000個句子,並對其進行多重標註。還評估了GPT-3.5和GPT-4模型的表現,並將其標籤與人類標註者進行比較。這個數據集將成為分析人類與機器常識推理的重要資源,支持AI研究的發展。 PubMed DOI


站上相關主題文章列表

GPT-4功能強大,但在推理、透明度、虛構事實和偏見方面有限制。為了解決這些問題,提出了「Chain-of-thought prompting」技術,用於表達推理步驟。ThoughtSource是一個元數據集和軟體庫,支持Chain-of-thought推理,旨在增強人工智慧系統。整合了各種跨科學、一般和數學領域的問答數據集。 PubMed DOI

機器常識推理是人工智慧領域的一個研究方向,專注於讓機器在日常情境中像人類一樣思考和行動。進展通常是透過問答資料集來評估機器模型。這項研究探討了來自人類標註者的數據,用以建立常識推理的基準。這些數據以 JSON 和試算表檔案的形式組織,可用於分析標註過程和標註者的一致性。 PubMed DOI

研究使用GPT-4建立英文心理語言學數據集,發現其語義判斷與人類相關,有時甚至超越人類水準。研究指出GPT-4生成的範疇與人類有系統性差異,對統計模型影響有限。研究討論了使用GPT-4的影響和限制,提及數據質量和有效性問題。數據集包含30,000個GPT-4判斷,可供進一步研究。 PubMed DOI

這篇文章強調評估大型語言模型在人工智慧問題上的重要性,特別是在機器常識推理方面。提到人類標記基準中的噪音影響,建議進行噪音審計。研究指出,即使在高質量標記設置中,噪音也會明顯影響人工智慧系統的性能估計,建議重新評估依賴單一「地面真相」在人工智慧研究中的做法。 PubMed DOI

大型語言模型在醫療AI領域有潛力,但需要高品質標記數據,提出眾包框架帶質量控制措施,使用Bio-BERT測試自閉症症狀預測,即時質量控制比事前提高19%質量。眾包數據微調Bio-BERT可增召回率但降精確度。研究顯示眾包和質量控制在醫療AI中潛力,優化LLMs做更好決策和患者護理。 PubMed DOI

研究指出,使用大型語言模型(LLMs)取代人類受試者進行數據收集,引入了新方法「number needed to beat」(NNB),用來評估人類數據質量與頂尖LLM如GPT-4相比的差距。實驗結果顯示,在英語任務中,NNB大於1,但各任務有所不同。結合LLM和人類數據的「centaur」方法被證實比單獨使用更有效。研究考量了數據成本和質量的權衡,建議此框架可協助判斷何時以及如何運用LLM生成的數據。 PubMed DOI

這項研究探討如何從新穎性、可行性和價值的角度評估創造力,並使用GPT-4進行日文的替代用途測試。傳統測試常忽略可行性和價值,但這對實際應用很重要。研究透過群眾外包收集了30個項目的數據,實驗不同的提示設計。結果顯示,要求一次性提供多個回應的提示設計效果最佳,準確性與現有技術相當,且不需先前訓練數據。這項研究為未來創造力評估提供了實用平台和有價值的數據。 PubMed DOI

這項研究探討了使用 GPT-4 標註社交媒體文本,特別是立場檢測,因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集,並由專家標註以確保品質。他們測試了三種提示技術:零樣本、少樣本和帶思考鏈的零樣本,以評估 GPT-4 的表現。 研究結果顯示,GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯,但未能超越經過人工標註微調的模型。特別是,帶思考鏈的零樣本方法在標註方面表現優於標準零樣本,且效果接近少樣本方法。 PubMed DOI

這項研究探討大型語言模型(LLMs)與人類的推理能力,使用有限理性的認知心理學工具進行比較。實驗中,我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示,許多LLMs的推理錯誤與人類相似,且受到啟發式影響。然而,深入分析後發現,人類與LLMs的推理存在顯著差異,較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在,但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義,特別是在比較人類與機器行為的挑戰上。 PubMed DOI

這項研究探討大型自然語言模型如GPT-3和GPT-4如何幫助社會心理學研究者生成新假設。由於該領域發現眾多,整合想法變得困難,可能會錯過重要聯繫。研究採用兩種方法:首先對GPT-3進行微調,使用數千篇社會心理學摘要,專家評分後發現其生成的假設在清晰度和創新性上與人類相似;其次不微調使用GPT-4,結果顯示其生成的假設在多個維度上評分更高。總體來看,這些模型能有效支持假設生成。 PubMed DOI