ThoughtSource: A central hub for large language model reasoning data.
ThoughtSource：大型語言模型推理數據的中心枢紐。 Sci Data 2023-11-19

GPT-4功能強大，但在推理、透明度、虛構事實和偏見方面有限制。為了解決這些問題，提出了「Chain-of-thought prompting」技術，用於表達推理步驟。ThoughtSource是一個元數據集和軟體庫，支持Chain-of-thought推理，旨在增強人工智慧系統。整合了各種跨科學、一般和數學領域的問答數據集。 PubMed DOI

TG-CSR: A human-labeled dataset grounded in nine formal commonsense categories.
TG-CSR：一個以九個正式常識類別為基礎的人類標記數據集。 Data Brief 2023-10-25

機器常識推理是人工智慧領域的一個研究方向，專注於讓機器在日常情境中像人類一樣思考和行動。進展通常是透過問答資料集來評估機器模型。這項研究探討了來自人類標註者的數據，用以建立常識推理的基準。這些數據以 JSON 和試算表檔案的形式組織，可用於分析標註過程和標註者的一致性。 PubMed DOI

Can large language models help augment English psycholinguistic datasets?
大型語言模型是否有助於擴充英語心理語言學數據集？ Behav Res Methods 2024-01-23

研究使用GPT-4建立英文心理語言學數據集，發現其語義判斷與人類相關，有時甚至超越人類水準。研究指出GPT-4生成的範疇與人類有系統性差異，對統計模型影響有限。研究討論了使用GPT-4的影響和限制，提及數據質量和有效性問題。數據集包含30,000個GPT-4判斷，可供進一步研究。 PubMed DOI

A noise audit of human-labeled benchmarks for machine commonsense reasoning.
機器常識推理人類標記基準的噪音審計。 Sci Rep 2024-04-13

這篇文章強調評估大型語言模型在人工智慧問題上的重要性，特別是在機器常識推理方面。提到人類標記基準中的噪音影響，建議進行噪音審計。研究指出，即使在高質量標記設置中，噪音也會明顯影響人工智慧系統的性能估計，建議重新評估依賴單一「地面真相」在人工智慧研究中的做法。 PubMed DOI

Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare.
透過增強資料品質保證的眾包：在醫療保健領域訓練大型語言模型以緩解資源稀缺挑戰的有效方法。 AMIA Jt Summits Transl Sci Proc 2024-06-03

大型語言模型在醫療AI領域有潛力，但需要高品質標記數據，提出眾包框架帶質量控制措施，使用Bio-BERT測試自閉症症狀預測，即時質量控制比事前提高19%質量。眾包數據微調Bio-BERT可增召回率但降精確度。研究顯示眾包和質量控制在醫療AI中潛力，優化LLMs做更好決策和患者護理。 PubMed DOI

Large Language Models and the Wisdom of Small Crowds.
大型語言模型與小眾智慧。 Open Mind (Camb) 2024-06-03

研究指出，使用大型語言模型（LLMs）取代人類受試者進行數據收集，引入了新方法「number needed to beat」（NNB），用來評估人類數據質量與頂尖LLM如GPT-4相比的差距。實驗結果顯示，在英語任務中，NNB大於1，但各任務有所不同。結合LLM和人類數據的「centaur」方法被證實比單獨使用更有效。研究考量了數據成本和質量的權衡，建議此框架可協助判斷何時以及如何運用LLM生成的數據。 PubMed DOI

Assessing novelty, feasibility and value of creative ideas with an unsupervised approach using GPT-4.
使用 GPT-4 的無監督方法評估創意的創新性、可行性和價值。 Br J Psychol 2024-07-22

這項研究探討如何從新穎性、可行性和價值的角度評估創造力，並使用GPT-4進行日文的替代用途測試。傳統測試常忽略可行性和價值，但這對實際應用很重要。研究透過群眾外包收集了30個項目的數據，實驗不同的提示設計。結果顯示，要求一次性提供多個回應的提示設計效果最佳，準確性與現有技術相當，且不需先前訓練數據。這項研究為未來創造力評估提供了實用平台和有價值的數據。 PubMed DOI

GPT-4 as an X data annotator: Unraveling its performance on a stance classification task.
GPT-4 作為 X 數據標註者：揭示其在立場分類任務上的表現。 PLoS One 2024-08-15

這項研究探討了使用 GPT-4 標註社交媒體文本，特別是立場檢測，因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集，並由專家標註以確保品質。他們測試了三種提示技術：零樣本、少樣本和帶思考鏈的零樣本，以評估 GPT-4 的表現。研究結果顯示，GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯，但未能超越經過人工標註微調的模型。特別是，帶思考鏈的零樣本方法在標註方面表現優於標準零樣本，且效果接近少樣本方法。 PubMed DOI

Studying and improving reasoning in humans and machines.
研究與改善人類和機器的推理能力。 Commun Psychol 2024-09-06

這項研究探討大型語言模型（LLMs）與人類的推理能力，使用有限理性的認知心理學工具進行比較。實驗中，我們分析了人類參與者和不同預訓練LLMs在經典認知任務上的表現。結果顯示，許多LLMs的推理錯誤與人類相似，且受到啟發式影響。然而，深入分析後發現，人類與LLMs的推理存在顯著差異，較新的LLMs表現出更少的限制。雖然可以提升表現的策略存在，但人類和LLMs對提示技術的反應卻不同。我們討論了這些發現對人工智慧及認知心理學的意義，特別是在比較人類與機器行為的挑戰上。 PubMed DOI

Machine-assisted social psychology hypothesis generation.
機器輔助社會心理學假說生成。 Am Psychol 2024-09-16

這項研究探討大型自然語言模型如GPT-3和GPT-4如何幫助社會心理學研究者生成新假設。由於該領域發現眾多，整合想法變得困難，可能會錯過重要聯繫。研究採用兩種方法：首先對GPT-3進行微調，使用數千篇社會心理學摘要，專家評分後發現其生成的假設在清晰度和創新性上與人類相似；其次不微調使用GPT-4，結果顯示其生成的假設在多個維度上評分更高。總體來看，這些模型能有效支持假設生成。 PubMed DOI

原始文章

站上相關主題文章列表