原始文章

最近的研究指出,雖然ChatGPT在社會科學的文本標註上有潛力,但其封閉源碼的特性引發了透明度和數據保護的擔憂。相比之下,開源的大型語言模型(LLMs)提供了更好的解決方案。本研究系統性比較了開源LLMs、ChatGPT及傳統監督式機器學習的表現,使用美國新聞媒體的推文數據集進行二元文本標註任務。結果顯示,ChatGPT與開源模型的表現差異顯著,而基於DistilBERT的監督式分類器通常表現更佳。因此,對於重要的文本標註任務,建議謹慎使用ChatGPT。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這項研究評估了OpenAI的AI對話工具ChatGPT在數據分析中的有效性,特別是探索性因素分析(EFA)。研究人員生成了不同條件下的模擬數據,並在兩次不同時間點使用ChatGPT-4進行分析,與R語言的結果進行比較。結果顯示,ChatGPT在計算任務上表現良好,尤其是KMO值和因素載荷的計算,但在確定多維結構時存在一些偏差。因此,研究人員在依賴AI進行決策時應保持謹慎。總體而言,ChatGPT在簡單計算任務上顯示出潛力。 PubMed DOI

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時,研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示,ChatGPT在大多數領域表現良好,但在可轉移性和分析深度上有所不同。六個關鍵主題包括:與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據,但深入分析仍需人類參與以增強深度。 PubMed DOI

這項研究分析了ChatGPT發布後,Twitter上對大型語言模型(LLMs)的討論,特別是ChatGPT和GPT-3。透過超過59,000條推文的主題建模和情感分析,發現普通人和技術專業人士的態度存在差異。研究指出,關於ChatGPT的討論多集中在商業應用,且常帶有負面情緒;而GPT-3的討論則較為正面,涵蓋倫理等多元主題。這顯示出進一步研究的必要性,以了解LLMs的影響與風險,並為政策制定者提供參考。 PubMed DOI

這項研究比較了大型語言模型(LLM)ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中,40名由LLM訪談,38名由人類面試官訪談。結果顯示,無論是LLM還是人類,建議問題都能引導出更準確的信息。雖然LLM提問較少,但獲得的獨特正確信息更多,且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題,未來仍需進一步研究其在實際情境中的應用。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

大型語言模型(LLM)雖然讓科學資訊更容易取得,但在摘要科學研究時,常常會把結論講得太廣,甚至比原本研究還誇張。測試10款主流LLM後發現,26%到73%的摘要都有這問題,LLM比人類更容易過度泛化,尤其是新一代模型。這會讓大眾誤解科學內容,建議調低LLM溫度參數,並加強泛化準確度的檢測。 PubMed DOI

一份針對健康資料科學碩士生的調查發現,84%學生會用ChatGPT等大型語言模型來寫程式、debug等工作,超過一半每天都用。大家覺得LLMs很方便又省時,但也擔心太依賴、資料隱私和引用正確性。研究建議老師課程要結合LLMs,並加強學生的問題解決和批判思考能力。 PubMed DOI

研究用兩個自訂GPT模型和人工審查者比較,評估系統性回顧的偏誤風險和參與程度。結果顯示,GPT模型的分類和人工類似,但在細節分布上有些不同,統計上沒顯著差異。雖然GPT有潛力,但還需要更多研究才能正式應用在科學實務上。 PubMed DOI