原始文章

最近的研究指出,雖然ChatGPT在社會科學的文本標註上有潛力,但其封閉源碼的特性引發了透明度和數據保護的擔憂。相比之下,開源的大型語言模型(LLMs)提供了更好的解決方案。本研究系統性比較了開源LLMs、ChatGPT及傳統監督式機器學習的表現,使用美國新聞媒體的推文數據集進行二元文本標註任務。結果顯示,ChatGPT與開源模型的表現差異顯著,而基於DistilBERT的監督式分類器通常表現更佳。因此,對於重要的文本標註任務,建議謹慎使用ChatGPT。 PubMed DOI


站上相關主題文章列表

ChatGPT是一個廣泛使用的語言模型,討論了在教育、研究和醫療領域整合的議題。對於ChatGPT的使用觀點有不同意見,尤其在教育領域存在著不確定性。討論了其優缺點,強調了在教育和醫療等重要領域進行進一步探索和謹慎採用的必要性。 PubMed DOI

研究探討了OpenAI的ChatGPT AI聊天機器人的功能、應用和限制。ChatGPT廣泛運用在教育、程式設計、內容生成等領域,展現多功能性。儘管具潛力,但也面臨抄襲、可靠性和偏見等問題。ChatGPT與傳統搜尋引擎不同,但也有偏見和收入挑戰。儘管有限制,ChatGPT被視為具有重新定義生成技術潛力的AI工具。AI的進步改變知識應用方式,強調對AI素養和有效運用AI的需求。 PubMed DOI

ChatGPT對科學研究的影響仍有爭議,但在支持質性研究方面的潛力尚未完全被了解。本文探討了ChatGPT在分析訪談文本方面的表現,並與人類研究者進行了比較。ChatGPT識別出與人類研究者相似的主題,包括更微妙的動態。它提出了一個代碼手冊和關鍵引文,具有表面效度但需要進一步審查。ChatGPT能夠將主題與理論話語有力地聯繫起來,儘管仍有挑戰存在,但其表現超出預期,顯示可能有助於質性研究實踐。 PubMed DOI

這項研究探討了使用 GPT-4 標註社交媒體文本,特別是立場檢測,因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集,並由專家標註以確保品質。他們測試了三種提示技術:零樣本、少樣本和帶思考鏈的零樣本,以評估 GPT-4 的表現。 研究結果顯示,GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯,但未能超越經過人工標註微調的模型。特別是,帶思考鏈的零樣本方法在標註方面表現優於標準零樣本,且效果接近少樣本方法。 PubMed DOI

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先,作為研究圖書館員,GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次,GPT-4在識別研究倫理問題方面表現出色,成功糾正了大部分明顯和微妙的違規。第三,兩者都能重現文化偏見,顯示出數據生成的潛力。最後,兩者在預測新數據方面的能力有限。總體來看,雖然GPT模型有所進步,但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

最近大型語言模型(LLMs)如ChatGPT在教育領域的應用,帶來了機會與挑戰。研究探討了ChatGPT在運動學領域生成的教育題目質量,並優化提示語產出30個問題,經專家評估後選出15個進行調查。結果顯示這些題目的難度和區分指數中等,但整體表現略低於傳統的力概念測驗(FCI)。研究強調,雖然LLMs能生成高質量題目,但仍需人類監督與學生反饋,以確保評估的有效性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這篇論文探討開源大型語言模型(LLMs)在政治科學文本分類任務中的效能,包括立場、主題和相關性分類。研究旨在協助研究人員明智選擇LLMs進行文本分析,並設定性能基準。結果顯示,微調能顯著提升開源LLMs的表現,甚至可匹敵或超越零樣本的GPT-3.5和GPT-4。研究還指出,微調比少樣本訓練更有效。作者提供Python筆記本,幫助其他研究人員應用LLMs進行文本標註,相關材料可在指定DOI上獲得。 PubMed DOI

這項研究分析了ChatGPT發布後,Twitter上對大型語言模型(LLMs)的討論,特別是ChatGPT和GPT-3。透過超過59,000條推文的主題建模和情感分析,發現普通人和技術專業人士的態度存在差異。研究指出,關於ChatGPT的討論多集中在商業應用,且常帶有負面情緒;而GPT-3的討論則較為正面,涵蓋倫理等多元主題。這顯示出進一步研究的必要性,以了解LLMs的影響與風險,並為政策制定者提供參考。 PubMed DOI

這項研究比較了大型語言模型(LLM)ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中,40名由LLM訪談,38名由人類面試官訪談。結果顯示,無論是LLM還是人類,建議問題都能引導出更準確的信息。雖然LLM提問較少,但獲得的獨特正確信息更多,且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題,未來仍需進一步研究其在實際情境中的應用。 PubMed DOI