原始文章

這項研究探討了使用 GPT-4 標註社交媒體文本,特別是立場檢測,因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集,並由專家標註以確保品質。他們測試了三種提示技術:零樣本、少樣本和帶思考鏈的零樣本,以評估 GPT-4 的表現。 研究結果顯示,GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯,但未能超越經過人工標註微調的模型。特別是,帶思考鏈的零樣本方法在標註方面表現優於標準零樣本,且效果接近少樣本方法。 PubMed DOI


站上相關主題文章列表

研究比較了在推特和新聞文本標註任務中,ChatGPT和眾包工作者的表現。結果顯示ChatGPT在相關性、立場、主題和框架檢測等任務上優於眾包工作者,準確性和一致性也更高。ChatGPT比MTurk等平台更划算,顯示大型語言模型可有效提升文本分類效率。 PubMed DOI

這項研究比較了人類和生成式預訓練轉換器(GPT)-4在為科學論文撰寫求職信時的效果。研究發現,根據盲檢評審的評估,GPT-4在這項任務中與人類一樣出色。此外,GPT-4在客觀易讀性測試中得分更高。研究結果表明,GPT-4可以用來提高研究人員撰寫求職信的效率。 PubMed DOI

ChatGPT和GPT-4在一般自然語言任務表現很好,但在法律文本論點挖掘方面還有待提升。研究指出,透過多樣提示和範例檢驗GPT-3.5和GPT-4在這方面的表現。結果顯示,有時候領域專用模型比GPT更有效,可能是因為數據集的複雜性。提示的設計對GPT的表現有影響,不同的嵌入模型結果相似。因此,了解提示結構對於優化GPT的表現至關重要。 PubMed DOI

研究發現,大型語言模型在醫療保健領域有潛力,尤其在識別轉移性癌症患者方面。GPT-4表現最佳,提示和推理步驟清晰簡潔效果更好。即使改變輸入標記,GPT-4仍保持高準確性。建議透過策略性提示設計,GPT-4或許可取代專門模型,提升醫療應用。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

這項研究著重評估GPT-4在生物醫學評論論文中的文本、表格和圖表生成能力,並強調一致性和抄襲問題。提出了一些建議,以增強ChatGPT在科學領域的應用,包括改進文件處理、理解複雜的生物醫學概念、精確的表格生成,以及為科學圖表設計專用模型。 PubMed DOI

這項研究探討了支撐ChatGPT的GPT模型在多語言心理文本分析中的有效性。研究分析了15個數據集,包含47,925條推文和新聞標題,評估GPT在12種語言中檢測情感、情緒等心理構念的能力。結果顯示,GPT的表現超越傳統方法,且隨著版本更新準確性提升,特別是在不常用語言中,具成本效益。研究建議GPT能民主化自動文本分析,促進跨語言研究,並提供範例代碼和教學。 PubMed DOI

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先,作為研究圖書館員,GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次,GPT-4在識別研究倫理問題方面表現出色,成功糾正了大部分明顯和微妙的違規。第三,兩者都能重現文化偏見,顯示出數據生成的潛力。最後,兩者在預測新數據方面的能力有限。總體來看,雖然GPT模型有所進步,但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

這項研究評估了GPT-4在心理健康管理認證測試中的表現,重點在於調整提示是否能提升結果。研究者使用3 × 2的因子設計,測試600道多選題,並比較了簡單提示與調整提示的效果。結果顯示,GPT-4在不同難度級別的得分相近,且兩種提示條件之間沒有顯著差異。雖然調整提示未顯著提升表現,但能減少錯誤並改善輸出組織。該研究已在UMIN-CTR註冊。 PubMed DOI

這篇文章探討了生成預訓練變壓器(GPT)模型,特別是GPT-4在各領域的影響。重點在於模型的核心功能、特點及實際應用,並強調提示工程的重要性。文章提供了創建最佳提示的建議,並舉例說明GPT在文獻回顧、數據分析和手稿準備中的應用。作者認為GPT能提升研究效率和創造力,但應視為輔助工具,而非取代人類專業知識。文章也討論了倫理問題和GPT的限制,呼籲研究人員負責任地使用這項技術。 PubMed DOI