原始文章

這項研究發現,ChatGPT-4 在基礎統計分析上表現接近 SPSS,但在進階統計(如 MANOVA)會出錯;而 ChatGPT o3-mini 在相關分析和多變量檢定時,結果常不準確或誇大。整體來說,AI 工具雖有潛力,但目前還無法完全取代傳統統計軟體,特別是在複雜分析上。 PubMed DOI


站上相關主題文章列表

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這項研究評估了ChatGPT-4在醫學和牙科研究中進行統計分析的準確性,並與SPSS軟體的結果進行比較。研究涵蓋了多種統計測試,包括t檢定、ANOVA、卡方檢定和相關分析。結果顯示,ChatGPT-4在簡單分析(如獨立t檢定)中表現良好,但在複雜分析(如事後檢定和信賴區間)上則出現差異。雖然ChatGPT-4在許多測試中準確,但建議研究人員仍需與SPSS等工具進行結果驗證,以確保可靠性。 PubMed DOI

這項研究評估了ChatGPT-4 Omni(GPT-4o)在生物醫學統計分析的表現,並與傳統工具SPSS進行比較。研究於2024年5月在沙烏地阿拉伯的國王沙烏德大學進行,分析了三個數據集。結果顯示,GPT-4o的總得分為73分(滿分85分),得分率85.88%,分析時間為38.43分鐘。不同數據集的表現有所差異,小型數據集得分84%,中型80%,大型91.42%。GPT-4o能生成準確圖表,但需清晰指示以減少錯誤。整體而言,GPT-4o在生物醫學數據分析中表現優異。 PubMed DOI

這項研究評估了OpenAI的AI對話工具ChatGPT在數據分析中的有效性,特別是探索性因素分析(EFA)。研究人員生成了不同條件下的模擬數據,並在兩次不同時間點使用ChatGPT-4進行分析,與R語言的結果進行比較。結果顯示,ChatGPT在計算任務上表現良好,尤其是KMO值和因素載荷的計算,但在確定多維結構時存在一些偏差。因此,研究人員在依賴AI進行決策時應保持謹慎。總體而言,ChatGPT在簡單計算任務上顯示出潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在心理健康診斷和治療的能力,包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示,ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士,但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣,但專業人士則偏好具體的精神科諮詢。總體來看,雖然LLMs能協助診斷和治療計畫,但在複雜情況下仍需專業監督。 PubMed DOI

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性,特別作為數據分析工具。研究使用全國住院病人樣本的子集,重點在數據管理、描述性統計和推論統計。主要發現包括: 1. **數據處理和分類**:ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**:提供正確的均值、標準差等計算。 3. **推論統計**:準確率隨提示具體性提升,從32.5%到92.5%不等。 結論認為,ChatGPT對具備基本統計知識的研究人員是個有價值的工具,但需謹慎構建提示並進行監督,以確保結果準確。 PubMed DOI

這項研究發現,ChatGPT-4在調整和執行常見的老年人心理健康問卷時,表現和傳統方法有中到高度的一致性與可靠性。顯示ChatGPT-4有機會成為心理健康評估的輔助工具,但還需要更多研究來驗證其廣泛應用的可行性。 PubMed DOI

這項研究發現,ChatGPT在心理諮詢上的專業度、同理心和人性化表現,跟人類諮商師差不多。不過,AI還是能被辨識出來,主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說,ChatGPT有潛力協助心理健康,但還有不少實務和倫理挑戰要解決。 PubMed DOI