原始文章

這篇論文探討了傳統大型語言評估的限制,特別是在聽力和口語方面。聽力評估常無法真實反映互動能力,而口語則受限於任務格式。雖然自動化評估有潛力,但仍面臨挑戰。論文提出利用大型語言模型來增強自動化題目生成,創造更複雜的評估內容。具體而言,為Duolingo英語測試開發的互動聽力任務能更真實地評估考生的對話能力。研究顯示,這種方法有效且能改善語言測試中的互動能力評估。 PubMed DOI


站上相關主題文章列表

新興科技,特別是人工智慧(AI),對教育產生重大影響,尤其在語言學習領域。這項研究評估了ChatGPT這個AI工具在正式英語語言學習中的實用性,結果顯示對話、寫作、語法和詞彙等任務都有效。研究對象包括不同程度和背景的學生,對評估ChatGPT在語言教育技術上的貢獻有所助益。 PubMed DOI

研究發現人工智慧輔助英語學習對中國學生的寫作能力和學習動機有正面影響。學生使用人工智慧後,寫作能力和動機都有明顯進步。不同意見也顯示了人工智慧的優勢和疑慮。研究強調了教育領域持續發展和適應人工智慧工具的重要性。 PubMed DOI

生成式人工智慧目前不太用於文本分析,但在評估情緒上有潛力。一研究比較了ChatGPT和LIWC工具的分析結果,發現兩者關聯較小,ChatGPT在22%情況下計算LIWC分析時出錯。這顯示大型語言模型處理詞語和數字可能不可靠,使用時要謹慎。 PubMed DOI

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

這篇論文探討了在教育領域運用生成式人工智慧(AI)的好處,專注於設計AI教育影片助手以提升多元學習體驗。這個工具整合了轉錄、參與度和強化模組,運用自動語音識別技術。研究結果透過人工評估和自動指標的綜合方式評估了這個工具對學習體驗的影響,顯示對參與度、內容組織和可用性有積極影響,呈現AI強化教育設計並提供個人化學習體驗的潛力。 PubMed DOI

這篇論文研究了ChatGPT對學習和評估的影響,尤其是在學術論文評估上。研究發現ChatGPT能提供高質量原創內容,但在一致性和引用方面有挑戰。建議重新思考高教評量方式,應對AI干擾,提出新的AI輔助評估框架,不僅考量知識,也包括能力和表現。 PubMed DOI

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

這項研究比較了使用生成預訓練變壓器(GPT)與傳統方法開發的臨床與專業技能評估(CPSA)項目的有效性、考官看法及成本。研究對象為最後一年醫學生,開發了兩組各六個案例,其中一個是用GPT創建的。分析239名學生的表現,結果顯示兩者在難度和區分能力上無顯著差異。考官反饋認為GPT案例具挑戰性和現實性,且使用GPT可節省57%的成本。研究顯示GPT能以較低成本產生相似質量的CPSA項目,未來可探討其在其他臨床領域的應用。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何應用於分析課堂對話,以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識,研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據,將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示,GPT-4能顯著節省時間,且編碼一致性高,顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI