原始文章

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何應用於分析課堂對話,以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識,研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據,將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示,GPT-4能顯著節省時間,且編碼一致性高,顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI


站上相關主題文章列表

討論人工智慧、自然語言處理和大型語言模型對教育和研究的影響,包括優勢、挑戰和應用。強調文本生成、數據分析、教育支援、評分和心理健康輔助等應用。解決道德問題和偏見至關重要,探討AI在教育和研究中的角色,強調其積極變革的潛力。 PubMed DOI

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這項研究探討大型語言模型(LLMs)在護理教育中的應用,強調轉向更互動的學習環境。研究分析了自2022年以來的文獻,找出19篇相關研究。結果顯示,LLMs在自然語言處理的進步,能改善課程傳遞、促進批判性思維,並模擬複雜的臨床情境。文章全面分析了目前的應用、挑戰及未來研究方向,特別是像ChatGPT這樣的LLMs在護理教育中的使用,並呼籲整合人工智慧以提升教育成果,確保道德與有效性。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究比較了傳統機器學習演算法和大型語言模型在評估學生解決物理問題時的效果。雖然大型語言模型在教育上有創新潛力,但也存在生成不準確資訊、缺乏可解釋性及資源需求高等限制。結果顯示,傳統機器學習演算法在這個情境中表現更佳,特別是在有標記數據的情況下,能有效補充大型語言模型。因此,研究人員在選擇方法時應考慮具體情境和可用資源。 PubMed DOI

這項研究探討了使用大型語言模型(LLM),特別是ChatGPT 3.5,來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現,ChatGPT與教師評分的協議率達67%,顯示出合理的一致性,且能有效減少教師評分時間五倍,潛在節省約150小時。總體而言,這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估,減輕教師負擔。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT,如何幫助準備服務的小學數學教師在幾何學中發展數學證明。研究分析了學生與LLMs的經驗、對模型運作的信念及互動情況。結果顯示,學生對LLMs的經驗有限,主要用於非數學領域,且對技術的理解多為表面,存在誤解。分析中也發現了不同類型的數學提示,並在互動中識別出三個層級的模式。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Gemini,在體育生理課程中評分書面作業的效果。研究比較了這些AI模型與人類評分者在使用布魯姆分類法的評分準則下的準確性和可靠性。結果顯示,雖然LLMs有一定的評估能力,但仍未達到人類評分者的水準,人類之間的評分一致性較高。人類與LLM的評分相關性通常為中等到較差,顯示AI在教育評估中的輔助潛力,但也強調了AI技術和教育者學習策略需持續改進。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI