Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Evaluating large language models in analysing classroom dialogue.
評估大型語言模型在分析課堂對話中的表現。 NPJ Sci Learn 2024-10-02

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何應用於分析課堂對話，以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識，研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據，將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示，GPT-4能顯著節省時間，且編碼一致性高，顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

A qualitative survey on perception of medical students on the use of large language models for educational purposes.
醫學生對於大型語言模型在教育用途上使用的看法之質性調查。 Adv Physiol Educ 2024-10-24

這項研究透過電話訪談，調查印度醫學生對大型語言模型（LLMs）在醫學教育中的看法。25名學生的回應經過分析後，整理出三個主要主題：使用情境、增強學習和LLMs的限制。學生們表示，LLMs幫助他們澄清複雜主題、尋找客製化答案、解決選擇題、創建簡化筆記及簡化作業。他們欣賞這些工具的易用性和省時優勢，但也擔心不準確性、可靠性和隱私問題。學生強調需要培訓，以有效整合LLMs進醫學教育。總體而言，LLMs有潛力提升醫學教育，但需解決挑戰以發揮其優勢。 PubMed DOI

Large language models for whole-learner support: opportunities and challenges.
全方位學習者支持的大型語言模型：機遇與挑戰。 Front Artif Intell 2024-10-30

近年來，大型語言模型（LLMs）在教育領域的應用越來越普遍，然而創建個性化學習環境仍面臨挑戰。文章提到三大挑戰：首先是可解釋性，需增強對LLMs如何理解學習者的認識；其次是適應性，需開發技術提供個性化教學支持；最後是創作與評估，需建立基於LLM的教育代理。克服這些挑戰將有助於打造更符合學生需求的AI輔導員，進而提升學習成效。 PubMed DOI

Using large language models to detect outcomes in qualitative studies of adolescent depression.
使用大型語言模型來檢測青少年憂鬱症質性研究中的結果。 J Am Med Inform Assoc 2024-12-11

這項研究探討如何利用大型語言模型（LLMs）來識別青少年抑鬱症訪談中的心理治療結果。作者建立了一個編碼框架，能夠捕捉多樣的治療結果，並評估五個開源LLM的分類能力。實驗結果顯示，這些模型能有效分類31種結果，ROC曲線下面積得分在0.6到1.0之間，成功識別出友誼和學業表現等重要結果。研究強調了臨床數據的應用，顯示詳細編碼治療結果的可行性，並有助於量化重要結果。 PubMed DOI

Evaluating large language models for criterion-based grading from agreement to consistency.
從一致性到一致性：評估大型語言模型在標準基礎評分中的應用。 NPJ Sci Learn 2024-12-31

這項研究探討大型語言模型（LLMs）在依據標準評分的有效性，以及提示工程的影響。透過使用既定的人類基準進行定量分析，結果顯示即使是免費的LLMs也能有效評分，顯示出對標準的深刻理解。這表明，對主題內容的理解比模型的複雜性更重要。研究結果顯示，LLMs在教育環境中提供可擴展的反饋具有很大的潛力。 PubMed DOI

Leveraging LLMs and wearables to provide personalized recommendations for enhancing student well-being and academic performance through a proof of concept.
利用大型語言模型和可穿戴設備提供個性化建議，以通過概念驗證提升學生的福祉和學業表現。 Sci Rep 2025-02-07

這項研究探討如何利用大型語言模型（LLMs）為高中生提供個性化建議，以提升他們的福祉和學業表現。研究分析了12名學生的數據，包括Fitbit指標和學校表現，並針對每位學生生成建議。結果顯示，雖然建議通常清晰可行，但與學生個別數據的對應程度有所不同，顯示出改進空間。研究強調了LLMs在個性化支持的潛力，但也需進一步驗證和完善，未來應聚焦於介入研究及解決倫理和數據隱私問題。 PubMed DOI

Leveraging on large language model to classify sentences: a case study applying STAGES scoring methodology for sentence completion test on ego development.
利用大型語言模型進行句子分類：應用 STAGES 評分方法於自我發展的句子完成測試案例研究。 Front Psychol 2025-02-21

這項案例研究探討大型語言模型（LLMs）在自我發展測量中的應用，這對成人個性成長至關重要。研究評估專家與LLMs生成的自我發展階段分類的一致性，結果顯示加權Kappa值為0.779，顯示出顯著一致性，證明LLMs能有效自動化此過程。不過，在單句分析上仍有改進空間。研究結果顯示，自動化系統能提供穩健的數據，適用於多層次分析，對組織心理學和企業分析具價值。整體而言，這方法論可應用於其他LLMs的分類任務，展現其在文本分析中的潛力。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

AI Driven Wearables and Large Language Models for Student Well-Being: A Preliminary Study.
AI 驅動的可穿戴設備與大型語言模型對學生福祉的影響：一項初步研究。 Stud Health Technol Inform 2025-04-09

這份報告探討了將大型語言模型（LLMs）與可穿戴技術結合的初步成果，目的是提供個性化建議，提升學生的福祉與學業表現。我們分析了學生的數據，包括可穿戴設備的指標和學術報告的質性反饋，進行情感分析以評估情緒狀態。研究顯示，LLMs能有效分析文本數據，提供實用見解，幫助了解學生的參與度並找出改進空間，顯示出LLMs在教育上的潛力，能更深入理解學生需求。 PubMed DOI

原始文章

站上相關主題文章列表