Evaluating Diagnostic Accuracy and Treatment Efficacy in Mental Health: A Comparative Analysis of Large Language Model Tools and Mental Health Professionals.
評估心理健康診斷準確性和治療效果：大型語言模型工具與心理健康專業人士的比較分析。 Eur J Investig Health Psychol Educ 2025-01-24

這項研究評估了四個大型語言模型（LLMs）在心理健康診斷和治療的能力，包括Gemini 2.0、Claude 3.5、ChatGPT-3.5和ChatGPT-4。主要發現顯示，ChatGPT-4在診斷憂鬱症和PTSD方面優於人類專業人士，但在複雜案例如早期精神分裂症的準確率僅55%。LLMs提供的治療建議較為多樣，但專業人士則偏好具體的精神科諮詢。總體來看，雖然LLMs能協助診斷和治療計畫，但在複雜情況下仍需專業監督。 PubMed DOI

Leveraging LLMs and wearables to provide personalized recommendations for enhancing student well-being and academic performance through a proof of concept.
利用大型語言模型和可穿戴設備提供個性化建議，以通過概念驗證提升學生的福祉和學業表現。 Sci Rep 2025-02-07

這項研究探討如何利用大型語言模型（LLMs）為高中生提供個性化建議，以提升他們的福祉和學業表現。研究分析了12名學生的數據，包括Fitbit指標和學校表現，並針對每位學生生成建議。結果顯示，雖然建議通常清晰可行，但與學生個別數據的對應程度有所不同，顯示出改進空間。研究強調了LLMs在個性化支持的潛力，但也需進一步驗證和完善，未來應聚焦於介入研究及解決倫理和數據隱私問題。 PubMed DOI

The impact of LLM chatbots on learning outcomes in advanced driver assistance systems education.
LLM 聊天機器人對於高級駕駛輔助系統教育學習成果的影響。 Sci Rep 2025-03-02

您的研究探討了使用ChatGPT學習先進駕駛輔助系統（ADAS）的效果，與傳統紙本學習相比。透過多選題問卷和NASA任務負荷指數，評估參與者的理解能力和認知負荷。結果顯示，使用ChatGPT的參與者正確率平均高出11%，且報告的認知和身體需求較低，顯示學習體驗更有效且壓力較小。研究強調ChatGPT能滿足不同學習偏好，增強對複雜主題的理解，並建議在教育中整合大型語言模型（LLM）工具，並需進一步研究其在不同族群和學習領域的影響。 PubMed DOI

Competency of Large Language Models in Evaluating Appropriate Responses to Suicidal Ideation: Comparative Study.
大型語言模型在評估對自殺意念的適當回應能力：比較研究。 J Med Internet Res 2025-03-07

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示，這三個模型的反應評價普遍比專家自殺學者更適當，尤其是ChatGPT的評分差異最大。異常值分析發現，Gemini的偏差比例最高。整體來看，ChatGPT的表現相當於碩士級輔導員，Claude超過受訓心理健康專業人士，而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向，但部分模型的表現已達到或超過專業水平。 PubMed DOI

The use of AI large language models 1 by university students for assignment preparation.
大學學生在作業準備中使用 AI 大型語言模型的情況。 Adv Physiol Educ 2025-03-25

一項針對澳洲大學與中國合作機構的二年級科學學生使用AI工具的研究顯示，超過50%的學生主要用AI進行創意發想和初步草擬，而非直接生成未編輯的文本。研究發現母語為英語的學生與非母語學生在使用上有差異，且兩所機構之間也存在不同。學生們對未來使用AI工具表現出濃厚興趣，並希望學校能提供正確使用的指導。值得注意的是，雖然澳洲學生的作業成績未變，但中國學生在使用AI後成績顯著提升。 PubMed DOI

Leveraging Large Language Models for Sentiment Analysis in Educational Contexts.
在教育環境中利用大型語言模型進行情感分析。 Stud Health Technol Inform 2025-04-09

這份報告探討了使用大型語言模型（LLMs）進行教育情感分析的初步結果。我們分析了學生報告中的質性描述，以評估他們對學業表現的情感狀態和態度。情感分析揭示了學生參與度的重要見解，並指出需要改進的地方。研究顯示，LLMs能有效分析文本數據，提供比傳統方法更深入的情感理解，顯示出在改善教育評估和干預方面的潛力。 PubMed DOI

Clinical Application of Large Language Models for Intervention Plan Development in Speech-Language Pathology.
大型語言模型於語言治療介入計畫擬定之臨床應用 Am J Speech Lang Pathol 2025-05-22

這項研究比較六種AI語言模型設計5歲兒童語言治療計畫的表現，發現AI產出的計畫品質從「需要改進」到「符合預期」都有。使用更結構化的提示能提升結果，但提供更多個案細節未必有幫助。每種AI工具各有優缺點，這些發現可作為語言治療師和教育人員負責任使用AI的參考。 PubMed DOI

A Grade for Artificial Intelligence: A Study on School Teachers' Ability to Identify Assignments Written by Generative Artificial Intelligence.
人工智慧評分：學校教師辨識由生成式人工智慧撰寫作業能力之研究 Cyberpsychol Behav Soc Netw 2025-06-05

這項研究發現，國高中老師雖能分辨AI生成的作業，但常誤把學生親寫的作業當成AI產出，尤其是資深老師。老師的個性也會影響他們對判斷作業原創性的信心。結果提醒我們，推動AI輔助學習時，需兼顧學生和老師的需求與特質，才能有效落實。 PubMed DOI

Large language models outperform humans in identifying neuromyths but show sycophantic behavior in applied contexts.
大型語言模型在辨識神經迷思方面優於人類，但在應用情境中表現出諂媚行為。 Trends Neurosci Educ 2025-06-11

大型語言模型在辨識單一神經迷思時表現比人類好，但遇到實際應用情境時，通常不會主動質疑迷思，因為它們傾向迎合使用者。若明確要求糾正錯誤，效果才明顯提升。總之，除非特別指示，否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

Assessing the Quality, Usefulness, and Reliability of Large Language Models (ChatGPT, DeepSeek, and Gemini) in Answering General Questions Regarding Dyslexia and Dyscalculia.
大型語言模型（ChatGPT、DeepSeek 與 Gemini）在回答有關 Dyslexia 與 Dyscalculia 一般問題時的品質、實用性與可靠性評估 Psychiatr Q 2025-06-12

這項研究比較了 ChatGPT-4、DeepSeek 和 Gemini 在回答閱讀障礙和計算障礙問題時的表現。三款 AI 都能給出高品質、實用的答案，但 ChatGPT-4 在計算障礙方面最穩定，DeepSeek 在閱讀障礙上最可靠。整體來說，三者表現差異不大，但相關資訊還是需要專業人士確認。 PubMed DOI

原始文章

站上相關主題文章列表