Is AI changing learning and assessment as we know it? Evidence from a ChatGPT experiment and a conceptual framework.
人工智慧是否正在改變我們所知道的學習和評估方式？來自 ChatGPT 實驗和概念框架的證據。 Heliyon 2024-02-22

這篇論文研究了ChatGPT對學習和評估的影響，尤其是在學術論文評估上。研究發現ChatGPT能提供高質量原創內容，但在一致性和引用方面有挑戰。建議重新思考高教評量方式，應對AI干擾，提出新的AI輔助評估框架，不僅考量知識，也包括能力和表現。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Results and implications for generative AI in a large introductory biomedical and health informatics course.
大型生物醫學與健康資訊學入門課程中生成式 AI 的結果與影響。 NPJ Digit Med 2024-09-13

這項研究評估了六個大型語言模型（LLM）的表現，並與生物醫學及健康資訊學課程學生的知識評估分數進行比較。研究涵蓋139名學生，包括研究生、繼續教育學生和醫學生，他們回答了多選題和期末考。結果顯示，這些LLM的得分介於學生的第50到75百分位之間，表現相當不錯。這引發了對高等教育中學生評估方法的思考，特別是在在線課程中，因為LLM的能力可能會挑戰傳統的評估方式。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Comparing Scoring Consistency of Large Language Models with Faculty for Formative Assessments in Medical Education.
比較大型語言模型與教師在醫學教育形成性評估中的評分一致性。 J Gen Intern Med 2024-10-14

這項研究探討了使用大型語言模型（LLM），特別是ChatGPT 3.5，來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現，ChatGPT與教師評分的協議率達67%，顯示出合理的一致性，且能有效減少教師評分時間五倍，潛在節省約150小時。總體而言，這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估，減輕教師負擔。 PubMed DOI

ChatGPT's quality: Reliability and validity of concept inventory items.
ChatGPT 的質量：概念庫項目的可靠性和有效性。 Front Psychol 2024-10-23

最近大型語言模型（LLMs）如ChatGPT在教育領域的應用，帶來了機會與挑戰。研究探討了ChatGPT在運動學領域生成的教育題目質量，並優化提示語產出30個問題，經專家評估後選出15個進行調查。結果顯示這些題目的難度和區分指數中等，但整體表現略低於傳統的力概念測驗（FCI）。研究強調，雖然LLMs能生成高質量題目，但仍需人類監督與學生反饋，以確保評估的有效性。 PubMed DOI

Testing the capacity of Bard and ChatGPT for writing essays on ethical dilemmas: A cross-sectional study.
測試 Bard 和 ChatGPT 在撰寫倫理困境論文的能力：一項橫斷面研究。 Sci Rep 2024-10-30

最近大型語言模型（如ChatGPT和Bard）在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文，並檢視其是否能與人類作品區分。研究團隊收集了47篇學生的原創論文，並利用這些內容生成相同數量的AI論文。分析結果顯示，AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異，兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

原始文章

站上相關主題文章列表