Examining the Threat of ChatGPT to the Validity of Short Answer Assessments in an Undergraduate Medical Program.
ChatGPT對大學醫學課程短答案評估效度的威脅檢驗。 J Med Educ Curric Dev 2023-10-04

研究發現，ChatGPT在醫學生簡答評估中表現優於低分同學，但不及歷史平均水準。對於困難學生的干預仍有疑慮，需要進一步探討ChatGPT在高認知推理評估中的表現。 PubMed DOI

The impact of ChatGPT on human data collection: A case study involving typicality norming data.
ChatGPT對人類數據收集的影響：涉及典型性規範數據的案例研究。 Behav Res Methods 2023-10-03

ChatGPT等工具因運用大型語言模型而受歡迎，引發了有關作者身份和貢獻評估的問題。然而，對人類數據收集的影響卻被忽略。研究指出，ChatGPT可生成與人類參與者相似的輸出，並具有可靠性。討論了對人類數據收集的影響，包括機會和數據捏造等挑戰。 PubMed DOI

ChatGPT for assessment writing.
ChatGPT 用於評估寫作。 Med Teach 2024-01-09

教育上的挑戰是製作醫學院的多重選擇題耗費資源。解決方法是利用ChatGPT產生初稿，節省教職員工時間。好處包括提高效率、遵守指南。下一步是比較ChatGPT生成與專家題目，確定適合題型，並加入媒體元素。 PubMed DOI

A large-scale comparison of human-written versus ChatGPT-generated essays.
人類撰寫與 ChatGPT 生成的文章之大規模比較。 Sci Rep 2023-11-02

ChatGPT等生成式AI模型廣泛運用，將對教育和資訊生成產生重大影響。研究指出，AI文章品質較高，風格與人寫不同。建議教育工作者應融入AI技術，重新思考作業方式，並運用AI工具提升學習成效。 PubMed DOI

Empirical assessment of ChatGPT's answering capabilities in natural science and engineering.
ChatGPT 在自然科學和工程領域回答能力的實證評估。 Sci Rep 2024-03-03

ChatGPT是一個厲害的語言模型，對社會、研究和教育將有重大影響。研究發現，在自然科學和工程領域，它的回答大多正確。然而，當問題複雜或超出科學範疇時，答案品質可能會下降。 PubMed DOI

ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review.
在醫學教育中產生多重選擇題的ChatGPT提示及其有效性的證據：文獻回顧。 Postgrad Med J 2024-06-06

研究發現使用ChatGPT製作醫學教育的多重選擇題有潛力，但問題有效性尚待確認。建議在考試前謹慎審查ChatGPT生成的題目，並避免盲目使用。ChatGPT可簡化測試開發，但品質仍需注意。 PubMed DOI

ChatGPT as an item calibration tool: Psychometric insights in a high-stakes examination.
ChatGPT作為一個項目校準工具：在高風險考試中的心理測量洞察。 Med Teach 2024-07-16

研究評估了ChatGPT對2020年葡萄牙國家住院醫師選拔考試題目的分析能力。使用150道考題測試ChatGPT，計算每題難度。結果顯示ChatGPT預測的難度與實際相關，且能辨識較簡單問題。總結來說，研究顯示ChatGPT在預測考題難度方面有潛力，無需實際測試即可評估心理特性。 PubMed DOI

Assessing ChatGPT's Capability for Multiple Choice Questions Using RaschOnline: Observational Study.
使用RaschOnline評估ChatGPT在多選題上的能力：觀察性研究。 JMIR Form Res 2024-08-08

這項研究評估了ChatGPT在回答多選題的表現，使用Rasch分析工具進行。研究針對2023年台灣大學入學英語測驗的10個題目，並將ChatGPT的回答與300名模擬學生的回答進行比較。主要發現包括：多選題難度一致增加，性別間無顯著差異，所有題目符合Rasch模型，且ChatGPT獲得A等級，表現優於其他等級（B到E）。總體來看，ChatGPT在這項英語測驗中展現出強大的能力。 PubMed DOI

Validating the ChatGPT Usage Scale: psychometric properties and factor structures among postgraduate students.
驗證 ChatGPT 使用量表：研究研究生的心理測量特性和因素結構。 BMC Psychol 2024-09-24

這項研究針對研究生開發了一個評估他們在學術環境中使用ChatGPT的量表，對象為來自兩所埃及大學的443名學生。經過探索性因素分析，最初的39項量表精煉為15項，識別出三個關鍵因素：學術寫作輔助、學術任務支持，以及依賴與信任。確認性因素分析證實了量表的結構，顯示良好的適配指標，並展現強大的內部一致性和可靠性。這個量表有助於理解ChatGPT對研究生教育的影響，並促進對人工智慧在學術中的角色進一步研究。 PubMed DOI

Could ChatGPT get an engineering degree? Evaluating higher education vulnerability to AI assistants.
ChatGPT 能獲得工程學位嗎？評估高等教育對 AI 助手的脆弱性。 Proc Natl Acad Sci U S A 2024-11-26

隨著像 ChatGPT 這樣的 AI 助手在高等教育中越來越普及，學生的使用帶來了教學與評量上的好處與挑戰。本研究針對大學評量在 STEM 課程中對生成式 AI 的脆弱性進行探討，分析了洛桑聯邦理工學院 50 門課程的評量題目。結果顯示，GPT-4 的正確回答率達 65.8%，使用不同提示策略時可達 85.1%。這顯示 AI 系統能通過許多核心課程的評量，讓人擔憂高等教育的認證完整性，並需重新評估評量設計以應對 AI 的進步。 PubMed DOI

原始文章

站上相關主題文章列表