Can a large language model create acceptable dental board-style examination questions? A cross-sectional prospective study.

大型語言模型能否創建可接受的牙科考試風格問題？一項橫斷面前瞻性研究。

以下是針對該研究標題與摘要進行的多面向分析與反思：

研究目的與假設
• 研究針對是否大語言模型（LLM）能夠生成與人類專家等品質的牙醫執照考題進行探討。
• 假設為：由LLM生成的國家考試風格題目，其難度、鑑別指數及干擾選項效率均與人類專家製作的題目相當。
方法與設計
• 採用前瞻性橫斷面設計，邀請30位資深牙科學生參與，利用兩組題庫（LLM產生與專家製作）進行測試，並採用Google Forms進行答題。
• 優點：同一群受試者同時完成兩組考題，採用隨機選題及相同內容基礎，增進內部效度；使用標準化數據（難度、鑑別指數、干擾項效率）進行項目分析，且統計檢定均達到95%信心水準。
• 潛在缺陷：樣本數量（n=30）較小，可能有外部效度限制；LLM產題過程中需剔除「false questions」，此過程若缺乏明確標準，可能引入偏誤；學生組成及考試環境可能不完全代表真實考試情境。
數據解釋與結果
• 結果顯示：LLM組的題目難度中位數為55.00%，鑑別指數為0.29；專家組則分別為50.00%與0.14，兩組幹擾選項效率均達80.00%。
• 雖然數值上有些微微差但統計上未達顯著差異（P > 0.050），表示LLM產出的題目在這些指標上與專家題庫無顯著差異，支持原假設。
局限性與偏見
• 研究限制：僅限於30位資深牙科學生，可能無法代表所有考生；採樣及題目選擇時，LLM產生題目需剔除錯誤題，這一篩選過程可能引入主觀判斷。
• 潛在偏見：使用單一LLM模型（ChatGPT 4o），其他版本或不同模型可能有不同表現；題目內容完全基於單一教科書內容，可能限制題目的多元性與實務性。
臨床及未來研究意涵
• 臨床應用：若LLM可穩定產出合格的考題，對於牙醫執照考題庫的建立與更新具有輔助效應，減輕專家負擔。
• 未來建議：應擴大樣本數、涵蓋多所院校及不同考試科目；探討LLM在其他專業領域之應用效度；同時關注剔除錯誤題目的標準化流程，以確保題目品質及一致性。
其他觀點
• 除了單一項目分析指標，未來可考慮學生對題目內容的接受度及使用效能，測試其是否影響學習成效。
• 亦可探討LLM生成題目的創新性及多樣性，是否能融入跨領域或臨床實例，以提高題目的實戰價值。
• 此外，跨國比較與不同考試標準的探討也有助於驗證LLM在廣泛應用中的普遍性及穩定性。

綜合來看，該研究提供了初步證據證明LLM在產出牙醫執照考題方面具備可行性，但未來仍需加強樣本多樣性及檢視生成題目的更廣泛特性。

好的，我將根據您提供的 PubMed 研究標題和摘要，從您指定的六個角度進行深入的多面向分析與反思。

研究標題: Can a large language model create acceptable dental board-style examination questions? A cross-sectional prospective study.

摘要: Numerous studies have shown that large language models (LLMs) can score above the passing grade on various board examinations. Therefore, this study aimed to evaluate national dental board-style examination questions created by an LLM versus those created by human experts using item analysis. This study was conducted in June 2024 and included senior dental students (n = 30) who participated voluntarily. An LLM, ChatGPT 4o, was used to generate 44 national dental board-style examination questions based on textbook content. Twenty questions for the LLM set were randomly selected after removing false questions. Two experts created another set of 20 questions based on the same content and in the same style as the LLM. Participating students simultaneously answered a total of 40 questions divided into two sets using Google Forms in the classroom. The responses were analyzed to assess difficulty, discrimination index, and distractor efficiency. Statistical comparisons were performed using the Wilcoxon signed rank test or linear-by-linear association test, with a confidence level of 95%. The response rate was 100%. The median difficulty indices of the LLM and human set were 55.00% and 50.00%, both within the range of "excellent" range. The median discrimination indices were 0.29 for the LLM set and 0.14 for the human set. Both sets had a median distractor efficiency of 80.00%. The differences in all criteria were not statistically significant (P > 0.050). The LLM can create national board-style examination questions of equivalent quality to those created by human experts.

多面向分析與反思:

1. 研究目的與假設：

研究目的: 本研究的主要目的是評估大型語言模型 (LLM) ChatGPT 4o 創建的牙醫學委員會風格考試題目的品質，並將其與人類專家創建的題目進行比較。具體而言，研究旨在檢驗 LLM 是否能夠生成品質「可接受」 (acceptable) 的牙醫學委員會風格考試題。摘要中提到許多研究已顯示 LLMs 在各種委員會考試中能獲得及格分數，這暗示了研究者可能預期 LLM 在題目生成方面也具有潛力，但需要更嚴謹的評估，而不僅僅是分數表現。
研究假設 (隱含的):
- 零假設 (Null Hypothesis, H0): LLM 創建的牙醫學委員會風格考試題目的品質與人類專家創建的題目品質沒有顯著差異。
- 備擇假設 (Alternative Hypothesis, H1): LLM 創建的牙醫學委員會風格考試題目的品質與人類專家創建的題目品質存在顯著差異 (研究者可能預期 LLM 題目品質至少不劣於人類，甚至可能更好，但研究目的更偏向於驗證其「可接受性」或「等價性」)。
研究的重點並非要證明 LLM 優於人類專家，而是要驗證 LLM 是否可以作為一種 可行的替代方案，至少在題目品質方面可以達到與人類專家相當的水準。

2. 方法與設計：

研究方法: 本研究採用了橫斷面 (cross-sectional) 前瞻性 (prospective) 研究設計。
- 橫斷面: 數據在單一時間點收集 (June 2024)。
- 前瞻性: 雖然是橫斷面，但可以理解為研究設計是預先計劃好的，並非回溯性分析已有的數據。研究者預先設定了使用 LLM 和人類專家生成題目，並招募學生進行測試。
- 比較研究設計: 研究的核心是比較兩組題目 (LLM 生成 vs. 人類專家生成) 在學生作答後的項目分析指標。
方法合理性與優點:
- 使用項目分析 (Item Analysis): 採用項目分析 (difficulty index, discrimination index, distractor efficiency) 是評估考試題目品質的標準方法，具有科學性和客觀性。這些指標可以量化題目的難度、區分度以及選項的有效性，從而更精確地評估題目的品質。
- 對照組 (人類專家題目): 設立人類專家創建的題目作為對照組，使得研究結果更具比較意義，可以更直接地評估 LLM 生成題目的相對品質。
- 真實的目標受試者 (資深牙醫學生): 研究對象是資深牙醫學生，他們是目標考試 (牙醫學委員會考試) 的潛在考生，因此研究結果對於評估 LLM 生成題目在實際考試情境中的適用性更具參考價值。
- 使用標準化工具 (Google Forms): 使用 Google Forms 進行測驗，方便數據收集和分析，並確保測驗環境的相對一致性。
- 統計分析: 使用 Wilcoxon signed rank test 和 linear-by-linear association test 進行統計比較，選擇了合適的非參數檢驗方法 (可能因為數據分布不符合正態分布，或者樣本量較小)。
潛在缺陷:
- 樣本量較小 (n=30): 30 名學生作為樣本量相對較小，可能會影響研究結果的普遍性 (generalizability)。樣本量小可能降低統計檢驗力 (statistical power)，增加型二錯誤 (Type II error) 的風險，即可能實際上存在差異，但研究未能檢測到。
- 單一 LLM (ChatGPT 4o): 僅使用 ChatGPT 4o 作為 LLM 代表，可能無法代表所有 LLM 的能力。不同 LLM 的訓練數據、架構和能力可能有所不同，結果可能不適用於其他 LLM。
- 題目類型可能有限: 摘要中提到是 "national dental board-style examination questions"，但具體題目類型 (例如，單選題、多選題、情境題等) 沒有詳細說明。不同題型可能對 LLM 的生成能力有不同要求。
- 內容來源限制於教科書: 題目基於教科書內容生成，可能限制了題目的廣度和深度。真實的牙醫學委員會考試可能涵蓋更廣泛的知識領域和臨床情境。
- 專家題目的主觀性: 雖然有兩位專家創建題目，但人類專家題目的品質仍然可能受到主觀因素影響。專家的經驗、偏好和對題目的理解可能有所不同。
- 前瞻性但同時進行: 雖然標註為前瞻性，但數據收集是同時進行的，缺乏時間維度的變化觀察，更偏向於橫斷面比較。

3. 數據解釋與結果：

結果摘要: 研究結果顯示，LLM 生成的題目和人類專家生成的題目在難度指數、區分度指數和干擾項效率方面，均沒有顯著統計學差異 (P > 0.050)。
- 難度指數: 兩組題目的中位數都在 "excellent" 範圍內 (LLM: 55.00%, 人類: 50.00%)，表明兩組題目的難度都適中。
- 區分度指數: LLM 題目的區分度指數 (0.29) 略高於人類題目 (0.14)，但差異不顯著。區分度指數衡量題目區分高分組和低分組考生的能力，數值越高越好。
- 干擾項效率: 兩組題目的干擾項效率中位數均為 80.00%，表示干擾項 (錯誤選項) 設計有效，可以有效區分學生對知識的掌握程度。
結果對研究假設的支撐: 研究結果支持了零假設 (H0)，即 LLM 創建的牙醫學委員會風格考試題目的品質與人類專家創建的題目品質沒有顯著差異。因此，研究結論認為，LLM 可以創建與人類專家品質相當的國家委員會風格考試題目。
解釋上的偏差:
- 結論可能過於概括: 雖然統計結果顯示 "no significant difference"，但需要謹慎解釋 "equivalent quality"。統計上的不顯著差異並不一定等同於臨床或教育實踐上的「等價」。例如，區分度指數雖然差異不顯著，但 LLM 題目的中位數仍略高，這可能在實際應用中仍有微小但潛在的差異。
- 關注統計顯著性，忽略實際意義: 研究主要關注統計顯著性 (p-value)，可能忽略了實際意義 (practical significance)。即使統計上沒有顯著差異，在實際應用中，LLM 生成題目與人類專家題目在其他方面 (例如，內容的臨床相關性、對更高階思維能力的考察等) 可能仍存在差異，而這些差異可能未被項目分析指標完全捕捉。
- 結論的措辭: 結論 "LLM can create national board-style examination questions of equivalent quality..." 使用了 "equivalent quality" (等價品質)，可能略微強勢。更謹慎的措辭可以是 "LLM can create national board-style examination questions of comparable quality based on item analysis metrics..." (基於項目分析指標，LLM 可以創建品質可比的國家委員會風格考試題目...)，以更精確地反映研究結果的局限性。

4. 局限性與偏見：

局限性 (已在方法部分提及，此處再次強調並補充):
- 樣本量小: 降低了統計檢驗力和普遍性。
- 單一 LLM: 結果可能不適用於其他 LLM。
- 題目類型和內容限制: 可能未能涵蓋牙醫學委員會考試題目的全部範圍和複雜性。
- 專家題目的主觀性: 人類專家題目並非完全客觀的黃金標準。
- 橫斷面設計: 缺乏長期效應的觀察。
- 僅基於項目分析指標: 項目分析指標可能未能全面評估題目品質的所有方面。
- 研究地點和學生群體: 研究在特定地點和學生群體中進行，結果的普遍性可能受到限制。
潛在偏見:
- 選擇偏見 (Selection bias): 參與研究的學生是 "voluntarily"，自願參與的學生可能與非自願參與的學生在學習動機、能力等方面存在差異，可能影響研究結果的代表性。
- 評估者偏見 (Evaluator bias): 雖然項目分析是客觀的，但在題目選擇 (從 LLM 生成的 44 題中選擇 20 題) 和專家題目創建過程中，研究者 (包括專家) 可能存在無意識的偏見。例如，專家在創建題目時，可能受到對 LLM 題目品質的預期影響。
- ChatGPT 4o 的訓練數據偏見: ChatGPT 4o 的訓練數據可能存在潛在的偏見，這可能會反映在其生成的題目中，例如，可能更偏重於某些知識領域或觀點。
- 內容來源 (教科書) 的限制和潛在偏見: 教科書內容本身可能存在選擇性、過時或偏見，基於教科書生成的題目也可能繼承這些偏見。
未考慮到的變項:
- 題目內容的臨床相關性: 項目分析指標未能直接評估題目的臨床相關性，即題目是否能有效評估學生將知識應用於臨床情境的能力。
- 更高階思維能力的考察: 項目分析指標主要關注知識的記憶和理解，可能未能充分評估題目對更高階思維能力 (例如，批判性思維、問題解決能力、臨床判斷力) 的考察。
- 題目的創新性和創造性: LLM 生成的題目可能更傾向於模仿現有的題目風格，缺乏創新性和創造性，而人類專家可能更擅長設計新穎和更具挑戰性的題目。
- 考試的整體效度 (construct validity): 研究僅關注單個題目的項目分析指標，未能評估由 LLM 生成題目組成的整份考試的效度，即考試是否能有效測量目標能力 (牙醫學知識和臨床技能)。

5. 臨床及未來研究意涵：

臨床應用啟示:
- 輔助題目生成工具: 研究結果表明 LLM 可以作為牙醫學教育中輔助題目生成的工具，幫助教師和考試委員會更高效地創建考試題目，節省時間和資源。
- 標準化和一致性: LLM 可以幫助創建更標準化和一致的考試題目，減少人類主觀性帶來的差異。
- 大規模題目生成: LLM 可以快速生成大量題目，有助於創建題庫，支持電腦化適性測驗 (Computerized Adaptive Testing, CAT) 等更靈活的考試形式。
未來研究建議:
- 擴大樣本量: 未來研究應擴大學生樣本量，提高研究結果的普遍性。
- 比較不同 LLM: 比較不同 LLM (例如，GPT-3.5, Gemini, Claude 等) 生成題目的品質，評估不同 LLM 在題目生成方面的能力差異。
- 探索不同題目類型: 研究不同題目類型 (例如，情境題、病例分析題、多選題、簡答題等) 中 LLM 的表現，了解 LLM 在不同題型生成方面的優勢和局限性。
- 評估臨床相關性和更高階思維能力: 開發更全面的評估指標，不僅關注項目分析指標，還要評估題目內容的臨床相關性、對更高階思維能力的考察，以及考試的整體效度。
- 長期效應研究: 進行縱向研究，追蹤使用 LLM 生成題目進行考試的學生在後續學習和臨床實踐中的表現，評估 LLM 題目的長期效應。
- 人類專家與 LLM 的協作: 探索人類專家與 LLM 協作生成題目的模式，例如，人類專家提供指導和審核，LLM 負責生成草稿，結合兩者的優勢，提高題目品質和效率。
- 倫理和公平性考量: 深入研究使用 LLM 生成題目可能帶來的倫理和公平性問題，例如，LLM 訓練數據的偏見、對不同背景學生群體的影響等。

6. 其他觀點：

對 "可接受性" 的定義: 研究結論使用 "acceptable" (可接受) 來描述 LLM 生成題目的品質。 "可接受" 是一個相對主觀的概念，研究中使用項目分析指標來量化品質，將 "可接受" 定義為在項目分析指標上與人類專家題目 "等價"。然而， "可接受" 的標準可能因不同情境和利益相關者而異。例如，考試委員會可能對題目的臨床相關性和效度有更高要求，而學生可能更關注題目的難度和公平性。未來研究可以更明確地界定 "可接受" 的標準，並從不同角度評估 LLM 題目的品質。
LLM 作為考試題目生成工具的發展階段: 目前 LLM 在考試題目生成方面仍處於發展初期。雖然本研究表明 LLM 可以生成品質可比的題目，但這並不意味著 LLM 可以完全取代人類專家。 LLM 更適合作為輔助工具，幫助人類專家提高效率和標準化。未來隨著 LLM 技術的進步，其在題目生成方面的能力可能會進一步提升，可能在某些方面超越人類專家。
考試的本質與 LLM 的局限性: 考試不僅僅是知識的檢驗，也是對學生思維能力、臨床判斷力、專業素養等綜合能力的評估。目前的 LLM 主要基於文本數據訓練，可能在理解和模擬複雜的臨床情境、評估更高階思維能力等方面仍存在局限性。完全依賴 LLM 生成考試題目可能存在風險，需要人類專家的監督和審核，以確保考試的全面性和有效性。
超越項目分析：更全面的品質評估: 項目分析指標是評估題目品質的重要工具，但並非唯一標準。未來研究可以探索更全面的品質評估方法，例如，邀請牙醫學專家對 LLM 和人類專家生成的題目進行主觀評估，從內容準確性、臨床相關性、難度適宜性、是否能有效考察目標能力等多個維度進行評分和比較。也可以探索使用自然語言處理 (NLP) 和機器學習 (ML) 技術，自動化評估題目內容的品質，例如，評估題目的清晰度、邏輯性、歧義性等。

總之，這項研究為評估 LLM 在牙醫學考試題目生成方面的應用提供了初步證據，結果令人鼓舞，但也提示了未來研究的方向和需要關注的問題。 LLM 有潛力成為教育領域強大的輔助工具，但需要持續的研究、驗證和倫理考量，才能更好地發揮其作用。

(思考開始)

嗯，我现在要分析这个PubMed的研究，标题是“Can a large language model create acceptable dental board-style examination questions? A cross-sectional prospective study.”。摘要里说，他们评估了大语言模型（LLM）生成的国考式牙科考试题目，与人类专家制作的题目进行比较，使用项目分析。研究是在2024年6月进行的，有30名高年级牙科学生参与，自愿参加。他们用ChatGPT 4o生成了44道题，然后随机选了20道，剔除了错误的问题。另外两名专家也根据同样的内容和风格制作了20道题。学生们在教室里用Google Forms同时回答了40道题，分成两组。然后分析了难度、区分指数和干扰项效率，使用Wilcoxon符号秩检验或线性-线性关联检验，置信水平95%。回复率100%。LLM和人类题目的中位难度指数分别是55%和50%，都在“优秀”范围内。中位区分指数分别是0.29和0.14，差异不显著。干扰效率都是80%。所以结论是LLM生成的题目质量和人类专家相当。

首先，我需要从六个角度来分析这个研究：研究目的与假设、方法与设计、数据解释与结果、局限性与偏见、临床及未来研究意义、其他观点。

研究目的与假设：研究主要探讨LLM是否能生成可接受的国考式牙科考试题目。假设应该是LLM生成的题目在质量上与人类专家相当。

方法与设计：他们用了前瞻性横断面研究，比较LLM和人类生成的题目，使用了项目分析，包括难度、区分指数和干扰效率。优点是对比明确，样本是高年级学生，参与度高，回复率100%。缺点可能是样本量小，只有30名学生，可能不够大，可能影响统计结果的稳定性。另外，专家生成的题目数量少，可能不如LLM生成的多样性。

数据解释与结果：结果显示难度指数、区分指数和干扰效率都没有显著差异，支持假设。LLM生成的题目质量相当。但区分指数LLM稍微高一点，可能意味着LLM题目更能区分学生能力。

局限性与偏见：样本量小，可能无法代表所有学生的情况。另外，使用同一批学生回答两组题目，可能存在疲劳效应，影响结果。还有，题目内容基于教科书，可能不涵盖所有考点。专家可能在生成题目时受限于风格，可能影响结果。

临床及未来研究意义：如果LLM能生成高质量的考试题目，可以节省时间和资源，特别是在医疗教育中，可能减轻教师的负担，提高效率。未来的研究可以扩大样本量，涵盖更多领域，甚至不同类型的题目，比如开放性问题。

其他观点：可能LLM生成的题目在某些方面更优，例如更全面覆盖教材内容，而人类专家可能有偏好，导致题目集中在某些部分。此外，LLM可能在生成题目时更具一致性，减少偏见。然而，LLM生成的题目可能缺乏实践经验中的某些细节，人类专家在这方面可能更有优势。

总的来说，这个研究支持了LLM在生成考试题目上的有效性，但仍有改进空间，需要更多研究来确认这些结果，并扩展到其他领域。

(思考結束)

研究目的與假設

該研究旨在探討大型語言模型（LLM）是否能生成可接受的國考式牙科考試題目。研究假設是LLM生成的題目在質量上能與人類專家生成的題目相媲美。

方法與設計

研究採用前瞻性横斷面研究，使用項目分析比較LLM和人類專家生成的題目，優點是設計明確，樣本參與度高，回復率達100%。然而，樣本量僅30名學生，可能影響結果的穩定性，且專家生成的題目數量較少，可能不如LLM生成的多樣性。

數據解釋與結果

結果顯示，LLM和人類生成的題目在難度、區分指數和干擾效率上均無顯著差異，支持假設。LLM的區分指數稍高，可能更能區分學生能力。

局限性與偏見

樣本量小，可能不具代表性；學生回答題目時可能有疲勞效應；題目內容可能不涵蓋所有考點；專家生成的題目可能受限於風格。

臨床及未來研究意涵

LLM生成題目可節省時間和資源，減輕教師負擔。未來研究可擴大樣本量，涵蓋更多領域和題型，如開放性問題。

其他觀點

LLM可能更全面覆蓋教材，而人類專家可能有偏好。LLM生成的題目更具一致性，但可能缺乏實務經驗中的細節，人類專家在此方面更有優勢。

結論

研究支持LLM在生成考試題目上的有效性，但仍需更多研究確認結果並擴展到其他領域。

以下是對此篇研究的深入分析與反思，依據題目和摘要內容，從多個面向進行推理與回答：

研究目的與假設
本研究旨在探討大型語言模型（LLM，如 ChatGPT 4o）生成的牙醫國家考試題目，是否能與人類專家設計的題目在品質上相媲美。具體來說，研究聚焦於題目的難度、鑑別度及干擾項效率等指標（摘要中提到「difficulty, discrimination index, and distractor efficiency」）。研究假設應為：LLM 生成的題目在這些指標上與人類專家設計的題目無顯著差異，具備相當的品質。
方法與設計
研究採用交叉對照設計，招募30名高年級牙醫學生參與，並將 LLM 生成的20題與人類專家設計的20題進行比較（摘要中提及「An LLM, ChatGPT 4o, was used to generate 44 national dental board-style examination questions... Two experts created another set of 20 questions」）。
- 優點：方法上使用客觀的統計分析（如 Wilcoxon 檢定）與標準化的指標評估，具科學性；同時讓學生同時作答兩組題目，避免時間或環境變因干擾。
- 潛在缺陷：樣本量僅30人，規模偏小，可能影響結果的代表性。此外，LLM 生成題目經過篩選（移除錯誤題目），而人類題目未提及是否經過同樣篩選，可能存在設計上的不對等。
數據解釋與結果
結果顯示，LLM 組與人類組在難度指數（分別為55%與50%）、鑑別度指數（0.29與0.14）及干擾項效率（均為80%）上均無顯著差異（P > 0.050）。這支持研究假設，即 LLM 生成的題目品質與人類專家相當（摘要中「The differences in all criteria were not statistically significant」）。
- 解釋偏差：鑑別度指數上，LLM 組（0.29）略高於人類組（0.14），但未達統計顯著，可能被研究者忽略其潛在優勢，過於強調「無差異」結論。
局限性與偏見
- 局限性：樣本量小（僅30人），且僅限於單一學校或地區的高年級牙醫學生，結果可能無法推廣至其他族群或不同教育背景（摘要中未提及參與者背景多樣性）。此外，研究未探討題目內容的深度或臨床相關性，僅依賴量化指標評估品質。
- 偏見：LLM 題目經過人工篩選（移除錯誤題目），可能人為提高其品質，造成評估偏向有利於 LLM 的結果。同時，研究未提及人類專家是否有類似篩選機制，可能存在比較上的不公平。
臨床及未來研究意涵
本研究顯示 LLM 可作為牙醫考試題目設計的輔助工具，特別在節省人力與時間上具潛力（摘要結論「The LLM can create national board-style examination questions of equivalent quality」）。對臨床教育而言，這可能有助於快速生成大量題目供練習或評估使用。
- 未來研究建議：應擴大樣本量與參與者背景多樣性，並納入題目內容的質性分析（如臨床情境的真實性）。此外，可探討 LLM 在不同醫學領域考試題目設計中的應用性。
其他觀點
除了研究結論外，另一可能解釋是：LLM 的題目品質看似與人類相當，但其生成過程依賴教科書內容（摘要中「based on textbook content」），可能缺乏創新性或真實臨床情境的複雜性。推理過程如下：
- LLM 主要從既有資料學習，生成的題目可能過於「標準化」，無法模擬臨床中的不確定性或罕見案例。
- 反之，人類專家可能因經驗而設計出更具情境性的題目，但本研究未評估這一面向，僅聚焦量化指標，可能低估人類專家的優勢。
  因此，未來可加入題目內容的質性比較，探討 LLM 是否僅擅長「模仿」而非「創新」。

總結：本研究提供了 LLM 在牙醫考試題目設計中的潛力證據，但受限於樣本規模與評估面向，結果仍需謹慎解讀。建議後續研究納入更多變項與質性分析，以更全面評估 LLM 的應用價值。