Twelve tips to leverage AI for efficient and effective medical question generation: A guide for educators using Chat GPT.
運用 AI 提升醫學問題生成效率與效果的十二個技巧：教育者使用 Chat GPT 的指南。 Med Teach 2024-03-05

使用大型語言模型如ChatGPT製作高品質醫學評估問題，特別是多重選擇題，可提升教育效率，支持學生自主學習。研究探討如何運用ChatGPT創建多元問題，符合評估最佳實踐。雖AI工具有助問題生成，但人類專業知識仍不可或缺，確保醫學教育品質和正確性。 PubMed DOI

One LLM is not Enough: Harnessing the Power of Ensemble Learning for Medical Question Answering.
單一LLM不足以：發揮集成學習在醫學問答中的威力。 medRxiv 2024-02-10

研究團隊研發了新的學習方式，讓大型語言模型在醫學問答更準確。他們專注於三個醫學問答資料庫，並引入LLM-Synergy架構，包含Boosting的多數投票和Cluster的動態模型選擇。這些方法在資料庫中表現比單一模型更好，準確率範圍從35.84%到96.36%。這個架構展現了提升醫學問答任務並因應未來挑戰的潛力。 PubMed DOI

[ChatGPT is an above-average student at the Faculty of Medicine of the University of Zaragoza and an excellent collaborator in the development of teaching materials].
ChatGPT 是薩拉戈薩大學醫學院優秀的學生，並在教材開發方面是一位出色的合作者。 Rev Esp Patol 2024-04-10

人工智慧在教育領域廣泛運用，為學生和老師帶來無限可能。ChatGPT在學術考試中表現優異，得高於平均分。尤其擅長回答否定問題並修正答案，還能根據指示創造新問題。老師應善用人工智慧，有效製作評估問題。 PubMed DOI

Reasoning with large language models for medical question answering.
運用大型語言模型進行醫學問答的推理。 J Am Med Inform Assoc 2024-07-03

研究探討如何用大型語言模型提升醫學問答，並引入新方法「集成推理」。結果顯示此方法在回答醫學問題時有提升。集成推理在各種問題上表現優異，有助提升語言模型性能，特別是在使用較弱模型時。研究也強調結合人工智能和人類以提升推理能力的重要性。 PubMed DOI

Embracing the illusion of explanatory depth: A strategic framework for using iterative prompting for integrating large language models in healthcare education.
擁抱解釋深度的幻覺：在醫療教育中整合大型語言模型的迭代提示使用策略框架。 Med Teach 2024-07-26

醫療教育者正尋找將大型語言模型（LLMs）融入教學的方法，但擔心這會影響學生的獨立思考能力。學生可能會不加質疑地接受LLM的答案，這與解釋深度的錯覺有關。為了解決這個問題，文章建議使用迭代提示技術，透過提出後續問題來引導學生更深入地與LLMs互動。這樣不僅能幫助學生更好理解材料，還能讓他們意識到LLM的局限性，最終培養他們的批判性思考能力。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Assessing ChatGPT's Capability for Multiple Choice Questions Using RaschOnline: Observational Study.
使用RaschOnline評估ChatGPT在多選題上的能力：觀察性研究。 JMIR Form Res 2024-08-08

這項研究評估了ChatGPT在回答多選題的表現，使用Rasch分析工具進行。研究針對2023年台灣大學入學英語測驗的10個題目，並將ChatGPT的回答與300名模擬學生的回答進行比較。主要發現包括：多選題難度一致增加，性別間無顯著差異，所有題目符合Rasch模型，且ChatGPT獲得A等級，表現優於其他等級（B到E）。總體來看，ChatGPT在這項英語測驗中展現出強大的能力。 PubMed DOI

A Novel Evaluation Framework for Medical LLMs: Combining Fuzzy Logic and MCDM for Medical Relation and Clinical Concept Extraction.
醫療 LLMs 的新評估框架：結合模糊邏輯和多準則決策方法進行醫療關係和臨床概念提取。 J Med Syst 2024-08-30

這項研究針對醫療領域的大型語言模型（LLMs）開發了一個全面的評估框架，旨在評估其效能、安全性和倫理合規性。研究採用多準則決策方法（MCDM）及模糊加權零不一致性（FWZIC）來處理醫療決策中的不確定性，並使用多屬性理想-現實比較分析（MAIRCA）來評估不同的醫療LLMs。結果顯示，「醫療關係提取」的重要性略高於「臨床概念提取」，「GatorTron S 10B」表現最佳，而「GatorTron 90B」則最低。這項研究對醫療實務具有重要意義，能幫助專業人士做出明智的LLM採用決策。 PubMed DOI

Fine-Tuned Large Language Model for Visualization System: A Study on Self-Regulated Learning in Education.
針對視覺化系統的微調大型語言模型：教育中自我調節學習的研究。 IEEE Trans Vis Comput Graph 2024-09-10

大型語言模型（LLMs）在智能視覺化系統中有很大潛力，尤其在專業應用上，但整合時面臨挑戰，包括領域特定問題、視覺化過程及用戶互動。為解決這些問題，我們提出了一個框架，利用微調的LLMs來改善視覺互動。在教育領域，智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind，一個互動式視覺化系統，幫助AI初學者進行自我調節學習。研究顯示，Tailor-Mind能提供個性化建議，增強學習體驗，驗證了我們框架的有效性。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

原始文章

站上相關主題文章列表