A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。 Comput Biol Med 2024-03-21

這篇論文評估了大型語言模型（LLMs）在各種生物醫學任務上的表現，發現即使在較小的生物醫學數據集上沒有進行特定微調，LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀，但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

Comparative analysis of large language models in medical counseling: A focus on Helicobacter pylori infection.
醫療諮詢中大型語言模型的比較分析：聚焦於 Helicobacter pylori 感染。 Helicobacter 2024-07-30

這項研究評估了三種大型語言模型（LLMs）在幽門螺旋桿菌感染諮詢中的有效性，重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日，針對15個H. pylori相關問題進行評估。結果顯示，準確性得分為4.80，顯示良好，但完整性和可理解性得分較低，分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出，雖然LLMs在提供資訊上表現不錯，但在完整性和可靠性方面仍需改進，以提升其作為醫療諮詢工具的效能。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Evaluating large language models in analysing classroom dialogue.
評估大型語言模型在分析課堂對話中的表現。 NPJ Sci Learn 2024-10-02

這項研究探討大型語言模型（LLMs），特別是GPT-4，如何應用於分析課堂對話，以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識，研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據，將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示，GPT-4能顯著節省時間，且編碼一致性高，顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

Assessing the performance of large language models (LLMs) in answering medical questions regarding breast cancer in the Chinese context.
在中國背景下評估大型語言模型 (LLMs) 回答有關乳腺癌的醫學問題的表現。 Digit Health 2024-10-11

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現，特別針對中國的情境。分析了60個腫瘤科醫生提出的問題，結果顯示： - ChatGPT 提供了最多的全面回答，佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低，平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。總體來看，這些模型可作為乳腺癌資訊工具，但在專業治療問題上不可靠，應在醫療專業人員指導下使用。 PubMed DOI

Comparative Analysis of Large Language Models in Chinese Medical Named Entity Recognition.
中文醫學命名實體識別中大型語言模型的比較分析。 Bioengineering (Basel) 2024-10-25

這項研究探討大型語言模型（LLMs）在中文生物醫學命名實體識別（BNER）任務的表現，這領域的研究相對較少。作者評估了多個LLMs，包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4，使用真實的中文電子病歷數據集及公共數據集。結果顯示，雖然LLMs在零樣本和少樣本情境下有潛力，但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型，而GPT-3.5在CCKS2017數據集上表現最佳，但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究，顯示其潛力並為未來應用提供指導。 PubMed DOI

Leveraging large language models to construct feedback from medical multiple-choice Questions.
利用大型語言模型構建醫學多選題的反饋。 Sci Rep 2024-11-13

這項研究探討如何利用大型語言模型（LLMs）生成內容為基礎的反饋，以提升Progress Test Medizin考試的反饋效果，超越單純的數字分數。研究比較了兩個受歡迎的LLM在生成相關見解上的表現，並調查醫療從業人員和教育工作者對LLM能力及其反饋實用性的看法。結果顯示兩者表現相似，其中一個付費的稍優，另一個則免費。參與者認為反饋相關，並願意未來使用LLM。研究結論指出，雖然LLM生成的反饋不完美，但仍可作為傳統數字反饋的有價值補充。 PubMed DOI

Evaluating large language models for selection of statistical test for research: A pilot study.
評估大型語言模型在研究統計檢定選擇中的應用：一項初步研究。 Perspect Clin Res 2024-11-25

這項研究評估了四個大型語言模型（LLMs），包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity，來推薦適合的統計測試。研究人員使用27個已發表文獻的案例，將這些模型的建議與人類專家的建議進行比較。結果顯示，所有模型的建議一致性超過75%，接受度超過95%。特別是ChatGPT3.5的符合度最高，達85.19%，而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試，但無法完全取代人類專業知識。 PubMed DOI

原始文章

站上相關主題文章列表