Towards Dataset-scale and Feature-oriented Evaluation of Text Summarization in Large Language Model Prompts.
大型語言模型提示中文本摘要的數據集規模和特徵導向評估。 IEEE Trans Vis Comput Graph 2024-09-09

最近大型語言模型和提示工程的進展，讓自訂聊天機器人變得更容易，不再需要程式設計技能。不過，進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰，並提出了一個以特徵為導向的提示評估工作流程，特別針對文本摘要，強調根據摘要特徵來評估提示，而非僅依賴傳統指標。為了支持這個流程，我們推出了Awesum，一個視覺分析系統，幫助用戶識別最佳提示改進。我們的測試顯示，Awesum能有效幫助非技術用戶進行系統性評估，並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Fine-Tuning Large Language Models to Enhance Programmatic Assessment in Graduate Medical Education.
微調大型語言模型以增強研究生醫學教育中的程式性評估。 J Educ Perioper Med 2024-10-02

這項研究探討了訓練大型語言模型（LLMs）來根據美國住院醫師教育認證委員會（ACGME）的標準分類受訓者的反饋。研究發現，雖然複雜的模型未必能提高分類準確率，但較小的模型如BERT-mini在性能上與FastText相當，且在個人設備上部署時更具優勢，能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

A scientific-article key-insight extraction system based on multi-actor of fine-tuned open-source large language models.
基於多演員的微調開源大型語言模型的科學文章關鍵洞察提取系統。 Sci Rep 2025-01-10

隨著科學文章數量快速增加，如何組織和提取資訊成為一大挑戰，顯示出自動化的必要性。本研究探討利用大型語言模型（如OpenAI的GPT-4.0）來提取科學文獻中的關鍵洞察。我們開發了名為ArticleLLM的系統，透過手動基準微調來提升模型表現，並採用多演員LLM策略，結合多個微調模型的優勢，增強提取效果。本研究顯示LLMs在關鍵洞察提取上的潛力，並強調協作微調的好處，有助於提升學術文獻調查與知識發現的效率。 PubMed DOI

Evaluating LLMs for Diagnosis Summarization.
評估大型語言模型在診斷摘要中的應用。 Annu Int Conf IEEE Eng Med Biol Soc 2025-03-05

這篇論文探討了六種大型語言模型（LLMs）在自動化出院摘要方面的有效性，並提出了一種新的自動評估指標，與人類評估結果相符。研究使用F1-Score來評估模型表現，並與醫療專業人員的評估進行比較。結果顯示，雖然LLMs有潛力，但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

Current and future state of evaluation of large language models for medical summarization tasks.
大型語言模型在醫學摘要任務評估的現狀與未來。 Npj Health Syst 2025-03-24

大型語言模型（LLMs）大幅提升了臨床自然語言生成（NLG）的能力，為處理醫療文本提供了新方法。不過，將這些模型應用於醫療環境前，必須進行全面評估，以確保其可靠性與有效性。我們的回顧探討了現有NLG在醫療領域的評估指標，並提出一種未來的方法，旨在減少專家評估的限制，平衡資源效率與人類判斷的一致性，確保生成內容符合臨床高標準。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。 J Am Med Inform Assoc 2025-04-07

這項研究評估了生物醫學調整的大型語言模型（LLMs）在臨床任務中的表現，與通用模型相比。研究發現，生物醫學LLMs的表現通常不如通用模型，尤其在與醫學知識無關的任務上。雖然一些大型模型表現相似，但較小的生物醫學模型明顯落後。這挑戰了精細調整LLMs能自動提升表現的觀念，建議探索其他策略，如檢索增強生成，以更有效地整合LLMs進入臨床環境。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Automating and Evaluating Large Language Models for Accurate Text Summarization Under Zero-Shot Conditions.
在零樣本條件下自動化與評估大型語言模型以提升文本摘要的準確性 AMIA Jt Summits Transl Sci Proc 2025-06-12

這篇研究發現，大型語言模型在沒經過特別訓練下，結合檢索增強生成（RAG）和提示工程，能有效自動摘要專業資訊，表現不錯。不過，還是會遇到像網頁爬蟲限制和偶爾誤解任務等問題，未來還需要進一步優化。 PubMed

原始文章

站上相關主題文章列表