Large language models leverage external knowledge to extend clinical insight beyond language boundaries.
大型語言模型利用外部知識擴展臨床洞察力，超越語言界限。 J Am Med Inform Assoc 2024-04-29

LLMs如ChatGPT和Med-PaLM在醫學問答表現優秀，但在非英語環境面臨挑戰。KFE框架提升中文醫學表現，整合臨床知識。像ChatGPT和GPT-4在CNMLE-2022有顯著進步，超越人類並通過考試。研究指出結合醫學知識與LLMs的情境學習有效，可橋接全球醫療語言障礙，減少不平等。 PubMed DOI

Evaluating large language models for health-related text classification tasks with public social media data.
利用公共社交媒體數據評估大型語言模型在健康相關文本分類任務中的表現。 J Am Med Inform Assoc 2024-08-09

這項研究評估大型語言模型（LLMs）在社交媒體健康相關文本分類的表現，並比較了不同模型的效果。結果顯示，基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強，但僅依賴LLM標註數據訓練效果不佳。研究指出，LLM作為零樣本分類器能有效減少假陰性，並減輕手動標註負擔，顯示其在特定領域自然語言處理的潛力。 PubMed DOI

Closing the gap between open source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 NPJ Digit Med 2024-09-09

這項研究探討了微調開源大型語言模型（LLMs）在醫學證據總結方面的潛力，與專有模型相比，開源模型雖然表現較弱，但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調，結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現，且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

Closing the gap between open-source and commercial large language models for medical evidence summarization.
縮小開源與商業大型語言模型在醫學證據總結之間的差距。 ArXiv 2024-10-07

這項研究探討如何透過微調提升開源大型語言模型（LLMs）在醫學證據摘要的表現。雖然專有模型通常更有效，但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集，對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示，微調後這些模型的表現顯著提升，特別是LongT5在零樣本設定中表現接近GPT-3.5，甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現，成為專有模型的可行替代方案。 PubMed DOI

A fine-tuning enhanced RAG system with quantized influence measure as AI judge.
一個以量化影響度量作為 AI 評判的微調增強 RAG 系統。 Sci Rep 2024-11-10

這項研究提出了一種新穎的增強檢索生成（RAG）系統，結合微調的大型語言模型（LLMs）與向量數據庫，充分發揮結構化數據檢索的優勢。主要方法包括LoRA和QLoRA，專注於高效的參數微調和記憶優化。獨特之處在於納入用戶反饋，讓模型持續適應用戶需求，提升性能。此外，研究還引入量化影響度量（QIM）作為AI評審機制，增強結果選擇的準確性。這些成果為未來聊天機器人技術的發展提供了重要見解，並已公開相關數據集和工具供社群使用。 PubMed DOI

Application of large language models in clinical record correction: a comprehensive study on various retraining methods.
大型語言模型在臨床紀錄修正中的應用：各種再訓練方法的綜合研究。 J Am Med Inform Assoc 2024-12-21

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5、GPT-4和Llama-2（13B和7B架構），在自主評估臨床紀錄方面的表現。研究中使用了提示工程、微調和低秩適應等技術，特別關注Llama-2 7B模型。結果顯示，GPT-4的表現最佳，接近專家評估。微調後的Llama-2 7B在西班牙語理解上有顯著提升，並且低秩適應技術有效增強了模型性能。研究強調了LLMs在醫學教育中的潛力，並建議未來應解決現有限制以進一步提升模型表現。 PubMed DOI

Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning.
開源 LLMs 用於文本標註：模型設定與微調的實用指南。 J Comput Soc Sci 2024-12-23

這篇論文探討開源大型語言模型（LLMs）在政治科學文本分類任務中的效能，包括立場、主題和相關性分類。研究旨在協助研究人員明智選擇LLMs進行文本分析，並設定性能基準。結果顯示，微調能顯著提升開源LLMs的表現，甚至可匹敵或超越零樣本的GPT-3.5和GPT-4。研究還指出，微調比少樣本訓練更有效。作者提供Python筆記本，幫助其他研究人員應用LLMs進行文本標註，相關材料可在指定DOI上獲得。 PubMed DOI

An empirical study of LLaMA3 quantization: from LLMs to MLLMs.
LLaMA3 量化的實證研究：從 LLMs 到 MLLMs。 Vis Intell 2025-01-14

LLaMA系列語言模型，特別是最新的LLaMA3，因其在多項任務上的優異表現而受到矚目，這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加，本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法，並檢視了LLaVA-Next-8B模型在超低位元（2-4位元）下的效果。結果顯示，低位元量化會顯著影響模型性能，特別是在超低位元情況下，突顯未來模型開發需解決的性能差距。 PubMed DOI

Fine-tuning large language models for improved health communication in low-resource languages.
為低資源語言改善健康溝通的大型語言模型微調。 Comput Methods Programs Biomed 2025-02-23

這項研究提出了一種方法，旨在為越南語這種低資源語言的醫療資訊創建訓練數據集，以微調大型語言模型（LLMs）。目的是改善醫療資訊的獲取，增強發展中國家的醫療溝通。研究過程中，選擇基礎模型並彙編約337,000對提示-回應對，使用低秩適應技術進行微調。微調後的模型在多項指標上表現優於基礎模型，顯示出其在越南語健康查詢中的潛力。雖然本地部署可提升數據隱私，但高計算需求和成本仍是挑戰，研究呼籲關注醫療差距，促進全球健康公平。 PubMed DOI

原始文章

站上相關主題文章列表