Evaluation of LLMs accuracy and consistency in the registered dietitian exam through prompt engineering and knowledge retrieval.
透過提示工程和知識檢索評估大型語言模型在註冊營養師考試中的準確性和一致性。 Sci Rep 2025-01-09

這篇論文探討了大型語言模型（LLMs）在營養與飲食應用中的表現，特別是針對註冊營養師（RD）考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性，並分析了不同提示技術的效果。結果顯示，GPT-4o在使用帶自我一致性的思考鏈（CoT-SC）時表現最佳，而Gemini 1.5 Pro在零提示（ZS）下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

Enhancing semantical text understanding with fine-tuned large language models: A case study on Quora Question Pair duplicate identification.
透過微調大型語言模型增強語義文本理解：以 Quora Question Pair 重複識別為案例研究。 PLoS One 2025-01-10

這項研究探討如何利用大型語言模型（LLMs）來提升自然語言處理中的文本相似性理解。研究中，微調後的LLaMA模型（70億參數）在F1分數上達到84.9%，超越了先前的Siamese卷積神經網絡（82.02%）。此外，700億參數的LLaMA3.1模型也表現不俗，F1分數為74.4%。這顯示微調LLMs對特定任務的有效性，並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

Grammar-constrained decoding for structured information extraction with fine-tuned generative models applied to clinical trial abstracts.
基於語法約束的解碼在臨床試驗摘要中應用於結構化信息提取的微調生成模型。 Front Artif Intell 2025-01-22

在結構化資訊擷取（IE）領域，確保輸出符合語義和語法約束非常重要。傳統的編碼-解碼架構難以達成這些要求，因此研究者開始探索受語法約束的解碼方法。本研究檢視了微調的Longformer和Flan-T5模型在臨床試驗摘要中提取結構化資料的效果。結果顯示，受語法約束的解碼顯著提升了2型糖尿病和青光眼數據集的F1分數，而指標生成器則對性能造成負面影響。未來研究可探討大型語言模型的大小對這些解碼方法的影響。 PubMed DOI

Evaluating the effectiveness of prompt engineering for knowledge graph question answering.
評估提示工程在知識圖譜問答中的有效性。 Front Artif Intell 2025-01-28

這項研究評估了六種不同的少量樣本提示方法，針對大型語言模型在Spider4SPARQL基準測試中的表現，該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組，第一組檢視基於樣本數量或類型的提示方法，第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示，商業模型在KGQA的準確率不超過51%，顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體，並使用五個隨機樣本。 PubMed DOI

Optimizing generative AI by backpropagating language model feedback.
透過反向傳播語言模型反饋來優化生成式 AI。 Nature 2025-03-20

最近人工智慧（AI）領域的進展，越來越多地結合大型語言模型（LLMs）與專門工具，如搜尋引擎和模擬器。不過，這些系統多由專家設計，調整過程繁瑣，影響進步速度。為了解決這個問題，我們提出了TextGrad，一個透過反向傳播優化AI系統的靈活框架。它能自動增強系統內部組件，並使用自然語言反饋，應用於解決科學問題、優化治療計畫、設計分子等，為科學家和工程師提供創建生成式AI系統的便利工具。 PubMed DOI

Fine-Tuning Large Language Models for Specialized Use Cases.
針對專門使用案例微調大型語言模型。 Mayo Clin Proc Digit Health 2025-04-10

大型語言模型（LLMs）是先進的人工智慧系統，透過預測單詞序列來生成文本，改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM，以適應特定任務或領域。這篇評論探討了微調的各種方法，概述了一般步驟，並提供醫學子專科的例子，最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

Expert of Experts Verification and Alignment (EVAL) Framework for Large Language Models Safety in Gastroenterology.
腸胃科大型語言模型安全性的專家驗證與對齊（EVAL）框架 NPJ Digit Med 2025-05-03

LLM常會產生看似正確但其實有誤的醫療建議，這在臨床上很危險。人工評分又太耗時。作者提出EVAL系統，利用相似度排序和人類回饋訓練的獎勵模型，自動評估並提升LLM在上消化道出血情境下的回答品質。EVAL的評分結果和人類高度一致，還能讓答案正確率提升8.36%，有助於提升醫療AI的安全性。 PubMed DOI

Fine-Tuning an Existing Large Language Model with Knowledge from the Medical Expert System Hepaxpert.
結合醫學專家系統 Hepaxpert 知識對現有大型語言模型進行微調 Stud Health Technol Inform 2025-05-17

這項研究用自製的肝炎血清學資料集，在單張 GPU 上微調大型語言模型。微調後的模型在解讀肝炎血清學結果時，表現比原始模型更好，這是用 METEOR 演算法評估的。結果證明，針對特定領域微調，能有效提升 LLM 在醫療專家系統的表現。 PubMed DOI

Iterative refinement and goal articulation to optimize large language models for clinical information extraction.
以反覆精煉與目標明確化優化大型語言模型於臨床資訊擷取 NPJ Digit Med 2025-05-23

作者開發了一套端到端流程，運用大型語言模型（LLMs）從非結構化的病理報告中精準擷取並標準化資料，最初應用於腎臟腫瘤。這方法結合彈性提示設計、直接產生表格輸出及錯誤修正機制，於2,297份報告中達到極高準確率（macro F1最高0.99），也能應用於其他癌症，強調明確任務定義和跨領域合作的重要性。 PubMed DOI

<i>ExDoRA</i>: enhancing the transferability of large language models for depression detection using free-text explanations.
ExDoRA：利用自由文本解釋提升大型語言模型於憂鬱症偵測的可遷移性 Front Artif Intell 2025-06-05

這篇論文提出 ExDoRA 框架，透過挑選最相關又多元的 few-shot 範例，結合 LLM 產生的文字解釋，能有效提升 LLM 在新任務上的表現。應用於對話式憂鬱症偵測時，ExDoRA 不僅能穩定給出高品質解釋，還大幅提升召回率和 F1 分數，展現其在數位心理健康篩檢的潛力。 PubMed DOI

原始文章

站上相關主題文章列表