原始文章

自我對弈微調(SPIN)因為能透過自我互動提升大型語言模型(LLMs)而受到關注,但在文本轉 SQL 模型上應用時遇到挑戰。目前的框架缺乏有效的反饋機制,難以捕捉自然語言問題與資料庫架構的關聯。為了解決這些問題,我們提出了 ExSPIN,一種新穎的自我對弈微調方法,並加入明確的反饋機制。ExSPIN 利用 LLM 預測的 SQL 查詢執行結果來更新模型參數,改善微調效果,並透過上下文學習提供架構提示,幫助 LLM 理解資料庫與自然語言查詢的聯繫。評估結果顯示,ExSPIN 在兩個真實世界數據集上表現優於現有方法。 PubMed DOI


站上相關主題文章列表

這篇論文探討了大型語言模型(LLMs)在營養與飲食應用中的表現,特別是針對註冊營養師(RD)考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性,並分析了不同提示技術的效果。結果顯示,GPT-4o在使用帶自我一致性的思考鏈(CoT-SC)時表現最佳,而Gemini 1.5 Pro在零提示(ZS)下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來提升自然語言處理中的文本相似性理解。研究中,微調後的LLaMA模型(70億參數)在F1分數上達到84.9%,超越了先前的Siamese卷積神經網絡(82.02%)。此外,700億參數的LLaMA3.1模型也表現不俗,F1分數為74.4%。這顯示微調LLMs對特定任務的有效性,並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

在結構化資訊擷取(IE)領域,確保輸出符合語義和語法約束非常重要。傳統的編碼-解碼架構難以達成這些要求,因此研究者開始探索受語法約束的解碼方法。本研究檢視了微調的Longformer和Flan-T5模型在臨床試驗摘要中提取結構化資料的效果。結果顯示,受語法約束的解碼顯著提升了2型糖尿病和青光眼數據集的F1分數,而指標生成器則對性能造成負面影響。未來研究可探討大型語言模型的大小對這些解碼方法的影響。 PubMed DOI

這項研究評估了六種不同的少量樣本提示方法,針對大型語言模型在Spider4SPARQL基準測試中的表現,該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組,第一組檢視基於樣本數量或類型的提示方法,第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示,商業模型在KGQA的準確率不超過51%,顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體,並使用五個隨機樣本。 PubMed DOI

最近人工智慧(AI)領域的進展,越來越多地結合大型語言模型(LLMs)與專門工具,如搜尋引擎和模擬器。不過,這些系統多由專家設計,調整過程繁瑣,影響進步速度。為了解決這個問題,我們提出了TextGrad,一個透過反向傳播優化AI系統的靈活框架。它能自動增強系統內部組件,並使用自然語言反饋,應用於解決科學問題、優化治療計畫、設計分子等,為科學家和工程師提供創建生成式AI系統的便利工具。 PubMed DOI

大型語言模型(LLMs)是先進的人工智慧系統,透過預測單詞序列來生成文本,改變了人機互動的方式。像ChatGPT和Claude等產品能與使用者進行複雜對話。微調則是針對特定數據集進一步訓練預訓練的LLM,以適應特定任務或領域。這篇評論探討了微調的各種方法,概述了一般步驟,並提供醫學子專科的例子,最後討論了微調LLM在醫學領域的優點與限制。 PubMed DOI

LLM常會產生看似正確但其實有誤的醫療建議,這在臨床上很危險。人工評分又太耗時。作者提出EVAL系統,利用相似度排序和人類回饋訓練的獎勵模型,自動評估並提升LLM在上消化道出血情境下的回答品質。EVAL的評分結果和人類高度一致,還能讓答案正確率提升8.36%,有助於提升醫療AI的安全性。 PubMed DOI

這項研究用自製的肝炎血清學資料集,在單張 GPU 上微調大型語言模型。微調後的模型在解讀肝炎血清學結果時,表現比原始模型更好,這是用 METEOR 演算法評估的。結果證明,針對特定領域微調,能有效提升 LLM 在醫療專家系統的表現。 PubMed DOI

作者開發了一套端到端流程,運用大型語言模型(LLMs)從非結構化的病理報告中精準擷取並標準化資料,最初應用於腎臟腫瘤。這方法結合彈性提示設計、直接產生表格輸出及錯誤修正機制,於2,297份報告中達到極高準確率(macro F1最高0.99),也能應用於其他癌症,強調明確任務定義和跨領域合作的重要性。 PubMed DOI

這篇論文提出 ExDoRA 框架,透過挑選最相關又多元的 few-shot 範例,結合 LLM 產生的文字解釋,能有效提升 LLM 在新任務上的表現。應用於對話式憂鬱症偵測時,ExDoRA 不僅能穩定給出高品質解釋,還大幅提升召回率和 F1 分數,展現其在數位心理健康篩檢的潛力。 PubMed DOI