A question-answering framework for automated abstract screening using large language models.
使用大型語言模型的自動摘要篩選問答框架。 J Am Med Inform Assoc 2024-07-23

這篇論文探討系統性回顧中摘要篩選的挑戰，並利用大型語言模型（LLMs）的零-shot能力來解決。研究提出一個新穎的問答框架，將篩選標準視為問題，讓LLM回答，並根據綜合回應做出納入或排除的決策。透過CLEF eHealth 2019 Task 2基準驗證，結果顯示該框架在31個系統性回顧數據集上表現優於傳統方法和微調的BERT模型，顯示LLM在摘要篩選中的有效性與潛力。 PubMed DOI

Q-BENCH: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs.
Q-BENCH：一個針對單幅圖像到成對圖像的低階視覺多模態基礎模型的基準。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

多模態大型語言模型（MLLMs）的進展正在改變計算機視覺，尤其是多功能基礎模型的開發。不過，對於低層次視覺感知和理解的評估仍待深入探討。為此，我們建立了基準設置，模擬人類對低層次視覺的語言反應，包含低層次視覺感知（A1）和描述（A2）兩大任務，並引入LLVisionQA+和LLDescribe+數據集。此外，我們還評估了MLLMs預測質量分數的能力（A3）。結果顯示，雖然多數模型在單一圖像上表現不錯，但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

PLRTE: Progressive learning for biomedical relation triplet extraction using large language models.
PLRTE：使用大型語言模型進行生物醫學關係三元組提取的進步學習。 J Biomed Inform 2024-10-19

文件級關係三元組提取在生物醫學文本挖掘中非常重要，尤其是在藥物發現和生物醫學知識圖譜的建立上。不過，現有語言模型在新數據集和關係類型上泛化能力不足，影響其效能。為了解決這個問題，我們提出了一種漸進學習策略，發展出PLRTE模型，透過四級漸進學習過程來增強模型對各種生物醫學關係的理解。實驗結果顯示，我們的模型在DDI和BC5CDR數據集上性能提升5%到20%，並在未見過的Chemprot和GDA數據集上也展現出良好的泛化能力。 PubMed DOI

Enhancing semantical text understanding with fine-tuned large language models: A case study on Quora Question Pair duplicate identification.
透過微調大型語言模型增強語義文本理解：以 Quora Question Pair 重複識別為案例研究。 PLoS One 2025-01-10

這項研究探討如何利用大型語言模型（LLMs）來提升自然語言處理中的文本相似性理解。研究中，微調後的LLaMA模型（70億參數）在F1分數上達到84.9%，超越了先前的Siamese卷積神經網絡（82.02%）。此外，700億參數的LLaMA3.1模型也表現不俗，F1分數為74.4%。這顯示微調LLMs對特定任務的有效性，並建議可應用於履歷與職位匹配及學術投稿審稿人識別等領域。 PubMed DOI

Semantic search helper: A tool based on the use of embeddings in multi-item questionnaires as a harmonization opportunity for merging large datasets - A feasibility study.
基於多項問卷中嵌入技術的語義搜尋助手：作為合併大型數據集的協調機會的可行性研究。 Eur Psychiatry 2025-01-20

最近，自然語言處理（NLP）在語意數據分析上有了顯著進展，特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型，能有效協調不同工具測量相同構念，並探索新構念組合。透過案例研究，該應用成功識別潛在的協調配對，減少了手動評估的需求。專家評估顯示，模型生成的配對與專家意見高度一致，證實了這種方法的有效性，顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

A Comprehensive Analysis of a Social Intelligence Dataset and Response Tendencies Between Large Language Models (LLMs) and Humans.
大型語言模型（LLMs）與人類之間社會智慧數據集及反應傾向的綜合分析。 Sensors (Basel) 2025-01-25

近年來，改善人類與人工智慧（AI）互動的關注度逐漸上升，社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解，像Social-IQ這樣的數據集被創建，但這些數據集多採用基本的問答格式，缺乏答案的理由，且通常只從預設選項中生成答案，限制了可解釋性和可靠性。為了解決這些問題，我們進行了一項基於視頻的問答評估，強調人類互動，並加入相關註解，發現人類與AI的反應模式存在顯著差異，顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集，促進人類與AI之間更自然的溝通。 PubMed DOI

Evaluating the effectiveness of prompt engineering for knowledge graph question answering.
評估提示工程在知識圖譜問答中的有效性。 Front Artif Intell 2025-01-28

這項研究評估了六種不同的少量樣本提示方法，針對大型語言模型在Spider4SPARQL基準測試中的表現，該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組，第一組檢視基於樣本數量或類型的提示方法，第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示，商業模型在KGQA的準確率不超過51%，顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體，並使用五個隨機樣本。 PubMed DOI

Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現：基準研究。 Crit Care 2025-02-10

這項研究評估了五個大型語言模型（LLMs）在重症醫學中的表現，針對1181道選擇題進行測試。結果顯示，GPT-4o的準確率最高，達93.3%，其次是Llama 3.1 70B（87.5%）和Mistral Large 2407（87.9%）。所有模型的表現都超過隨機猜測和人類醫師，但GPT-3.5-turbo未顯著優於醫師。儘管準確性高，模型仍有錯誤，需謹慎評估。GPT-4o成本高昂，對能源消耗引發關注。總體而言，LLMs在重症醫學中展現潛力，但需持續評估以確保負責任的使用。 PubMed DOI

An LLM-based hybrid approach for enhanced automated essay scoring.
基於LLM的混合式方法以提升自動作文評分效能 Sci Rep 2025-04-25

傳統自動作文評分系統只看單字和句子，無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型，利用大型語言模型提升作文連貫性和品質評估。實驗證明，我們的方法比現有技術更準確，有助提升學生寫作評量的公正性與精確度。 PubMed DOI

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration.
細緻組合型指稱表達理解之新資料集與方法：透過專家-MLLM協作 IEEE Trans Pattern Anal Mach Intell 2025-06-16

這篇論文提出一個能調整題目難度的REC資料集，並設計具挑戰性的負樣本，讓多模態模型測試更精確。作者提出兩種結合專家模型和多模態大型語言模型的方法：一是簡單題交給輕量模型，難題再給MLLM處理，提升效率；二是專家模型先篩選物件區域，再由MLLM選答案。這兩種合作方式都讓REC任務表現大幅進步，證明專業和通用模型結合很有效。 PubMed DOI

原始文章

站上相關主題文章列表