A bilingual benchmark for evaluating large language models.
評估大型語言模型的雙語基準。 PeerJ Comput Sci 2024-03-05

研究介紹新標準，評估大型語言模型在英語和阿拉伯語表現，解決阿拉伯語評估問題。提出新評估方法，用普通能力測試數據集比較兩語言，結果顯示ChatGPT英語優於阿拉伯語，探討語言變化影響。fastText阿拉伯語詞彙類比優於ChatGPT。GPT-4阿拉伯語進步，接近英語表現。 PubMed DOI

Benchmarking Large Language Models in Evidence-Based Medicine.
基於證據的醫學中大型語言模型的基準測試。 IEEE J Biomed Health Inform 2024-10-22

這項研究探討如何將大型語言模型（LLMs）整合進證據基礎醫學（EBM），以自動化任務如證據檢索和傳播，來提升臨床決策。研究比較了七個LLMs的表現，結果顯示這些模型在理解和總結方面表現優異，知識引導的提示也顯著提升了效果。不過，在命名實體識別和事實準確性上仍面臨挑戰，需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

Large language models surpass human experts in predicting neuroscience results.
大型語言模型在預測神經科學結果方面超越人類專家。 Nat Hum Behav 2024-11-28

這份摘要強調大型語言模型（LLMs）在預測實驗結果方面的潛力，特別是在神經科學領域。研究介紹了BrainBench，一個評估LLMs預測能力的基準測試。結果顯示，LLMs在預測上可超越人類專家，而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時，預測也相對可靠，顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學，還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

Utilizing large language models for identifying future research opportunities in environmental science.
利用大型語言模型識別環境科學未來研究機會。 J Environ Manage 2024-12-14

這項研究強調環境科學中創新研究方法的必要性，以應對氣候變遷和生物多樣性喪失等全球挑戰。由於現有文獻的複雜性，識別有意義的研究主題變得困難。傳統文獻計量學無法捕捉新興跨學科領域，但人工智慧（AI）和大型語言模型（LLMs）的進步提供了新機會。研究發現，GPT-3.5在分析環境科學前沿主題上表現更佳，顯示跨學科研究、AI和大數據對解決環境挑戰的重要性。LLMs可成為研究人員的寶貴工具，提供未來研究方向的靈感。 PubMed DOI

Large language models for human-machine collaborative particle accelerator tuning through natural language.
大型語言模型在自然語言下進行人機協作的粒子加速器調整。 Sci Adv 2025-01-01

這項研究探討大型語言模型（LLMs）在粒子加速器自動調整的應用，傳統上需要專業的優化和機器學習知識。研究顯示，LLMs能透過簡單的自然語言提示有效調整加速器子系統，並與先進的優化技術如貝葉斯優化和強化學習進行比較。結果顯示，LLMs能處理複雜的非線性數值優化，顯示其在日常操作中簡化自動調整算法的潛力，並可能促進自動化技術在加速器系統的應用。 PubMed DOI

CARDBiomedBench: A Benchmark for Evaluating Large Language Model Performance in Biomedical Research.
CARDBiomedBench：評估大型語言模型在生物醫學研究中表現的基準。 bioRxiv 2025-01-27

這項研究介紹了CARDBiomedBench，一個新基準，專門評估大型語言模型（LLMs）在生物醫學研究，特別是神經退行性疾病（NDDs）方面的表現。基準包含超過68,000個專家標註的問答對，並利用可靠來源進行數據增強。七個LLMs的評估結果顯示，最先進的模型在回應質量和安全性上仍有顯著不足，例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰，CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

Large language models: Tools for new environmental decision-making.
大型語言模型：新環境決策的工具。 J Environ Manage 2025-02-02

這項研究首次探討大型語言模型（LLMs）在環境決策中的應用，分析其潛在優勢與限制。研究提出兩個框架：一是LLMs輔助的框架，增強人類專業知識；二是LLMs驅動的框架，自動化優化任務。透過水工程中PFAS控制的案例，顯示這兩個框架在環境決策中的優化效果。結果顯示，LLMs輔助框架在調節流量和改善PFAS攔截上表現良好，而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識，為未來的合作奠定基礎。 PubMed DOI

An astronomical question answering dataset for evaluating large language models.
用於評估大型語言模型的天文問題回答數據集。 Sci Data 2025-03-19

Astro-QA 資料集是一個專為天文學問答設計的新基準，包含 3,082 個中英文問題，涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型（LLMs）的表現，推出了 DGscore 指標，考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試，顯示其在指令遵循、知識推理和自然語言生成方面的有效性，特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 PubMed DOI

Benchmarking of Large Language Models for the Dental Admission Test.
大型語言模型在牙科入學考試中的基準評估。 Health Data Sci 2025-04-02

大型語言模型（LLMs）在教育上有潛力，但在高風險考試如牙科入學考試（DAT）的有效性仍不明朗。本研究評估了16個LLMs，包括通用和特定領域模型，針對DAT進行測試。結果顯示，GPT-4o和GPT-o1在文本問題上表現優異，特別是在自然科學和閱讀理解上。然而，所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識，但在高階認知任務上仍需與教師指導結合，以提升學習效果。 PubMed DOI

Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。 Nat Commun 2025-04-05

生物醫學文獻快速增長，讓手動整理知識變得困難，生物醫學自然語言處理（BioNLP）希望透過自動化來解決這些問題。儘管大型語言模型（LLMs）在多個領域展現潛力，但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs，包括GPT和LLaMA，並與傳統模型如BERT和BART比較。結果顯示，傳統微調方法在大多數任務中表現較佳，但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能，研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

原始文章

站上相關主題文章列表