原始文章

這項研究強調了利用大型語言模型(LLMs)解決STEM領域複雜問題的興趣,特別是在天體動力學和太空工程方面。天體動力學問題基準(APBench)的發展,為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案,這個基準旨在評估開源和專有模型的表現,並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI


站上相關主題文章列表

研究介紹新標準,評估大型語言模型在英語和阿拉伯語表現,解決阿拉伯語評估問題。提出新評估方法,用普通能力測試數據集比較兩語言,結果顯示ChatGPT英語優於阿拉伯語,探討語言變化影響。fastText阿拉伯語詞彙類比優於ChatGPT。GPT-4阿拉伯語進步,接近英語表現。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這份摘要強調大型語言模型(LLMs)在預測實驗結果方面的潛力,特別是在神經科學領域。研究介紹了BrainBench,一個評估LLMs預測能力的基準測試。結果顯示,LLMs在預測上可超越人類專家,而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時,預測也相對可靠,顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學,還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

這項研究強調環境科學中創新研究方法的必要性,以應對氣候變遷和生物多樣性喪失等全球挑戰。由於現有文獻的複雜性,識別有意義的研究主題變得困難。傳統文獻計量學無法捕捉新興跨學科領域,但人工智慧(AI)和大型語言模型(LLMs)的進步提供了新機會。研究發現,GPT-3.5在分析環境科學前沿主題上表現更佳,顯示跨學科研究、AI和大數據對解決環境挑戰的重要性。LLMs可成為研究人員的寶貴工具,提供未來研究方向的靈感。 PubMed DOI

這項研究探討大型語言模型(LLMs)在粒子加速器自動調整的應用,傳統上需要專業的優化和機器學習知識。研究顯示,LLMs能透過簡單的自然語言提示有效調整加速器子系統,並與先進的優化技術如貝葉斯優化和強化學習進行比較。結果顯示,LLMs能處理複雜的非線性數值優化,顯示其在日常操作中簡化自動調整算法的潛力,並可能促進自動化技術在加速器系統的應用。 PubMed DOI

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

這項研究首次探討大型語言模型(LLMs)在環境決策中的應用,分析其潛在優勢與限制。研究提出兩個框架:一是LLMs輔助的框架,增強人類專業知識;二是LLMs驅動的框架,自動化優化任務。透過水工程中PFAS控制的案例,顯示這兩個框架在環境決策中的優化效果。結果顯示,LLMs輔助框架在調節流量和改善PFAS攔截上表現良好,而LLMs驅動框架在複雜參數優化上則面臨挑戰。研究強調人工智慧應輔助而非取代人類專業知識,為未來的合作奠定基礎。 PubMed DOI

Astro-QA 資料集是一個專為天文學問答設計的新基準,包含 3,082 個中英文問題,涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型(LLMs)的表現,推出了 DGscore 指標,考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試,顯示其在指令遵循、知識推理和自然語言生成方面的有效性,特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI