原始文章

這項研究強調了利用大型語言模型(LLMs)解決STEM領域複雜問題的興趣,特別是在天體動力學和太空工程方面。天體動力學問題基準(APBench)的發展,為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案,這個基準旨在評估開源和專有模型的表現,並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在粒子加速器自動調整的應用,傳統上需要專業的優化和機器學習知識。研究顯示,LLMs能透過簡單的自然語言提示有效調整加速器子系統,並與先進的優化技術如貝葉斯優化和強化學習進行比較。結果顯示,LLMs能處理複雜的非線性數值優化,顯示其在日常操作中簡化自動調整算法的潛力,並可能促進自動化技術在加速器系統的應用。 PubMed DOI

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

Astro-QA 資料集是一個專為天文學問答設計的新基準,包含 3,082 個中英文問題,涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型(LLMs)的表現,推出了 DGscore 指標,考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試,顯示其在指令遵循、知識推理和自然語言生成方面的有效性,特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

AstroSage-Llama-3.1-8B 是專為天文學打造的 AI 模型,訓練時用上大量天文相關資料。它在天文學測試上表現超越其他同級模型,甚至能跟 GPT-4o 一較高下。現在已免費開放給研究和教育使用。 PubMed DOI

大型語言模型(LLMs)能理解和產生自然語言,正改變醫療、教育、金融等產業,提升效率和準確度。不過,LLMs也有倫理、偏見和高運算成本等問題。本文分析其發展、應用和限制,並探討未來趨勢。 PubMed DOI

這項研究比較了ChatGPT-4、Google Gemini Advanced和自訂RAG模型在航太醫學知識與臨床推理的表現。RAG表現最好,但三者都有知識缺口和不穩定,臨床應用有風險。雖然LLM有潛力協助太空醫療,但準確性和可靠性還需加強,才能安全使用。 PubMed DOI

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 PubMed DOI

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI