原始文章

Astro-QA 資料集是一個專為天文學問答設計的新基準,包含 3,082 個中英文問題,涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型(LLMs)的表現,推出了 DGscore 指標,考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試,顯示其在指令遵循、知識推理和自然語言生成方面的有效性,特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 PubMed DOI


站上相關主題文章列表

ScholarChemQA 是一個新推出的學術化學問答數據集,旨在評估語言模型在化學領域的表現。這個數據集來自化學論文,問題取自論文標題,並根據摘要提供多選答案。為了應對數據不均和未標記數據的挑戰,開發了 ChemMatch 模型,能有效回答化學問題。實驗顯示,儘管大型語言模型已有進展,但在化學任務上仍有改進空間。ChemMatch 在基準測試中表現優於其他模型,顯示其有效性。更多資訊可參考 GitHub 連結:https://github.com/iriscxy/chemmatch。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題,測試了五個LLM,包括OpenAI o1-preview和GPT-4o等。結果顯示,所有模型的表現達到專家水準,o1-preview在某些情況下甚至超越醫學物理學家。不過,當正確答案被移除時,模型表現明顯下降,顯示需改進。透過解釋優先和逐步提示的方式,LLaMA 3.1等模型的推理能力有所增強,顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI

這項研究強調了利用大型語言模型(LLMs)解決STEM領域複雜問題的興趣,特別是在天體動力學和太空工程方面。天體動力學問題基準(APBench)的發展,為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案,這個基準旨在評估開源和專有模型的表現,並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI

這篇論文提出「Arch-Eval」框架,專門評估大型語言模型在建築領域的知識表現。研究用875題標準題庫測試14種模型,發現各模型表現差異大。雖然用Chain-of-Thought推理法正確率只小幅提升(不到3%),但回答速度卻慢了26倍。未來還需加強LLM在建築領域的推理能力和多模態互動。 PubMed DOI

AstroSage-Llama-3.1-8B 是專為天文學打造的 AI 模型,訓練時用上大量天文相關資料。它在天文學測試上表現超越其他同級模型,甚至能跟 GPT-4o 一較高下。現在已免費開放給研究和教育使用。 PubMed DOI

這篇研究探討大型語言模型(LLM)如何幫助病人解讀連續血糖監測(CGM)數據,協助糖尿病管理。作者建立了開源的CGM數據問答基準,評估多種LLM表現,並指出LLM在解讀穿戴式健康數據上還有進步空間,這些方法也能應用到其他穿戴裝置。 PubMed DOI

這項研究比較多款大型語言模型(LLM)在核子醫學題目的表現,發現結合檢索增強生成(RAG)的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力,但對複雜指引和影像題還不夠理想,未來還需再優化才能安心用於醫療領域。 PubMed DOI

目前針對多模態大型語言模型處理點雲資料的評測標準很有限,難以全面評估模型的空間理解與推理能力。為此,作者提出3DBench,涵蓋十項物件與場景任務,並分為表達、感知、推理三類。作者也建立了超過23萬筆3D指令問答資料集,並設計Bench-model來提升表現。程式碼和資料已開源於GitHub。 PubMed DOI

這項研究發現,最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準,甚至有模型超越醫學物理師。不過,當答案設計成「以上皆非」時,模型表現明顯下滑,顯示推理還有待加強。用「先解釋再作答」等提示,部分模型推理能力會提升。整體來說,這些模型已具備專業領域的專家能力。 PubMed DOI