原始文章

Astro-QA 資料集是一個專為天文學問答設計的新基準,包含 3,082 個中英文問題,涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型(LLMs)的表現,推出了 DGscore 指標,考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試,顯示其在指令遵循、知識推理和自然語言生成方面的有效性,特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 PubMed DOI


站上相關主題文章列表

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 PubMed DOI

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

AMEGA(自主醫療評估以遵循指導方針)是一個用來評估大型語言模型(LLMs)在13個專科診斷情境中遵循醫療指導方針的基準。它包含135個開放式問題,重點在醫療推理、鑑別診斷和治療計畫。測試中,GPT-4以41.9分獲得最高,超過最近畢業的醫學生的25.8分。AMEGA的公開代碼旨在促進AI輔助臨床決策的研究,提升病患護理品質。 PubMed DOI

在過去十年,穿戴式科技大幅改變了慢性疾病的管理,特別是心率監測器和持續血糖監測(CGM)設備。這些科技讓患者能即時獲得健康數據,並透過手機應用程式輕鬆查看。CGM對糖尿病患者的管理影響深遠,但解讀數據對某些人來說仍具挑戰性。本研究探討大型語言模型(LLMs)在CGM數據問答中的應用,並建立了一個開源基準,未來可供研究和開發使用,雖然主要針對糖尿病,但也可應用於其他穿戴設備。 PubMed DOI

ScholarChemQA 是一個新推出的學術化學問答數據集,旨在評估語言模型在化學領域的表現。這個數據集來自化學論文,問題取自論文標題,並根據摘要提供多選答案。為了應對數據不均和未標記數據的挑戰,開發了 ChemMatch 模型,能有效回答化學問題。實驗顯示,儘管大型語言模型已有進展,但在化學任務上仍有改進空間。ChemMatch 在基準測試中表現優於其他模型,顯示其有效性。更多資訊可參考 GitHub 連結:https://github.com/iriscxy/chemmatch。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題,測試了五個LLM,包括OpenAI o1-preview和GPT-4o等。結果顯示,所有模型的表現達到專家水準,o1-preview在某些情況下甚至超越醫學物理學家。不過,當正確答案被移除時,模型表現明顯下降,顯示需改進。透過解釋優先和逐步提示的方式,LLaMA 3.1等模型的推理能力有所增強,顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

近年來,改善人類與人工智慧(AI)互動的關注度逐漸上升,社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解,像Social-IQ這樣的數據集被創建,但這些數據集多採用基本的問答格式,缺乏答案的理由,且通常只從預設選項中生成答案,限制了可解釋性和可靠性。為了解決這些問題,我們進行了一項基於視頻的問答評估,強調人類互動,並加入相關註解,發現人類與AI的反應模式存在顯著差異,顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集,促進人類與AI之間更自然的溝通。 PubMed DOI

這項研究強調了利用大型語言模型(LLMs)解決STEM領域複雜問題的興趣,特別是在天體動力學和太空工程方面。天體動力學問題基準(APBench)的發展,為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案,這個基準旨在評估開源和專有模型的表現,並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI