Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation.
醫學領域中用於評估大型語言模型回應的資料集和基準（MedGPTEval）：評估開發和驗證。 JMIR Med Inform 2024-07-02

LLMs在臨床應用上有潛力，但可能產生幻覺回應，對患者安全有風險。為此，開發了MedGPTEval評估系統，用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳，具穩健性和專業能力。MedGPTEval提供全面框架，用於評估醫學領域的LLMs聊天機器人，並提供開源數據集和基準。 PubMed DOI

MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering.
MedExpQA：大型語言模型在醫學問答中的多語言基準測試。 Artif Intell Med 2024-08-09

這篇論文介紹了MedExpQA，這是一個多語言的基準，專門用來評估大型語言模型（LLMs）在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯，但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋，讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考，研究顯示LLMs在英語的準確率約75%，但其他語言下降10%。作者計劃公開數據、代碼和微調模型，以促進後續研究。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

Assessing the performance of large language models (LLMs) in answering medical questions regarding breast cancer in the Chinese context.
在中國背景下評估大型語言模型 (LLMs) 回答有關乳腺癌的醫學問題的表現。 Digit Health 2024-10-11

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現，特別針對中國的情境。分析了60個腫瘤科醫生提出的問題，結果顯示： - ChatGPT 提供了最多的全面回答，佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低，平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。總體來看，這些模型可作為乳腺癌資訊工具，但在專業治療問題上不可靠，應在醫療專業人員指導下使用。 PubMed DOI

Autonomous medical evaluation for guideline adherence of large language models.
大型語言模型的自主醫學評估以遵循指導方針。 NPJ Digit Med 2024-12-12

AMEGA（自主醫療評估以遵循指導方針）是一個用來評估大型語言模型（LLMs）在13個專科診斷情境中遵循醫療指導方針的基準。它包含135個開放式問題，重點在醫療推理、鑑別診斷和治療計畫。測試中，GPT-4以41.9分獲得最高，超過最近畢業的醫學生的25.8分。AMEGA的公開代碼旨在促進AI輔助臨床決策的研究，提升病患護理品質。 PubMed DOI

LLM-CGM: A Benchmark for Large Language Model-Enabled Querying of Continuous Glucose Monitoring Data for Conversational Diabetes Management.
LLM-CGM：一個用於大型語言模型驅動的持續血糖監測數據查詢的基準，以促進對話式糖尿病管理。 Pac Symp Biocomput 2024-12-13

在過去十年，穿戴式科技大幅改變了慢性疾病的管理，特別是心率監測器和持續血糖監測（CGM）設備。這些科技讓患者能即時獲得健康數據，並透過手機應用程式輕鬆查看。CGM對糖尿病患者的管理影響深遠，但解讀數據對某些人來說仍具挑戰性。本研究探討大型語言模型（LLMs）在CGM數據問答中的應用，並建立了一個開源基準，未來可供研究和開發使用，雖然主要針對糖尿病，但也可應用於其他穿戴設備。 PubMed DOI

Unveiling the power of language models in chemical research question answering.
揭示語言模型在化學研究問題回答中的力量。 Commun Chem 2025-01-05

ScholarChemQA 是一個新推出的學術化學問答數據集，旨在評估語言模型在化學領域的表現。這個數據集來自化學論文，問題取自論文標題，並根據摘要提供多選答案。為了應對數據不均和未標記數據的挑戰，開發了 ChemMatch 模型，能有效回答化學問題。實驗顯示，儘管大型語言模型已有進展，但在化學任務上仍有改進空間。ChemMatch 在基準測試中表現優於其他模型，顯示其有效性。更多資訊可參考 GitHub 連結：https://github.com/iriscxy/chemmatch。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
最近對大型語言模型在放射腫瘤物理學表現的評估，使用隨機打亂選項的問題。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題，測試了五個LLM，包括OpenAI o1-preview和GPT-4o等。結果顯示，所有模型的表現達到專家水準，o1-preview在某些情況下甚至超越醫學物理學家。不過，當正確答案被移除時，模型表現明顯下降，顯示需改進。透過解釋優先和逐步提示的方式，LLaMA 3.1等模型的推理能力有所增強，顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

A Comprehensive Analysis of a Social Intelligence Dataset and Response Tendencies Between Large Language Models (LLMs) and Humans.
大型語言模型（LLMs）與人類之間社會智慧數據集及反應傾向的綜合分析。 Sensors (Basel) 2025-01-25

近年來，改善人類與人工智慧（AI）互動的關注度逐漸上升，社會智慧成為促進自然溝通的關鍵。為了評估AI對人類互動的理解，像Social-IQ這樣的數據集被創建，但這些數據集多採用基本的問答格式，缺乏答案的理由，且通常只從預設選項中生成答案，限制了可解釋性和可靠性。為了解決這些問題，我們進行了一項基於視頻的問答評估，強調人類互動，並加入相關註解，發現人類與AI的反應模式存在顯著差異，顯示現有基準的缺陷。我們的發現將有助於開發更精緻的數據集，促進人類與AI之間更自然的溝通。 PubMed DOI

APBench and benchmarking large language model performance in fundamental astrodynamics problems for space engineering.
APBench 與大型語言模型在太空工程基本天體力學問題中的性能基準測試。 Sci Rep 2025-03-06

這項研究強調了利用大型語言模型（LLMs）解決STEM領域複雜問題的興趣，特別是在天體動力學和太空工程方面。天體動力學問題基準（APBench）的發展，為評估LLMs在這些領域的解題能力提供了重要依據。透過創建多樣化的問題和答案，這個基準旨在評估開源和專有模型的表現，並為未來太空研究中的智慧進步奠定基礎。 PubMed DOI

原始文章

站上相關主題文章列表