Interpretable medical image Visual Question Answering via multi-modal relationship graph learning.
可解釋的醫學影像視覺問答透過多模態關係圖學習。 Med Image Anal 2024-07-30

醫療視覺問題回答（VQA）是醫療多模態大型語言模型（LLMs）中的一項重要任務，旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率，特別是在資源有限的環境中。不過，目前的醫療 VQA 數據集規模不大，且多為簡單問題，缺乏深度推理。我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準，並開發了一種基於 LLM 的方法，顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集，專注於胸部 X 光影像，並提出了新穎的 VQA 方法，強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

IQAGPT: computed tomography image quality assessment with vision-language and ChatGPT models.
IQAGPT：使用視覺語言和 ChatGPT 模型的電腦斷層影像品質評估。 Vis Comput Ind Biomed Art 2024-08-05

這項研究介紹了IQAGPT，一個新系統，用來評估電腦斷層掃描（CT）影像的品質。它結合了大型語言模型（LLMs）和視覺語言模型（VLMs），並利用一個包含1,000個不同品質CT切片的數據集進行訓練。這個系統能夠生成詳細的品質描述，並讓使用者透過ChatGPT互動，獲得品質評分或放射學報告。結果顯示，IQAGPT在影像品質評估上表現優於現有模型，未來有潛力補充或取代放射科醫師的評估。 PubMed DOI

MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering.
MedExpQA：大型語言模型在醫學問答中的多語言基準測試。 Artif Intell Med 2024-08-09

這篇論文介紹了MedExpQA，這是一個多語言的基準，專門用來評估大型語言模型（LLMs）在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯，但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋，讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考，研究顯示LLMs在英語的準確率約75%，但其他語言下降10%。作者計劃公開數據、代碼和微調模型，以促進後續研究。 PubMed DOI

Evaluating text and visual diagnostic capabilities of large language models on questions related to the Breast Imaging Reporting and Data System Atlas 5<sup>th</sup> edition.
評估大型語言模型在與乳腺影像報告與數據系統 Atlas 第五版相關問題的文本和視覺診斷能力。 Diagn Interv Radiol 2024-09-09

這項研究評估大型語言模型（LLMs）在解釋乳腺影像報告及提供臨床建議的表現，分為兩個步驟： 1. **文本評估**：比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳（90%），超過一般放射科醫師（78%）和乳腺放射科醫師（82%）。 2. **視覺評估**：測試五個多模態LLMs在100張乳腺超音波影像上的表現，Claude 3.5 Sonnet以59%準確率領先。研究顯示，雖然LLMs在文本評估中表現良好，但視覺診斷能力有限，需在放射科醫師監督下使用，以避免誤診。 PubMed DOI

VisEval: A Benchmark for Data Visualization in the Era of Large Language Models.
VisEval：大型語言模型時代的數據視覺化基準。 IEEE Trans Vis Comput Graph 2024-09-10

這篇論文探討了自然語言轉視覺化（NL2VIS）的挑戰，並指出大型語言模型（LLMs）在此領域的潛力。作者提到，缺乏全面的基準測試使得評估LLMs的視覺化能力變得困難。為了解決這個問題，他們提出了名為VisEval的新基準測試，包含來自146個資料庫的2,524個查詢，並附有準確的標籤。此外，還引入了一種自動評估方法，評估有效性、合法性和可讀性。透過VisEval的應用，作者揭示了共同挑戰，並為未來的NL2VIS研究提供了重要見解。 PubMed DOI

An Empirical Evaluation of the GPT-4 Multimodal Language Model on Visualization Literacy Tasks.
對GPT-4多模態語言模型在視覺素養任務上的實證評估。 IEEE Trans Vis Comput Graph 2024-09-10

這項研究評估了GPT-4的視覺能力，特別是在視覺素養任務上的表現。結果顯示，GPT-4能識別趨勢和極端值，對視覺設計原則有一定理解，但在沒有原始數據的情況下，對簡單數值檢索表現不佳，且在區分圖表顏色時也有困難，可能出現幻覺和不一致的情況。研究反映了模型的優缺點，並探討了未來在視覺化研究中的潛力。所有相關資料可在提供的連結中找到。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

Large language models predict human sensory judgments across six modalities.
大型語言模型預測人類在六種感官模式下的判斷。 Sci Rep 2024-09-13

這項研究探討大型語言模型，特別是GPT-4，如何從語言中恢復感知資訊，這在哲學和認知科學中非常重要。研究分析了六個心理物理數據集，發現GPT-4的判斷與人類數據相符，能捕捉到感知表徵，如色輪和音高螺旋。值得注意的是，GPT-4在視覺任務上的表現並未顯著提升，因為它同時接受視覺和語言訓練。此外，研究還檢視了多語言的顏色命名任務，顯示GPT-4能反映英語和俄語之間的變異，突顯語言與感知的複雜關係。 PubMed DOI

MedConceptsQA: Open source medical concepts QA benchmark.
MedConceptsQA：開源醫學概念問答基準。 Comput Biol Med 2024-09-14

MedConceptsQA的推出為評估大型語言模型（LLMs）在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題，並依難易程度分類。評估結果顯示，許多預訓練的臨床LLMs表現不佳，接近隨機猜測。相比之下，像GPT-4的模型表現顯著提升，超過最佳臨床模型Llama3-OpenBioLLM-70B，提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力，暗示臨床模型需進一步發展。該基準已對外公開，供後續研究使用。 PubMed DOI

The Two Word Test as a semantic benchmark for large language models.
兩字測試作為大型語言模型的語義基準。 Sci Rep 2024-09-16

兩字測試（TWT）是一個新開源基準，專門評估大型語言模型（LLMs）的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷，並提供0到4的評分或二元判斷（有意義 vs. 無意義）。實驗顯示，像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類，經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性，提醒我們對其理解能力的主張應保持謹慎。 PubMed DOI

原始文章

站上相關主題文章列表