Developing ChatGPT for biology and medicine: a complete review of biomedical question answering.
為生物學和醫學開發 ChatGPT：生物醫學問答的完整回顧。 Biophys Rep 2024-07-19

這份文件介紹了一種策略性的方法，透過整合自然語言處理（NLP）和多模態數據，提升醫療問題回答（MDQA）的能力。重點在於專注醫療數據，以提高診斷、治療建議和健康照護的準確性與效率。文章探討了單模態（如文本或圖像）和多模態（結合多種數據）任務的應用，並指出MDQA面臨的挑戰與未來研究機會。這份綜合性回顧為醫療研究人員提供了重要資源，幫助他們選擇合適的方法論，推動醫療問題回答的進步。 PubMed DOI

Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine.
多模態 GPT-4 視覺在醫學中專家級準確性背後的隱藏缺陷。 NPJ Digit Med 2024-07-23

最近研究顯示，具視覺功能的GPT-4V在某些醫療挑戰中超越人類醫師，特別是在多選題準確性上。透過《新英格蘭醫學雜誌》的影像挑戰，我們分析了GPT-4V在影像理解、醫學知識回憶和多模態推理的表現。結果顯示，GPT-4V的多選題準確率為81.6%，人類醫師則為77.8%。不過，GPT-4V在影像理解方面的推理常有缺陷，出現率高達35.5%。儘管準確率高，研究強調在GPT-4V能有效應用於臨床前，需更深入評估其推理能力。 PubMed DOI

Interpretable medical image Visual Question Answering via multi-modal relationship graph learning.
可解釋的醫學影像視覺問答透過多模態關係圖學習。 Med Image Anal 2024-07-30

醫療視覺問題回答（VQA）是醫療多模態大型語言模型（LLMs）中的一項重要任務，旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率，特別是在資源有限的環境中。不過，目前的醫療 VQA 數據集規模不大，且多為簡單問題，缺乏深度推理。我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準，並開發了一種基於 LLM 的方法，顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集，專注於胸部 X 光影像，並提出了新穎的 VQA 方法，強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

Evaluating multimodal AI in medical diagnostics.
評估多模態人工智慧在醫學診斷中的應用。 NPJ Digit Med 2024-08-07

這項研究評估了多模態人工智慧模型在NEJM影像挑戰中的表現，並與人類集體智慧進行比較。結果顯示，人工智慧在臨床診斷上有潛力，但也有其限制。Anthropic的Claude 3系列在準確性上超越了人類平均水平，但人類集體決策的表現仍優於所有人工智慧模型。此外，GPT-4 Vision Preview在較簡單問題上反應更有效，特別是對小圖像和長文字的問題。 PubMed DOI

MedExpQA: Multilingual benchmarking of Large Language Models for Medical Question Answering.
MedExpQA：大型語言模型在醫學問答中的多語言基準測試。 Artif Intell Med 2024-08-09

這篇論文介紹了MedExpQA，這是一個多語言的基準，專門用來評估大型語言模型（LLMs）在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯，但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋，讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考，研究顯示LLMs在英語的準確率約75%，但其他語言下降10%。作者計劃公開數據、代碼和微調模型，以促進後續研究。 PubMed DOI

Q-BENCH: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs.
Q-BENCH：一個針對單幅圖像到成對圖像的低階視覺多模態基礎模型的基準。 IEEE Trans Pattern Anal Mach Intell 2024-08-21

多模態大型語言模型（MLLMs）的進展正在改變計算機視覺，尤其是多功能基礎模型的開發。不過，對於低層次視覺感知和理解的評估仍待深入探討。為此，我們建立了基準設置，模擬人類對低層次視覺的語言反應，包含低層次視覺感知（A1）和描述（A2）兩大任務，並引入LLVisionQA+和LLDescribe+數據集。此外，我們還評估了MLLMs預測質量分數的能力（A3）。結果顯示，雖然多數模型在單一圖像上表現不錯，但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

MedConceptsQA: Open source medical concepts QA benchmark.
MedConceptsQA：開源醫學概念問答基準。 Comput Biol Med 2024-09-14

MedConceptsQA的推出為評估大型語言模型（LLMs）在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題，並依難易程度分類。評估結果顯示，許多預訓練的臨床LLMs表現不佳，接近隨機猜測。相比之下，像GPT-4的模型表現顯著提升，超過最佳臨床模型Llama3-OpenBioLLM-70B，提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力，暗示臨床模型需進一步發展。該基準已對外公開，供後續研究使用。 PubMed DOI

Development of a large-scale medical visual question-answering dataset.
大型醫學視覺問答數據集的開發。 Commun Med (Lond) 2024-12-21

這項研究專注於提升醫療視覺問答（MedVQA），並將其視為一種生成任務，模擬人機互動。研究團隊創建了名為PMC-VQA的大型數據集，包含227,000對問題和答案，並與149,000張醫療影像相關聯。透過結合預訓練視覺編碼器和大型語言模型，他們開發了一個生成模型，並在PMC-VQA數據集上訓練，結果在生成準確且相關的答案方面表現優於現有模型。此外，還引入了經人工驗證的測試集，提供更具挑戰性的評估。PMC-VQA數據集成為研究社群的重要資源，並持續維護排行榜以評估最先進的方法。 PubMed DOI

Assessing the performance of zero-shot visual question answering in multimodal large language models for 12-lead ECG image interpretation.
評估多模態大型語言模型在12導聯心電圖影像解讀中零樣本視覺問答的表現。 Front Cardiovasc Med 2025-02-21

這項研究探討多模態大型語言模型（LLMs）在12導程心電圖（ECG）影像上進行零樣本視覺問題回答（VQA）的應用。結果顯示，雖然模型能提供答案，但在準確提取和描述影像特徵方面常出現錯誤。相比之下，它們在描述前提條件和邏輯推理上表現較好。研究強調提升影像特徵準確性的重要性，並指出僅依賴多選題的正確率無法全面評估VQA系統的表現，顯示出解釋複雜醫學影像的挑戰與限制。 PubMed DOI

原始文章

站上相關主題文章列表