原始文章

MicroVQA是一個新推出的視覺問答基準,專注於提升生物學領域的多模態推理能力。現有的基準多數只針對大學程度,且偏重於低層次的感知,無法應對複雜的科學推理需求。MicroVQA透過評估專家圖像理解、假設生成和實驗提案三大推理能力,提供1,042道由生物學專家設計的多選題,反映真實科學實踐。研究顯示,多模態推理的挑戰性高於語言推理,並且MicroVQA對AI驅動的生物醫學研究具有重要價值。 PubMed


站上相關主題文章列表

這份文件介紹了一種策略性的方法,透過整合自然語言處理(NLP)和多模態數據,提升醫療問題回答(MDQA)的能力。重點在於專注醫療數據,以提高診斷、治療建議和健康照護的準確性與效率。文章探討了單模態(如文本或圖像)和多模態(結合多種數據)任務的應用,並指出MDQA面臨的挑戰與未來研究機會。這份綜合性回顧為醫療研究人員提供了重要資源,幫助他們選擇合適的方法論,推動醫療問題回答的進步。 PubMed DOI

最近研究顯示,具視覺功能的GPT-4V在某些醫療挑戰中超越人類醫師,特別是在多選題準確性上。透過《新英格蘭醫學雜誌》的影像挑戰,我們分析了GPT-4V在影像理解、醫學知識回憶和多模態推理的表現。結果顯示,GPT-4V的多選題準確率為81.6%,人類醫師則為77.8%。不過,GPT-4V在影像理解方面的推理常有缺陷,出現率高達35.5%。儘管準確率高,研究強調在GPT-4V能有效應用於臨床前,需更深入評估其推理能力。 PubMed DOI

醫療視覺問題回答(VQA)是醫療多模態大型語言模型(LLMs)中的一項重要任務,旨在解決醫療影像的臨床問題。這項技術有助於提升醫療人員的效率,特別是在資源有限的環境中。不過,目前的醫療 VQA 數據集規模不大,且多為簡單問題,缺乏深度推理。 我們的研究引入了一個以臨床知識為基礎的影像差異 VQA 基準,並開發了一種基於 LLM 的方法,顯著提升標籤提取準確率。我們創建了名為 Medical-CXR-VQA 的數據集,專注於胸部 X 光影像,並提出了新穎的 VQA 方法,強調證據和真實性。相關代碼和數據集可在 GitHub 獲取。 PubMed DOI

這項研究評估了多模態人工智慧模型在NEJM影像挑戰中的表現,並與人類集體智慧進行比較。結果顯示,人工智慧在臨床診斷上有潛力,但也有其限制。Anthropic的Claude 3系列在準確性上超越了人類平均水平,但人類集體決策的表現仍優於所有人工智慧模型。此外,GPT-4 Vision Preview在較簡單問題上反應更有效,特別是對小圖像和長文字的問題。 PubMed DOI

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 PubMed DOI

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 PubMed DOI

新興的多模態大型語言模型(MLLMs)在圖表問題回答(CQA)上展現出潛力,但目前的研究存在一些不足。首先,過度關注數據量的收集,卻忽略了視覺編碼和特定QA任務的需求,導致數據分佈不均。其次,現有方法多針對自然圖像,未考慮圖表的獨特性。為了解決這些問題,我們提出了一種視覺參考的指令調整方法,並透過新數據引擎篩選高質量數據,改善模型的細粒度識別。實驗結果顯示,我們的方法在基準測試中持續超越其他CQA模型,並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

MedConceptsQA的推出為評估大型語言模型(LLMs)在醫療代碼和概念理解上提供了重要基準。這個基準涵蓋了診斷、程序和藥物相關的問題,並依難易程度分類。評估結果顯示,許多預訓練的臨床LLMs表現不佳,接近隨機猜測。相比之下,像GPT-4的模型表現顯著提升,超過最佳臨床模型Llama3-OpenBioLLM-70B,提升幅度達9-11%。這顯示通用型LLMs在醫療概念解釋上的潛力,暗示臨床模型需進一步發展。該基準已對外公開,供後續研究使用。 PubMed DOI

這項研究專注於提升醫療視覺問答(MedVQA),並將其視為一種生成任務,模擬人機互動。研究團隊創建了名為PMC-VQA的大型數據集,包含227,000對問題和答案,並與149,000張醫療影像相關聯。透過結合預訓練視覺編碼器和大型語言模型,他們開發了一個生成模型,並在PMC-VQA數據集上訓練,結果在生成準確且相關的答案方面表現優於現有模型。此外,還引入了經人工驗證的測試集,提供更具挑戰性的評估。PMC-VQA數據集成為研究社群的重要資源,並持續維護排行榜以評估最先進的方法。 PubMed DOI

這項研究探討多模態大型語言模型(LLMs)在12導程心電圖(ECG)影像上進行零樣本視覺問題回答(VQA)的應用。結果顯示,雖然模型能提供答案,但在準確提取和描述影像特徵方面常出現錯誤。相比之下,它們在描述前提條件和邏輯推理上表現較好。研究強調提升影像特徵準確性的重要性,並指出僅依賴多選題的正確率無法全面評估VQA系統的表現,顯示出解釋複雜醫學影像的挑戰與限制。 PubMed DOI