原始文章

MicroVQA是一個新推出的視覺問答基準,專注於提升生物學領域的多模態推理能力。現有的基準多數只針對大學程度,且偏重於低層次的感知,無法應對複雜的科學推理需求。MicroVQA透過評估專家圖像理解、假設生成和實驗提案三大推理能力,提供1,042道由生物學專家設計的多選題,反映真實科學實踐。研究顯示,多模態推理的挑戰性高於語言推理,並且MicroVQA對AI驅動的生物醫學研究具有重要價值。 PubMed


站上相關主題文章列表

這份文件介紹了一種策略性的方法,透過整合自然語言處理(NLP)和多模態數據,提升醫療問題回答(MDQA)的能力。重點在於專注醫療數據,以提高診斷、治療建議和健康照護的準確性與效率。文章探討了單模態(如文本或圖像)和多模態(結合多種數據)任務的應用,並指出MDQA面臨的挑戰與未來研究機會。這份綜合性回顧為醫療研究人員提供了重要資源,幫助他們選擇合適的方法論,推動醫療問題回答的進步。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 PubMed DOI

最近的研究顯示,GPT-4V在醫學影像的解讀上有不錯的潛力,尤其在美國醫學執照考試中表現優異,Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過,雖然正確答案的解釋質量接近人類專家,但錯誤答案的解釋常常不準確,顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰,需要多次提示才能給出準確解釋。因此,在將GPT-4V應用於臨床前,仍需進一步評估其影像解釋能力。 PubMed DOI

最近的研究探討大型語言模型(LLMs)在臨床決策和考試問題回答的有效性,特別是視覺語言模型(VLMs)的引入。研究評估了GPT-4、Claude-3 Sonnet和Gemini-1.5在德國和美國醫學執照考試中的表現。結果顯示,所有LLMs在文本問題中均達及格,但只有GPT-4在圖像問題中超過及格,表現明顯優於其他模型。GPT-4在文本和圖像問題上也超越了醫學生的歷史表現,顯示其在外科決策和醫學教育中的潛在應用價值。 PubMed DOI

這項研究探討多模態大型語言模型(LLMs)在12導程心電圖(ECG)影像上進行零樣本視覺問題回答(VQA)的應用。結果顯示,雖然模型能提供答案,但在準確提取和描述影像特徵方面常出現錯誤。相比之下,它們在描述前提條件和邏輯推理上表現較好。研究強調提升影像特徵準確性的重要性,並指出僅依賴多選題的正確率無法全面評估VQA系統的表現,顯示出解釋複雜醫學影像的挑戰與限制。 PubMed DOI

BioMedGPT是一個新型的多模態大型語言模型,專為生物醫學研究設計,克服了現有模型的限制。它透過廣泛的生物醫學文獻進行預訓練,增強知識基礎,並整合2D分子圖、蛋白質序列與自然語言。實驗結果顯示,BioMedGPT在理解生物醫學文件及回答研究問題上,表現與人類專家相當,並在分子和蛋白質問答任務中顯著提升ROUGE-L分數。相關資源已在GitHub上公開,供大家使用。 PubMed DOI

這項研究發現,Gemini 和 DeepSeek 在病理診斷推理上比 OpenAI 模型更有深度和邏輯性,也更常用專家級推理策略。雖然各模型正確率差不多,但在啟發式和模式識別推理上表現較弱。Gemini 和 DeepSeek 答案較一致但不夠精簡。整體來說,先進 LLMs 雖有專家級潛力,但在情境理解和啟發式推理上還有待加強,臨床應用前需再改進。 PubMed DOI

研究團隊開發了CCBench,首個專門評估大型語言模型和視覺語言模型在子宮頸細胞學篩檢表現的基準資料集。測試結果顯示,雖然GPT-4、Gemini等模型有潛力,但準確度和可靠性仍不如人類專家,且有誤導風險,目前還不適合臨床應用,需再優化改進。 PubMed DOI

這篇研究提出 MedBLIP,結合影像編碼器和大型語言模型,有效提升胸腔X光醫學問答表現。透過多層影像特徵擷取和部分解凍模型權重,能更好整合影像與文字資訊。實驗證明,解凍31.25%權重可顯著提升準確率。雖無法取代醫師,但能輔助診斷與研究。程式碼已開源。 PubMed DOI