原始文章

這篇論文提出 AFSPrompt,一種免訓練的新方法,專門用來挑選和組織知識型視覺問答的範例。它用語意概念來描述範例,讓選擇過程更透明、可信。AFSPrompt 先用多模態嵌入過濾不相關範例,再用模糊集合邏輯排序,適合小型語言模型,減少對大型 API 依賴。實驗證明能有效提升 VQA 表現。程式碼:https://github.com/afs001/AFSPrompt PubMed DOI


站上相關主題文章列表

最近大型語言模型和提示工程的進展,讓自訂聊天機器人變得更容易,不再需要程式設計技能。不過,進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰,並提出了一個以特徵為導向的提示評估工作流程,特別針對文本摘要,強調根據摘要特徵來評估提示,而非僅依賴傳統指標。為了支持這個流程,我們推出了Awesum,一個視覺分析系統,幫助用戶識別最佳提示改進。我們的測試顯示,Awesum能有效幫助非技術用戶進行系統性評估,並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

引入事實與幻覺提示解碼法(DFHP)的目的是解決大型語言模型中的幻覺問題,避免生成不相關或無意義的文本。透過對比解碼,DFHP強調事實提示與幻覺提示的輸出概率差異。實驗顯示,這方法在多項任務中提升了像LLaMA這類模型的事實準確性,且不需額外訓練。在TruthfulQA數據集上,DFHP在不同模型大小中平均提升了6.4%的準確性,特別適合用於醫療診斷和法律等高風險應用。 PubMed DOI

視覺語言模型(VLMs)在跨模態推理上表現優異,因為它們能整合視覺與語言特徵。最近的進展集中在透過提示學習進行微調,以適應不同任務。TCP方法雖然能增強VLM的泛化能力,但固定的文本模板可能無法捕捉細微的類別差異。 為了解決這個問題,我們提出了自定義文本生成的類別感知提示調整(CuTCP),利用大型語言模型生成更具描述性的提示,提升模型對已知與未見類別的區分能力。實驗顯示,CuTCP在新類別上改善了0.74%,並在11個多樣化的圖像數據集上整體提升了0.44%。這證明CuTCP有效增強了模型的適應性與泛化能力,特別是在細粒度分類任務中。 PubMed DOI

這項研究評估了六種不同的少量樣本提示方法,針對大型語言模型在Spider4SPARQL基準測試中的表現,該測試專注於複雜的SPARQL知識圖譜問答。實驗分為兩組,第一組檢視基於樣本數量或類型的提示方法,第二組則探討如何透過LLM生成的解釋來優化提示。結果顯示,商業模型在KGQA的準確率不超過51%,顯示處理複雜查詢的挑戰。最有效的方法是結合簡單提示與本體,並使用五個隨機樣本。 PubMed DOI

大型語言模型(LLMs)因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎,讓非專家也能輕鬆使用。不過,撰寫有效的提示卻不容易,因為需要特定知識。為了幫助用戶改善提示,我們開發了PROMPTAID,這是一個互動式的視覺分析系統,能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化,促進關鍵字擾動、意義重述和選擇最佳範例,並經過專家意見和用戶研究驗證,讓用戶能輕鬆迭代提示,生成多樣選項,並有效分析提示表現。 PubMed DOI

Prophet 是一套新型的視覺問答框架,能提升大型語言模型在圖片問答時結合視覺資訊和外部知識的能力。它會先用 VQA 模型產生答案候選和範例,再整理成 prompt 給 LLM,讓回答更精準。Prophet 在多個資料集上表現優異,且能搭配不同模型使用,進階版 Prophet++ 效果更好。 PubMed DOI

這篇論文提出MSCPT新方法,專為少量樣本和弱監督下的全片影像分類設計。MSCPT結合多尺度病理知識、圖形提示和優化聚合方式,有效提升視覺-語言模型表現。多項實驗證明MSCPT優於現有方法,程式碼已開源(https://github.com/Hanminghao/MSCPT)。 PubMed DOI

這篇文章介紹了幾種常見的提示工程技巧,像是 zero-shot、few-shot 和 chain-of-thought,說明它們如何幫助提升 AI 在介入放射學領域的表現。內容也討論資料隱私、法規等挑戰,並展望未來像檢索增強生成、多模態模型等新方向。 PubMed DOI

這篇論文提出一種全新的高效轉移學習方法,專門用在視覺-語言模型。它結合了兩種特徵調整器,並利用大型語言模型自動產生更精細、具情境的提示,取代傳統模板化文字。這讓模型能更準確分辨不同類別,在11個資料集上都拿下最佳成績。程式碼和提示內容可在 GitHub 查詢。 PubMed DOI

這篇論文提出CILMP方法,結合大型語言模型產生的專業醫學知識,來客製化醫學影像分類模型的提示語。CILMP能根據不同疾病和影像自動調整提示語,讓視覺-語言模型在多種醫學影像分類任務上表現更好,效果也比現有方法優秀。 PubMed DOI