Text-Guided Image Editing Based on Post Score for Gaining Attention on Social Media.
基於後分數的文本引導圖像編輯，以在社交媒體上吸引注意力。 Sensors (Basel) 2024-02-14

文字導向的圖像編輯是利用文字提示來編輯圖像，保留特定區域。根據提示呈現方式不同，效果也不同。介紹了一種增強社群媒體圖像的方法，透過語言模型生成提示，選擇引人注目的圖像。實驗顯示，這方法編輯的圖像能準確反映提示，且在社群媒體上受好評。 PubMed DOI

Improving the use of LLMs in radiology through prompt engineering: from precision prompts to zero-shot learning.
從精確提示到零樣本學習：通過及時工程改進放射學中 LLMs 的應用。 Rofo 2024-02-26

大型語言模型如ChatGPT在放射學領域有潛力，但成效需靠即時工程處理。不同提示策略可客製化模型回應，無需額外訓練。少樣本學習和嵌入式技術對提升聊天機器人輸出和透明度至關重要。在放射學等專業任務中，提示工程對LLMs利用至關重要，隨模型演進，零樣本學習等方法愈見重要。 PubMed DOI

Model tuning or prompt Tuning? a study of large language models for clinical concept and relation extraction.
模型調整還是提示調整？大型語言模型在臨床概念和關係提取中的研究。 J Biomed Inform 2024-04-06

研究發現，使用解凍的LLMs進行軟提示在GatorTron上表現最佳，勝過傳統微調和硬提示模型。當LLMs規模擴大時，凍結的LLMs也具競爭力，展現出良好少樣本學習和泛化能力。凍結模型不僅計算成本更低，還能跨機構應用。 PubMed DOI

Towards Dataset-scale and Feature-oriented Evaluation of Text Summarization in Large Language Model Prompts.
大型語言模型提示中文本摘要的數據集規模和特徵導向評估。 IEEE Trans Vis Comput Graph 2024-09-09

最近大型語言模型和提示工程的進展，讓自訂聊天機器人變得更容易，不再需要程式設計技能。不過，進行大規模的提示評估仍然很具挑戰性。我們的研究確定了五個關鍵挑戰，並提出了一個以特徵為導向的提示評估工作流程，特別針對文本摘要，強調根據摘要特徵來評估提示，而非僅依賴傳統指標。為了支持這個流程，我們推出了Awesum，一個視覺分析系統，幫助用戶識別最佳提示改進。我們的測試顯示，Awesum能有效幫助非技術用戶進行系統性評估，並可應用於其他自然語言生成任務。未來建議專注於大型語言模型的特徵導向評估。 PubMed DOI

Fine-Tuned Large Language Model for Visualization System: A Study on Self-Regulated Learning in Education.
針對視覺化系統的微調大型語言模型：教育中自我調節學習的研究。 IEEE Trans Vis Comput Graph 2024-09-10

大型語言模型（LLMs）在智能視覺化系統中有很大潛力，尤其在專業應用上，但整合時面臨挑戰，包括領域特定問題、視覺化過程及用戶互動。為解決這些問題，我們提出了一個框架，利用微調的LLMs來改善視覺互動。在教育領域，智能視覺化系統能支持初學者的自我調節學習。我們介紹了Tailor-Mind，一個互動式視覺化系統，幫助AI初學者進行自我調節學習。研究顯示，Tailor-Mind能提供個性化建議，增強學習體驗，驗證了我們框架的有效性。 PubMed DOI

Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning.
透過視覺參考指導調整推進多模態大型語言模型在圖表問題回答中的應用。 IEEE Trans Vis Comput Graph 2024-09-10

新興的多模態大型語言模型（MLLMs）在圖表問題回答（CQA）上展現出潛力，但目前的研究存在一些不足。首先，過度關注數據量的收集，卻忽略了視覺編碼和特定QA任務的需求，導致數據分佈不均。其次，現有方法多針對自然圖像，未考慮圖表的獨特性。為了解決這些問題，我們提出了一種視覺參考的指令調整方法，並透過新數據引擎篩選高質量數據，改善模型的細粒度識別。實驗結果顯示，我們的方法在基準測試中持續超越其他CQA模型，並提供了未來研究的數據集劃分。相關代碼和數據集可在 https://github.com/zengxingchen/ChartQA-MLLM 獲得。 PubMed DOI

Linguistically informed ChatGPT prompts to enhance Japanese-Chinese machine translation: A case study on attributive clauses.
語言學知識驅動的 ChatGPT 提示以增強日中機器翻譯：以定語從句為案例研究。 PLoS One 2025-01-09

這篇論文探討了將日文定語從句翻譯成中文的挑戰，特別是名詞語義角色對翻譯的影響。研究指出目前機器翻譯工具的局限性，並透過範例分析提出了一種經ChatGPT測試的三步驟提示鏈接策略，翻譯品質顯著提升，平均分數提高超過43%。結果強調語言學知識在設計提示時的重要性，對於提升複雜句子的翻譯準確性至關重要。這項研究不僅連結了語言學理論與機器翻譯，還為優化大型語言模型的提示及改善語言教育工具提供了新見解。 PubMed DOI

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning.
CLEFT：結合高效大型語言模型與提示微調的語言-影像對比學習。 Med Image Comput Comput Assist Interv 2025-01-10

最近的研究顯示，對比語言-圖像預訓練（CLIP）在多項任務中表現優異，但傳統方法需大量GPU資源，對醫療應用造成限制。為了解決這些問題，我們提出了一種新方法，稱為CLEFT，結合高效的大型語言模型與提示微調。這種方法縮小了臨床數據與簡單標籤之間的差距，並在胸部X光和乳腺攝影等數據集上達到最先進的性能。更重要的是，我們的框架將可訓練模型大小減少39%，使其在醫療應用中更具實用性。 PubMed DOI

T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation.
T2I-CompBench++：一個增強且全面的基準，用於組合文本到圖像生成。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

這段文字介紹了 T2I-CompBench++，一個新基準，旨在提升文本到圖像的生成效果。它包含 8,000 個提示，分為四大類別：屬性綁定、物件關係、生成數學能力和複雜組合，還有八個子類別，如 3D 空間關係。此外，基準引入了新的評估指標，特別是針對 3D 關係和數學能力的檢測指標，並利用多模態大型語言模型進行分析。研究評估了 11 個文本到圖像模型，包括 FLUX.1 和 DALLE-3，以測試基準的有效性和 MLLMs 的能力。更多資訊可參考專案頁面。 PubMed DOI

PromptAid: Visual Prompt Exploration, Perturbation, Testing and Iteration for Large Language Models.
PromptAid: 大型語言模型的視覺提示探索、擾動、測試與迭代。 IEEE Trans Vis Comput Graph 2025-03-03

大型語言模型（LLMs）因為能用簡單的提示處理各種自然語言任務而受到廣泛歡迎，讓非專家也能輕鬆使用。不過，撰寫有效的提示卻不容易，因為需要特定知識。為了幫助用戶改善提示，我們開發了PROMPTAID，這是一個互動式的視覺分析系統，能讓用戶創建、精煉和測試提示。PROMPTAID透過協調視覺化，促進關鍵字擾動、意義重述和選擇最佳範例，並經過專家意見和用戶研究驗證，讓用戶能輕鬆迭代提示，生成多樣選項，並有效分析提示表現。 PubMed DOI

原始文章

站上相關主題文章列表