LLM Comparator: Interactive Analysis of Side-by-Side Evaluation of Large Language Models.
LLM 比較器:大型語言模型的並排評估互動分析。
IEEE Trans Vis Comput Graph 2024-09-10
LLM Comparator 是一款視覺分析工具,透過並排比較來提升對大型語言模型(LLMs)的評估。它解決了 LLM 評估中可擴展性和可解釋性的問題,讓使用者能分析為何某模型表現優於另一模型。這工具與 Google 專業人士合作開發,提供深入分析個別範例的流程,並讓使用者視覺化探索數據,識別模式、形成假設,並獲得改進模型的見解。LLM Comparator 已整合進 Google 的評估平台,並開源供更多人使用。
PubMedDOI♡
站上相關主題文章列表
KnowledgeVIS: Interpreting Language Models by Comparing Fill-in-the-Blank Prompts.
透過比較填空提示來解釋語言模型的 KnowledgeVIS。
IEEE Trans Vis Comput Graph 2023-12-27
A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。
Comput Biol Med 2024-03-21
Enhancing Data Literacy On-demand: LLMs as Guides for Novices in Chart Interpretation.
提升數據素養即時需求:以LLMs為新手在圖表解讀中的指導。
IEEE Trans Vis Comput Graph 2024-06-12
Fine-Tuned Large Language Model for Visualization System: A Study on Self-Regulated Learning in Education.
針對視覺化系統的微調大型語言模型:教育中自我調節學習的研究。
IEEE Trans Vis Comput Graph 2024-09-10
AdversaFlow: Visual Red Teaming for Large Language Models with Multi-Level Adversarial Flow.
AdversaFlow:針對大型語言模型的多層對抗流可視化紅隊測試。
IEEE Trans Vis Comput Graph 2024-09-16