VIS2019论文整理(1)
[V] VAST,[I] InfoVis,[S] SciVis
整理一下VIS2019的论文内容(Abstract为主)
本来打算全部整理在一篇文章里的,发现太乱了,所以一篇就放十个专题左右吧
VIS Best Paper
[V] FlowSense: A Natural Language Interface for Visual Data Exploration within a Dataflow System [PDF]
数据流可视化系统允许用户构建数据流图,数据流图由查询和可视化模块组成,以指定系统功能,从而实现灵活的可视化数据探索。然而,学习数据流图的使用带来的开销往往会阻碍用户。
基于此,文章设计了一个用于数据流可视化系统的自然语言界面——FlowSense,利用自然语言处理技术来协助数据流图的构造。FlowSense使用带有特殊话语标记和特殊话语占位符的语义分析器来推广到不同的数据集和数据流图。它明确地将已识别的数据集和图表特殊话语呈现给用户,用于数据流上下文感知。使用FlowSense,用户可以通过简单的英语,更方便地扩展和调整数据流图,文章通过一个案例研究,领域专家用一个真实世界的数据来分析问题以及一个正式的用户研究来评估FlowSense
[I] Data Changes Everything: Challenges and Opportunities in Data Visualization Design Handoff [PDF]
复杂的数据可视化设计项目通常需要具有不同可视化相关技能的人员之间的协作,例如,许多团队包括创建新的可视化设计的设计人员和实现结果可视化软件的开发人员,数据描述工具、可视化设计工具和开发平台之间的差距给致力于创建新的数据可视化的设计人员-开发团队带来了挑战,虽然商业交互设计工具通常支持设计人员和开发人员之间的协作,但创建数据可视化带来了一些当前工具所不支持的独特挑战,特别是,可视化设计人员必须描述和构建对底层数据的理解,然后指定布局、数据编码和其他数据驱动参数,这些参数将在许多不同的数据值之间保持稳定。在较大的团队中,设计人员还必须清楚地将这些映射及其依赖关系传达给开发人员、客户端和其他协作者
文章报告了对五个大型多学科可视化设计项目的观察和反思,并强调了设计规范和六个data-specific可视化挑战。这些挑战包括适应不断变化的数据、预测数据中的边缘情况、理解技术挑战、明确依赖数据的交互、通信数据映射,以及跨迭代保持数据映射的完整性。基于这些观察,揭示了未来用于原型设计、测试和交流数据驱动设计的工具的机会
[S] InSituNet: Deep Image Synthesis for Parameter Space Exploration of Ensemble Simulations [PDF]
文章提出了一个基于深度学习的代理模型——InSituNet,支持参数空间探索的集成仿真,在现场可视化
由于I/O和存储的限制,现场可视化(在模拟时生成可视化)在处理大规模模拟中越来越流行。然而,由于无法获得原始模拟数据,现场可视化方法限制了事后勘探的灵活性,虽然已经提出了多种基于图像的方法来缓解这一限制,但这些方法缺乏探索仿真参数的能力
模型被设计为卷积回归模型,学习仿真和可视化参数与可视化结果的映射。使用训练好的模型,用户可以在各种可视化设置下为不同的仿真参数生成新的图像,从而能够深入分析底层集成仿真。通过定量和定性评价,文章证明了InSituNet在燃烧、宇宙学和海洋模拟中的有效性
A Tour of VAST
[V] NNVA: Neural Network Assisted Visual Analysis of Yeast Cell Polarization Simulation [PDF]
在许多科学学科中,复杂的计算模型经常被设计用来模拟真实世界的物理现象。然而,这些仿真模型的计算成本往往非常高,并且涉及大量的仿真输入参数,在模型应用于真正的科学研究之前,需要对这些参数进行分析和适当的校准
文章提出了一个可视化的分析系统,以促进交互探索性分析高维输入参数空间的复杂酵母细胞极化模拟。该系统可以帮助设计仿真模型的计算生物学家通过修改参数值,直观地校准输入参数,并立即可视化预测的仿真结果,而不需要对每个实例运行原始的昂贵仿真,后端分析框架是一个基于神经网络的代理模型
文章工作展示了使用神经网络作为视觉分析替代模型的优势,利用训练过的网络对原始模拟进行交互参数敏感性分析,并使用神经网络的激活最大化框架推荐最佳参数配置,在训练过程中,进行了两个案例研究,将结果与原始模拟模型的结果以及之前由专家进行的参数分析结果进行了比较
[V] Supporting Analysis of Dimensionality Reduction Results with Contrastive Learning [PDF]
降维(DR)经常用于分析和可视化高维数据,因为它提供了数据的良好的第一眼。然而,为了从数据中获得有用的见解来解释DR结果,还需要额外的分析工作,比如识别集群并理解它们的特征,虽然有许多自动方法(例如基于密度的聚类方法)来识别聚类,但仍然缺乏了解聚类特征的有效方法。一个聚类可以通过其特征值的分布来表征,当特性数量很大时,查看原始特性值并不是一项简单的任务
为了解决这一难题,作者团队提出了一种可视化分析方法,可以在DR结果中有效地突出集群的基本特征。为了提取基本特征,引入了一种增强的对比主成分分析(cPCA)方法。该方法称为ccPCA (PCA中的对比类簇),可以计算每个特征对一个类簇和其他类簇之间对比的相对贡献。通过使用ccPCA,团队创建了一个交互式系统,其中包括集群特性贡献的可伸缩可视化。团队用案例研究采用了几个公开的数据集来证明了方法和系统的有效性
[V] The What-If Tool: Interactive Probing of Machine Learning Models [PDF]
开发和部署机器学习(ML)系统的一个关键挑战是理解它们在广泛的输入范围内的性能,为了应对这一挑战,作者团队创建了What-IF工具,这是一个开源的应用程序,允许从业者使用最少的编码来探测、可视化和分析ML系统。该工具让从业者可以在假设的情况下测试性能,分析不同数据特性的重要性,并在多个模型和输入数据子集之间可视化模型行为。它还允许从业者根据多个ML公平性指标来度量系统。文章主要描述了该工具的设计,并报告不同组织的实际使用情况
[V] Understanding the Role of Alternatives in Data Analysis Practices [PDF]
数据工作者是将执行数据分析活动作为日常工作的一部分,但不正式定义为数据科学家的人。他们来自不同的领域,经常需要探索各种假设和理论、各种数据源、算法、方法、工具和可视化设计。综合起来,称之为替代方案
为了更好地理解和描述替代方案在分析中的作用,作者团队对12名具有不同专业知识的数据工作者进行了半结构化的访谈,进行了四种类型的分析来理解:1.为什么数据工作者要探索替代方案;2.选择的不同概念,以及它们如何融入感知过程;3.围绕备选方案的高级流程;4.继承策略来产生、探索和管理这些替代方案
团队发现参与者的不同层次的领域和计算专业知识,使用不同工具的经验,以及在他们更广泛的背景下的协作,在他们如何探索这些替代方案中扮演了重要的角色。这些发现表明需要更多地关注对替代方案的更深理解,需要更好的工具来促进替代方案的探索、解释和管理
基于这些分析和发现,团队提出了一个基于参与者1)关注程度、2)抽象水平和3)分析过程的框架。文章展示了这个框架如何帮助理解数据工作者在分析中如何考虑这类替代方案,以及工具设计者如何创建工具来更好地支持它们
[V] VASABI: Doing User Behaviour Analytics through Interactive Visual Hierarchical User Profiles [PDF]
用户行为分析(UBA)系统提供了复杂的模型,可以捕捉用户长期的行为,目的是识别不符合用户档案的欺诈行为。由于UBA模型的解释所面临的挑战,文章提出了一种可视化分析方法,以帮助分析人员在多个层次(即个体和群体层次)上获得对用户行为的全面理解
作者团队采用以用户为中心的方法来设计一个可视化的分析框架,支持对用户集合和他们在数字应用程序中进行的众多活动的分析。该框架的核心是层次化用户配置文件的概念,层次化用户配置文件是基于源自会话的特性而构建的,以及使用主题建模方法来总结和分层用户行为的用户任务
团队外部化了一系列的分析目标和任务,并通过与专家一起执行的用例来评估提出的方法。团队观察到,在交互式可视化层次用户档案的帮助下,分析人员能够有效地进行探索性和调查性分析,能够理解用户行为的特征,在评估可疑用户和活动的同时做出明智的决定
Provocations
[I] Data by proxy – material traces as autographic visualizations [PDF]
根据定义,信息可视化将自身限制在符号信息的领域。这篇文章讨论了为什么该领域还应该考虑数据形式的符号编码,包括物理痕迹和物质指标。这篇论文比较了物理痕迹和可视化,并描述了产生、揭示和解释它们的技术和可视化实践,通过对信息可视化与自动图形可视化逆向模型的对比,探讨了材料数据的设计原则。Autographic visualization解决了信息可视化的局限性,比如不能直接反映数据生成的实际情况。这两个模型之间的比较允许探索信息可视化背后的知识假设,并揭示与科学可视化和跟踪阅读的丰富历史的联系
本文首先讨论了数据可视化和相应现象之间的差距,然后研究了材料可视化如何弥合这一差距。它将自动图形可视化与范式(如数据物理化和索引可视化)结合在一起,并将其置于符号学、科学和技术研究(STS)和科学表征的历史等更广泛的理论文献中。本文的主要部分提出了一个用于自动图形可视化的基本设计词汇,并举例说明公民科学家如何在他们的展示中使用自动图形原则,这似乎违反了信息可视化的规范原则,但成功地实现了证据构建的其他修辞目的。最后,本文讨论了自动图形可视化的局限性,提出了痕迹感知的实证研究路线图,并对信息可视化和自动图形可视化技术的发展进行了思考
[I] Design by Immersion: A Transdisciplinary Approach to Problem-Driven Visualizations [PDF]
虽然以前的工作存在如何从问题驱动的可视化工作和设计研究中引导和传播见解,但是文献并没有解决如何在跨学科团队中以推进所有相关学科的方式实现这些目标
在文章中介绍并定义了一种新的方法论范式,即浸入式设计,它为问题驱动的可视化工作提供了另一种视角。通过可视化研究人员参与目标领域的工作(或领域专家参与可视化研究),浸入式设计将跨学科的经验嵌入到可视化过程的中心
文章说明了通过沉浸式设计的过程是如何打开了一套多样的设计活动,这些设计活动可以根据合作、项目和目标的类型以不同的方式组合在一起。最后,文章讨论了沉浸式设计的挑战和潜在的陷阱
[I] Criteria for Rigor in Visualization Design Study [PDF]
通过可视化设计研究,作者团队提出了一种新的研究视角,强调设计是一种探究的方法,通过它实现的广泛的知识贡献是多元的,主观的和社会构建的。从这个解释主义者的立场,团队探索了可视化设计研究的本质,并提出了六个严格的标准,建议根据可视化设计研究及其报告所提供信息的程度来建立和判断其严密性,反射性,丰富性,是似而非的,共鸣性和透明性
这一观点和标准是通过四年围绕社会科学、信息系统和设计知识的严谨性和本质的讨论而构建的。作者建议来自同源学科的方法来支持可视化研究人员在设计研究的规划、执行和报告过程中满足这些标准
通过一系列有意提出的问题,文章探讨了可视化设计研究的新视角的含义,得出的结论是,作为一门学科,可视化还不能很好地接受、培养并充分受益于设计研究的严格的、解释性的方法。文章提出的观点和标准旨在激发围绕可视化设计研究的本质和学科更广泛的基础的对话和辩论
[I] What is Interaction for Data Visualization? [PDF]
交互是数据可视化的基础,但是”交互”在可视化上下文中的含义是模糊和混乱的。作者认为,这种混淆是由于缺乏共识的定义。为了解决这个问题,文章从综合可视化社区的交互的包容性观点开始——包括来自信息可视化、可视化分析和科学可视化的见解,以及高级和初级可视化研究人员的输入
一旦这个观点形成,将看到交互是如何在人机交互(HCI)领域中定义的。通过提取可视化和人机交互中交互观点的共性和差异,作者合成了可视化交互的定义
本文的定义旨在成为一种思考工具,并激发新颖而大胆的交互设计实践。作者希望通过更好地理解可视化中的交互是什么,它可以是什么来丰富可视化系统中交互的质量,并增强用户的能力
[I] Why Authors Don’t Visualize Uncertainty [PDF]
尽管已经有提出在数据中传达不确定性来源的技术,但在媒体文章、数据驱动的报告和消费者应用中,明确地呈现不确定性是例外而不是规则,这项工作考虑了,为什么如此之多的可视化作者选择不可视化不确定性,文章提供了一份可视化作者之间关于与不确定性沟通相关的实践、关联和态度的详细描述,这些研究来自于对90位经常为他人创建可视化的作者的调查结果,并采访了13位有影响力的可视化设计师。文章研究结果突出了作者所面临的挑战,并揭示了关于不确定性在可视化中所扮演角色的假设和不一致性 (这里写的作者指可视化作者而不是这篇文章的作者)
特别是,作者承认描述不确定性的价值与省略直接描述不确定性的规范之间出现了明显的矛盾。为了解释这一矛盾,文章中提出了一个视觉化交际中的不确定性省略的修辞模型
文章中还采用了一种正式的统计模型,即观众如何判断可视化信号的强度,以可视化为基础的传播,以论证不确定性传播必然会降低观众统计推断的自由度。最后,提出了关于不确定性沟通的可视化研究如何能够更好地服务从业者当前的需求和价值观,同时加深对强化不确定性遗漏的假设的理解的建议
Scalar Topology
[S] Progressive Wasserstein Barycenters of Persistence Diagrams [PDF]
文章提出了一种有效的 持续图 瓦瑟斯坦重心(Wasserstein barycenters) 渐进逼近算法,并应用于集成数据的可视化分析。给定一组标量字段,文章的方法允许计算一个持久性图,该图代表该集合,并可视化地表达在该集合中发现的主要特性的数量、数据范围和显著性
团队重述了Wasserstein距离近似的有效算法,以扩展先前在重心估计方面的工作。提出了一种新的快速逼近质心的算法,该算法通过迭代递增计算精度和输出图中持久化特征的数量来逐步逼近质心。这样的累进性极大地提高了实践中的收敛性,并允许设计一个可中断的算法,能够尊重计算时间的限制,这使得交互时间内的Wasserstein重心近似成为可能。
本文介绍了一个集成聚类的应用程序,重新使用k-means算法来利用重心,并在执行时间限制内计算有意义的集成数据簇及其重心图。对合成数据集和现实生活中的数据集进行的广泛实验表明,该算法收敛于质心,这些质心在应用方面具有定性意义,在定量上与以前的技术相比较,同时提供了一个数量级的加速
[S] The Effect of Data Transformations on Scalar Field Topological Analysis of High-Order FEM Solutions [PDF]
高阶有限元方法(HO-FEM)因其在求解复杂流动动力学方面的成功而在模拟界中越来越受欢迎。越来越需要分析这些模拟所产生的输出数据。
同时,拓扑分析工具正在成为研究模拟数据的强大方法,然而,由于两个原因,目前大多数拓扑分析方法在HO-FEM模拟数据中的应用有限:首先,当前的拓扑工具是为线性数据设计的(多项式度为1),但是这些模拟输出的数据的多项式度通常较高(通常高达多项式度为6),其次,模拟数据和模拟数据的导出量在单元边界处存在不连续,且这些不连续不符合拓扑工具的输入要求。解决这两个问题的一种方法是转换高阶数据,以实现拓扑分析的低阶连续输入。然而,很少有工作评估可能的转换选择及其对拓扑分析的下游影响
文章进行了一项实证研究,以评估两种常用的数据转换方法以及最近引入的L-SIAC滤波器用于处理高阶模拟数据。研究结果显示,不同的行为是可能的。文章中提供了一些指导,说明如何使用当前可用的拓扑分析实现最好地考虑HO-FEM模拟的拓扑分析管道
VIS Meets Machine Learning
[V] GUIRO: User-Guided Matrix Reordering [PDF]
矩阵表示是一种被实践证明是有效的关系可视化技术(或网络)数据。但是,如果母表(类似于节点链接图)的布局揭示了底层的数据拓扑,那么它们是最有效的,考虑到许多已开发的算法,一个实际的问题出现了:“我应该为我手边的数据集选择哪个矩阵重排序算法?”,更糟糕的是,对同一数据集应用不同的重排序算法可能会产生明显不同的视觉矩阵模式。这就导致了这些全自动的、通常是启发式的黑箱过程的可信赖性和可解释性的问题
基于此,文章提出了GUIRO,一个可视化的分析系统,它可以帮助新手、网络分析师和算法设计者打开黑箱。用户可以研究70种可达矩阵排序算法的实用性和表达性,对于网络分析师,文章中介绍了一种新的模型空间表示和两种交互技术,用于用户引导的行或列,特别是组的重排序(子矩阵重排序),这些新技术有助于理解全局和局部数据集拓扑
作者通过让算法设计者访问16个重排序质量指标和可视化的探索方法来在行/列排列级别上比较重排序实现来支持算法设计者。并对GUIRO进行了12个主题的指导探索性用户研究,一个案例研究展示了它在真实场景中的有用性,并通过专家研究收集了对设计决策的反馈。文中提出的方法甚至可以帮助没有经验的用户理解矩阵模式,并允许用户引导重排序算法。GUIRO帮助增加矩阵重新排序算法的透明度,从而帮助广泛的用户更好地了解复杂的重排序过程,反过来支持数据和重排序算法的洞察力
[S] LassoNet: Deep Lasso-Selection of 3D Point Clouds [PDF]
在三维点云的探索性分析和可视化中,选择是一个基本的任务。以往对选择方法的研究主要基于局部点密度等启发式方法,这限制了它们在一般数据中的适用性。具体的挑战根源于点云(例如,稠密与稀疏)、视点(例如,闭塞与非闭塞)和套索(例如,小与大)所隐含的巨大变化
文章引入了一种新的深度神经网络LassoNet来进行三维点云的lasso-selection,试图学习从视点和套索到点云区域的潜在映射。为此,通过三维坐标变换和朴素选择将用户目标点与视点和lasso信息结合起来,并通过意图滤波和最远点采样提高方法的可扩展性
作者使用在两个不同的点云数据上有超过30K个lasso-selection记录的数据集来训练一个分层网络。最后进行了一项正式的用户研究,以比较LassoNet与两种先进的lasso-selection方法。评估结果证实,文中的方法提高了不同组合的三维点云、视点和lasso-selection的选择效率和有效性
项目演示地址:https://lassonet.github.io/
[S] TSR-TVD: Temporal Super-Resolution for Time-Varying Data Analysis and Visualization [PDF]
文章提出了TSR-TVD,一个新的深度学习框架,使用对抗数据生成时间超分辨率(TSR)的时变数据(TVD)。TSR-TVD是第一个应用循环生成网络(RGN)的作品,它是循环神经网络(RNN)和生成对抗网络(GAN)的结合,从低分辨率的体积序列生成时间高分辨率的体积序列
TSR-TVD的设计包括一个生成器和一个鉴别器。生成器以一对体积作为输入,并通过前向和后向预测输出合成的中间体积序列。鉴别器以合成的中间体积作为输入,并产生一个分数来表示这些体积的真实度。这种方法也处理多元数据,其中一个变量的训练网络被用于为另一个变量生成TSR
为了证明TSR-TVD的有效性,文中展示了几个时变多元数据集的定量和定性结果,并将方法与仅基于RNN或CNN的标准线性插值和解决方案进行比较
[V] Facetto: Combining Unsupervised and Supervised Learning for Hierarchical Phenotype Analysis in Multi-Channel Image Data [PDF]
文中提出的Facetto是一个可扩展的可视化分析应用程序,用于发现人类肿瘤和组织的高维多通道显微图像中的单细胞表型。这些图像代表了数字组织学的前沿,并有望彻底改变癌症等疾病的研究、诊断和治疗方式。高度多路复用的组织图像是复杂的,包括109个或更多的像素,60多个通道和数百万个单独的细胞。这使得手动分析具有挑战性并容易出错。现有的自动化方法在很大程度上也不够充分,因为它们无法有效地利用解剖学病理学家所掌握的人体组织生物学的深刻知识。为了克服这些挑战,Facetto支持对单元类型和状态进行半自动分析。它将无监督学习和监督学习集成到图像和特征探索过程中,并提供分析来源的工具。专家们可以对数据进行聚类,以发现新的癌症和免疫细胞类型,并利用聚类结果训练卷积神经网络,从而对新细胞进行相应的分类。同样,可以对分类器的输出进行聚类,以发现聚合模式和表型子集。此外还引入了一种新的分层方法来跟踪用户创建的分析步骤和数据子集;这有助于识别细胞类型。用户可以建立表型树,并与由此产生的高维特征和图像空间的层次结构进行交互。文中报告了领域科学家探索各种大规模荧光成像数据集的用例。演示了Facetto如何帮助用户指导聚类和分类过程,检查分析结果,并获得对癌症生物学的新科学见解。
[V] ProtoSteer: Steering Deep Sequence Model with Prototypes [PDF]
最近,在许多应用领域(包括预测医疗保健、自然语言处理和日志分析)中越来越多地采用深度序列模型(例如LSTMs)。然而,这些模型复杂的工作机制限制了领域专家对它们的访问,它们的黑箱特性也使得将专家的特定领域知识合并到模型中成为一项具有挑战性的任务。
在ProtoSteer(原型转向)中,本文解决了直接让领域专家参与来引导深层序列模型的挑战,而不需要依赖模型开发人员作为中介。本文的方法源于基于案例的推理,它模仿了人类一般的问题解决过程,即参考过去的经验来解决新问题。文章中利用ProSeNet(原型序列网络),它从历史数据中学习一小组范例案例(即原型)。在ProtoSteer中,它们既是原始数据的有效视觉总结,也是模型决策的解释。通过使用ProtoSteer,领域专家可以交互式地检查、评论和修改原型。然后系统合并用户指定的原型,并增量地更新模型。团队在应用领域进行广泛的案例研究和专家访谈,包括基于文本的情绪分析和基于车辆故障日志的预测诊断。结果表明,领域用户的参与有助于获得具有更简洁原型的可解释模型,同时保持相似的精度
Features and Topology
[S] Extraction and Visual Analysis of Potential Vorticity Banners around the Alps [PDF]
势涡量(PV)是一个可以通过结合大气中的旋转和分层来计算的量。由于这些物理过程的结合,势涡量被认为是大气动力学中最重要的标量之一。它能够解释锋面雨带的发生,并在温带气旋的特别强风峰中起关键作用。当风绕过山峰而不是越过山峰时,一个潜在的涡量累积就像拉长的条幅一样在山脉的背风处形成,这些所谓的潜在涡度条幅的作用最近引起了气象界相当大的兴趣,例如由于它们对航空风危害和海上运输的影响
为了支持气象学家和气候学家分析这些结构,本文开发了一个提取算法和一个由多个链接视图组成的可视化探索框架。对于PV条幅的提取,应用了一个预测-校正算法,该算法遵循流线,并将其与势涡量的极值线对齐,利用层次聚类算法,根据不同来源的横幅广告的邻近程度对其进行分组。为了可视化地分析与时间相关的横幅几何图形,文章中提供了交互式概览,并根据需要对细节进行查询,包括对不同时间步长、潜在相关标量和风矢量场的分析
特别地,文中研究了相对湿度和条幅之间的关系,以了解它们在指示降水发展方面的潜力。通过本文的方法,合作的气象学家们对三维过程有了更深的理解,这可能会促进未来的后续研究
[S] Multi-Scale Topological Analysis of Asymmetric Tensor Fields on Surfaces [PDF]
不对称张量场在许多科学和工程领域都有应用,例如流体动力学。二维不对称张量场的可视化和分析的最新进展集中在张量场的点态分析和有效的可视化隐喻,如颜色、符号和超流线。文中提供了一个新的多尺度的拓扑分析框架的不对称张量场。这个多尺度框架是基于特征值和特征向量图的概念。框架的核心是识别修改图的原子操作,以及指导简化图的顺序的尺度定义,使得对不同大小的数据进行拓扑分析的可视化更加清晰和集中。同时文中也提供了有效的算法来实现这些运算。此外,系统对这些图提供物理解释。为了演示系统的效用,采用了多尺度分析的数据来计算流体动力学
[S] Vector Field Topology of Time-Dependent Flows in a Steady Reference Frame [PDF]
非定常流场的拓扑分析至今仍是流场可视化中最大的挑战之一。本文在旋涡提取的基础上,为二维和三维流定义了一个依赖时间的矢量场拓扑。在这样工作中,把矢量场分成两个分量:一个矢量场,其中流变得稳定,其余的环境流描述拓扑元素(如汇流、源和鞍)和特征曲线(涡线和分叉线)的运动。为此,团队扩展了最近的局部优化方法,通过位移变换从连续介质力学建模空间变化的变形。然后比较和讨论了与现有的基于局部和基于集成的拓扑抽取方法的关系,举例说明了在最优框架中从鞍座中分离的种子与基于集成的线向量场拓扑对齐,与基于线的方法相比,本文的方法给出了每个时间切片的完整拓扑图,包括在时间域边界附近的步骤。通过本文工作,现在即使只有很少的时间片可用,也可以提取拓扑信息。文中在几个分析和数值模拟流程中演示了该方法,并讨论了未来工作的实际方面、局限性和机会
[V] Scalable Topological Data Analysis and Visualization for Interpreting Data-Driven Models in Scientific Applications [PDF]
随着机器学习技术在科学和工程领域的大规模应用的迅速采用,可视化领域的两大挑战也汇聚在一起。首先,黑盒模型(例如,深度神经网络)的使用需要先进的技术来探索和解释模型的行为。其次,计算技术的快速发展产生了大量的数据集,这些数据集需要能够处理数百万甚至更多样本的技术,尽管针对这些可解释性挑战提出了一些解决方案,但它们通常不会超出数千个样本的范围,也不能提供科学家们正在寻找的高层次直觉
基于此,本文提出了第一个可扩展的解决方案,用于探索和分析科学数据分析管道中经常遇到的高维函数。通过结合一种新的流式邻域图构造、相应的拓扑计算和一种新的数据聚合方案,即拓扑感知数据库,可以对高维数据的拓扑和几何方面进行交互探索,文中包含了高能量密度(HED)物理学和计算生物学的两个用例,在用例中演示了这些能力如何在这两个应用程序中产生重要的新见解
Bias & Patterns
[I] Biased Average Position Estimates in Line and Bar Graphs: Underestimation, Overestimation, and Perceptual Pull [PDF]
在数据的视觉描述中,与其他编码(如色调)相比,位置(即直线或条的垂直高度)被认为是编码信息最精确的方式。不仅其他编码不如位置精确,而且它们也容易产生系统偏差(例如,颜色分类边界会扭曲感知到的颜色差异)。相比之下,位置的高精确度似乎可以保护它不受这种偏见的影响,通过三个实证研究表明,虽然位置可能是一种精确的数据编码形式,但它也会在如何编码值方面产生系统偏差,至少在短延迟的平均位置报告中是这样的。在单行或一组单条的显示中,对平均头寸的报告有显著的偏差,例如线的头寸被低估了,线的头寸被高估了,在具有多个数据系列(即多个行和/或一组条)的显示中,这种系统性偏差仍然存在。实验中还观察到“感知拉扯”,即每个系列的平均位置估计被“拉”向另一个。这些发现表明,虽然位置可能仍然是最精确的视觉数据编码形式,但它也可能有系统性的偏差
[I] A Task-based Taxonomy of Cognitive Biases for Information Visualization [PDF]
信息可视化设计人员努力设计数据显示,使其能够有效地探索、分析和交流数据中的模式,从而做出明智的决策。不幸的是,人类的判断和决策是不完美的,经常受到认知偏见的困扰。有有限的经验研究证明这些偏见如何影响视觉数据分析活动。现有的分类是由认知理论组织的,很难与可视化任务联系起来,基于对文献的调查,文中提出了基于任务的对154种认知偏差进行分类,并将其分为7个主要类别,作者团队希望分类法将帮助可视化研究人员将他们的设计与相应的可能偏差联系起来,并引导新的研究来检测和解决数据可视化中的偏见判断和决策制定
[I] The Curse of Knowledge in Visual Data Communication [PDF]
图片的观察者可以从任何一组可视化数据值中提取许多潜在的关系和模式。即使两个人看到的是同样的景象,他们经常会衍生出不同的故事,从而导致误解。当人们被告知背景信息,使他们认为数据中的一种模式在视觉上显著时,他们相信其他人也会体验到同样的视觉显著性,即使他们被明确告知其他人对背景信息是无所知的,在观看描绘这些数据的线条或柱状图之前,参与者被告知了三个关于影响公众投票数据的政治事件的背景故事中的一个。根据他们听到的背景故事,数据中的一个模式在视觉上特别突出。然后,他们被要求预测那些不了解背景故事的天真观众会在视觉化的画面中发现的最突出的视觉特征,他们强烈地受到自己知识的影响,尽管有明确的指示要他们忽略它,预测其他人会发现同样的模式在视觉上最突出
这个结果反映了一种心理现象,在认知推理、语言学和教育中都有体现,被称为“知识的诅咒”——一种认知偏差,内容专家试图重新创造一个新手的心理状态,通常会导致沟通失败,目前的研究结果表明,知识的诅咒也困扰着数据的视觉感知,这就解释了为什么演讲者、论文作者和数据分析师在交流数据模式时无法与观众沟通
[V] Evaluating Perceptual Bias During Geometric Scaling of Scatterplots [PDF]
散点图经常被缩放以适应多视图和多设备数据分析环境中的显示区域。一种常用的缩放方法是同步和比例地放大或缩小整个散点图和内部点。这个过程称为几何缩放。然而,散点图的几何尺度可能会导致感知偏差,即视觉特征的感知值和物理值可能会因几何尺度而分离。例如,如果一个散点图从一台笔记本电脑投射到一个大投影仪屏幕上,那么观察者可能会觉得投影仪上显示的散点图比在笔记本电脑上观看的散点图有更少的点
本文对几何尺度对散点图中视觉特征感知偏差的影响进行了评价研究。研究的重点是三个基本的视觉特征(即,数度,相关性,和聚类分离)和三个假设,基于经验制定。团队使用精心准备的综合数据精心设计了三个对照实验,并根据参与者的主观体验招募参与者来完成实验。通过对实验结果的详细分析,得到了一组有指导意义的结果:首先,几何缩放引起的偏差与缩放比呈线性关系。第二,从正态分布和均匀分布的散点图测量的偏差之间不存在显著差异。第三,改变点的半径可以在一定程度上纠正偏置。这些发现可用于启发不同场景下散点图的设计决策
[V] FDive: Learning Relevance Models using Pattern-based Similarity Measures [PDF]
由于大型高维数据集的维数性和模式复杂性,对感兴趣的模式进行检测具有一定的难度,因此,分析师需要自动支持相关模式的提取。本文中提出了FDIVE,一个视觉主动学习系统,帮助创建视觉可探索的关联模型,并辅助学习基于模式的相似度。团队使用一组用户提供的标签来对相似度度量进行排序,由特征描述符和距离函数组合组成,通过它们区分相关数据和不相关数据的能力。基于最佳排序的相似度度量,系统计算一个交互式基于地图的自组织关联模型,根据聚类关系对数据进行分类,它还自动提示进一步的相关性反馈,以提高其准确性。不确定区域,特别是在决策边界附近,可以被用户突出和细化。文中通过一个研究分类的电子显微镜图像的脑细胞案例将文章方法和SOTA特征选择方法进行比较,结果表明,FDIVE提高了相关性模型的质量和理解,从而可以为大脑研究带来新的见解
Multiscale Visualization
[I] Pattern-Driven Navigation in 2D Multiscale Visualizations with Scalable Insets [PDF]
本文介绍了可伸缩Insets,这是一种用于在多尺度可视化(如十亿像素图像、矩阵或地图)中交互式地探索和导航大量带注释的模式的技术。在多尺度可视化中探索许多稀疏分布的模式是具有挑战性的,因为可视化表示会随着缩放级别的变化而变化,缩放时上下文和导航线索会丢失,而且导航也很耗时
文章采用使用insets(即放大的带注释的模式的缩略图视图)来可视化太小而在某些缩放级别无法识别的带注释的模式。Insets支持用户搜索、比较和上下文化模式,同时减少所需的导航量,它们被动态地放置在视口内或沿着视口的边界,从而在位置和上下文保存之间提供一种平衡。带注释的模式按位置和类型交互地聚集。它们被可视化地表示为一个聚合的inset,以在单个viewport中提供可伸缩的探索。在一个有18名参与者的受控用户研究中,团队发现可伸缩Insets可以加快视觉搜索,并提高模式比较的准确性,但与基线技术相比,频率估计要慢一些,同时,基因组学领域的专家表示,可伸缩Insets很容易学习,并为可伸缩Insets如何应用于开放式数据探索场景提供了初步见解
[S] Multi-Scale Procedural Animations of Microtubule Dynamics Based on Measured Data [PDF]
生物学家经常使用计算机图形来可视化结构,由于物理限制,用显微镜是不可能成像的。这种结构的一个例子是微管,它存在于每个真核细胞中。它们是细胞骨架的一部分,维持细胞的形状,并在细胞分裂中发挥关键作用
文中提出了一个科学准确的多尺度微管动力学过程模型作为程序动画的一个新的应用场景,它可以生成微管整体形状、分子结构的可视化,以及微管生长和拆卸动态行为的动画,这个模型的分辨率从几十微米到原子分辨率都有。模型的所有方面都是由科学数据驱动的。与传统的手动动画方法相比,这种方法的优势在于,当底层数据发生变化时,例如由于new evidence,可以立即重新创建模型。程序动画的概念以其通用的形式呈现,并有一些新颖的扩展,促进了一个容易的转换到其他领域的涌现的多尺度行为
[S] Scale-Space Splatting: Reforming Spacetime for the Cross-Scale Exploration of Integral Measures in Molecular Dynamics [PDF]
从基于粒子的模拟(如分子动力学)中理解大量的时空数据,通常依赖于对聚合测度的计算和分析。然而,聚集,隐藏了被研究现象的时空定位的结构信息。这导致了一些退化的情况,即度量无法明显捕捉的行为。
为了深入挖掘这些集合值,本文提出了一种多尺度视觉挖掘技术。新表示基于部分领域聚合,使构建连续的规模空间的离散数据集和同时探索的规模在空间和时间。作者团队将这两个尺度空间连接在一个尺度空间-时空立方体中,并将模型链接视图通过这个立方体作为正交切片,从而实现了在多个尺度上快速识别时空模式。为了证明方法的有效性,文中展示了蛋白质配体模拟的先进探索
[S] ScaleTrotter: Illustrative Visual Travels Across Negative Scales [PDF]
文中提出了ScaleTrotter,一个用于生物中尺度数据交互、多尺度可视化的概念框架,特别是基因组数据。ScaleTrotter允许观察者顺利地在从细胞核连接数个数量级过度到DNA的原子,创建基因组数据的交互式可视化所面临的挑战,在许多方面都与天文学等需要多尺度表示的其他领域存在根本不同。首先,基因组数据有相互交织的规模水平——DNA是一个非常长,连接在一起的分子,在所有规模水平上都表现出来,其次,DNA的元素不会随着放大而消失——相反,它们被观察到的尺度水平不同地将这些元素组合在一起。第三,团队有完整数据集和所有规模层次的详细信息和几何图形,这对交互式视觉探索提出了挑战,最后,基因组数据的概念规模级别接近规模空间,这要求找到方法,以可视化的方式将较小的规模嵌入到较粗的规模中
文中通过创建一个新的多尺度可视化概念来解决这些挑战。团队使用了一个依赖于比例的相机模型,它控制了比例在它们各自父元素中的可视嵌入,比例层次结构子集的呈现,以及视图的位置、大小和范围。在遍历刻度时,ScaleTrotter漫游于在集成的可视化中描述的2D和3D可视化表示之间。具体来说,团队讨论了这种形式的多尺度可视化如何遵循基因组数据的具体特征,并描述了它的实现
Drawing Nodes and Edges
[I] A Deep Generative Model for Graph Layout [PDF]
不同的布局可以表征同一图形的不同方面。因此,找到一个“好的”图形布局是图形可视化的一个重要任务。在实践中,用户经常使用不同的方法和不同的参数设置来可视化多个布局中的图形,直到他们找到最适合可视化目的的布局。然而,这种反复试验的过程往往是偶然的,而且非常耗时。
为了给用户提供一种直观的方式来浏览布局设计空间,文中提出了一种使用深层生成模型系统地可视化不同布局的图形的技术。团队设计了一种编码器-解码器架构来从一组示例布局中学习模型,其中编码器表示潜在空间中的训练示例,而解码器从潜在空间生成布局。文中训练模型构建一个二维的潜在空间,用户可以轻松地探索和生成各种布局。团队通过对生成的布局进行定量和定性评估来展示方法。评估的结果表明,模型能够学习和概括图形布局的抽象概念,而不仅仅是记忆训练示例。总而言之,本文提出了一种全新的图形可视化方法,其中机器学习模型无需手动定义启发式就能从示例中学习将图形可视化
[I] DeepDrawing: A Deep Learning Approach to Graph Drawing [PDF]
节点-链接图被广泛用于方便网络探测。然而,在使用图形绘制技术可视化网络时,用户往往需要通过比较相应的绘制结果,迭代地调优不同算法特定的参数,以达到预期的视觉效果,这种尝试和错误的过程通常是冗长和费时的,特别是对于非专业用户来说
受深度学习技术强大的数据建模和预测能力的启发,文章探索将深度学习技术应用于图形绘制的可能性。具体来说,文中建议使用基于graph-lstm的方法直接将网络结构映射到图形绘图中。以一组布局示例作为训练数据集,训练基于图的lstm模型来获取布局特征。然后,使用训练过的模型为新的网络生成类似风格的图形。文中对两种特殊类型的布局(即网格布局和星型布局)和两种一般类型的布局(即ForceAtlas2和PivotMDS)进行了定性和定量评估,此外,还对20到50个节点的小图形进行了时间成本评估,之后进一步报告了吸取的教训并讨论了局限性和未来的工作
[I] Interactive Structure-aware Blending of Diverse Edge Bundling Visualizations [PDF]
虽然存在许多边缘绑定技术(例如,数据简化以支持数据可视化和决策),但它们并不直接适用于任何类型的数据集,而且它们的参数往往过于抽象,难以设置。因此,这会妨碍用户创建高效的聚合可视化
为了解决这些问题,文中研究了一种处理视觉聚合的新方法,即任务驱动和以用户为中心的方法。首先,用户调查不同的边缘捆绑结果,并指定特定的边缘捆绑技术可以提供用户想要的结果的区域,其次,该系统然后计算这些指定区域之间的平滑和结构保持过渡。最后,用户可以进一步微调全局可视化与直接操作技术,以消除局部模糊和应用不同的视觉变形,在本文中提供了详细的设计原理和实现。此外,还展示了与当前的边缘绑定技术相比,本文算法如何给出更合适的结果,最后,提供了具体的使用实例,在这些实例中,算法结合了各种边缘绑定结果,以支持不同的数据探索和可视化
[I] Persistent Homology Guided Force-Directed Graph Layouts [PDF]
图通常用于编码实体之间的关系,但是它们的抽象性使它们难以分析。节点链接图在绘制图方面很流行,而强制定向布局为节点安排提供了一种灵活的方法,使用局部关系试图显示图的全局形状。然而,不相关结构的杂乱和重叠会导致图形可视化的混乱
本文利用无向图的持续同源特征作为导出信息,用于力定向布局的交互操作。首先讨论了如何有效地从带权和不带权的无向图中提取0维持续同源特征。然后介绍用于操作强制定向图形布局的交互式持久性条形码。特别地,用户添加和删除持久同源特征产生的收缩和排斥力,最终选择对布局提升最多的持久同源特征集,最后演示了方法在各种合成和真实数据集中的效用
[I] Graph Drawing by Stochastic Gradient Descent [PDF]
一种常用的力定向图绘制方法是使用图论距离作为输入的多维标度。本文提出了一种算法,以最小化其能量函数,称为应力,通过使用随机梯度下降(SGD)移动单一对顶点一次,结果表明,SGD可以比优化更快、更稳定地达到较低的压力水平,而不需要良好的初始化帮助。然后,文中将展示SGD的独特属性如何使它比以前的方法更容易生成受限的布局,还展示了SGD如何直接应用于Ortmann等人的稀疏应力近似中,使算法可扩展到大型图
[V] The Effect of Edge Bundling and Seriation on Sensemaking of Biclusters in Bipartite Graphs [PDF]
探索协调的关系(例如,两组实体之间的共享关系)是各种现实应用中的一项重要分析任务,例如在生物信息学中发现行为相似的基因,在网络安全中检测恶意软件的合谋,以及在市场分析中识别产品捆绑。协调关系可以形式化为双聚体。为了支持双凸体的可视化探索,提出了基于二部图的可视化方法,并利用边缘捆绑来表示双凸体。但是,由于双聚体之间可能存在重叠,存在边缘交叉,并且缺乏对用户在二部图中探索双聚体的影响的深入了解
为了解决这些问题,本文提出了一种新的基于双聚体的序列化技术来减少绘制二部图中的边交叉,并进行了用户实验来研究边绑定的效果,以及该技术对二部图中双聚体可视化的影响,作者团队发现这两种方法都对减少访问biclusters的用户产生了影响,而边缘包帮助他们找到更合理的答案,此外,团队确定了未来双光泽可视化设计的四个关键权衡。研究结果表明,边缘捆绑对于探索二部图中的双凸体是至关重要的,它有助于减少低级感知问题和支持高级推理
Flow
[S] Accelerated Monte Carlo Rendering of Finite-Time Lyapunov Exponents [PDF]
随时间变化的流体流动通常包含大量双曲拉格朗日相干结构,它们作为输运屏障引导平流。有限时间李雅普诺夫指数是定位这些排斥或吸引结构的常用近似。特别是在大型数值模拟中,FTLE脊可以变得任意尖锐和非常复杂。因此,为随后的直接体绘制在网格上的离散采样很可能会在可视化中遗漏尖锐的脊线。为此,最近提出了一种基于蒙特卡罗的无偏置渲染方法,将FTLE场视为单散射参与介质。这种方法构造了一个不离散的地面真值渲染,但是对于单个图像来说,它的渲染时间慢得令人望而生畏。在本文中大大加快了渲染过程,这使得可以在一个更合理的时间框架内计算出高分辨率动画的视频序列,文中采用了两种正交的方法来改善渲染过程:梯度域的体光路径积分和加速透射率估计。作者团队分析了该方法的收敛性和性能,并通过在多个三维矢量场中绘制复杂的FTLE场来验证该方法
[S] Analysis of the Near-Wall Flow in a Turbine Cascade by Splat Visualization [PDF]
涡轮机是喷气式飞机和发电厂的重要部件。因此,它们的效率和使用寿命是工程研究的重点。在喷气式飞机或火力发电厂的情况下,由于热气体流的涡轮加热是至关重要的。除了有效的冷却,尽量减少热交换之间的气体流和涡轮的设计是工程师的一个主要目标。由于splat事件对流动和浸入表面之间的换热有重大影响,本文采用splat检测和可视化方法来模拟涡轮叶栅的案例研究
由于splat事件是小现象,本文使用直接数值模拟解决湍流作为分析基础。结果显示了对splat形成及其与旋涡结构的关系的有希望的见解。这可能会导致未来更好的涡轮设计。
[S] Extreme-Scale Stochastic Particle Tracing for Uncertain Unsteady Flow Visualization and Analysis [PDF]
本文提出了一个有效的和可扩展的解决方案来估计不确定运输行为,使用随机流图(SFM)用于可视化和分析不确定非定常流,SFM计算是非常昂贵的,因为它需要许多蒙特卡洛运行来跟踪流中的密集种子粒子。本文通过解耦SFMs中的时间依赖关系来减少计算成本,这样就可以独立处理相邻的时间步长,然后在更长的时间内将它们组合在一起。自适应优化还用于减少每个位置的运行次数。然后,团队在任务(粒子包)上并行化,以实现MPI/线程混合编程的高效率。这样的任务模型也支持CPU/GPU的协同处理。团队在两台超级计算机上展示了可扩展性,Mira(最多1M蓝色基因/Q核)和Titan(最多128K)Opteron核心和8K gpu),可以在数秒内追踪数十亿个粒子
[S] FlowNet: A Deep Learning Framework for Clustering and Selection of Streamlines and Stream Surfaces [PDF]
为了有效地显示流场,识别有代表性的流线或流面是一个重要的研究课题。然而,没有任何工作可以同时解决线和面的问题,本文提出FlowNet,一个单一的深度学习框架聚类和选择流线和流表面。给定流场数据集生成的流线或流面集合,本文方法将它们转换为二进制卷,然后使用一个自动编码器来学习它们各自的潜在特征描述符,这些描述符用于重构二进制量,用于误差估计和网络训练。特征描述符一旦收敛,就能很好地表示潜在空间中的流动线或表面。作者团队对这些特征描述符进行降维,并对投影结果进行聚类。这就产生了一个视觉界面,通过聚类、过滤和选择代表来探索流线或表面的集合。直观的用户交互非常容易地提供了可视化推理的集合。本文从多个角度验证和解释了提出的深度学习框架,使用不同特征的流场数据集演示了FlowNet的有效性,并将方法与最先进的流线和流表面选择算法进行了比较
[S] Hyper-Objective Vortices [PDF]
向量场的几乎所有性质,包括大小、方向以及涡量都随着观察者的任意运动变化,这是不可取的,因为物理特性的测量在理想情况下不应该依赖于(虚拟)测量设备的移动方式,有一些属性在某些类型的参照系变换下是不变的:伽利略不变性(匀速平移下的不变性)和客观性(任意平稳旋转和参考系平移下的不变性)。在本文中,引入了比客观性更困难的条件:要求任何平滑相似变换都具有不变性(旋转、平移和均匀标度)以及在参考系的任何光滑仿射变换下的不变性。文中表明,这些新的超客观措施允许提取旋涡,改变其体积或变形。此外,本文提出了一种通用的方法,可以将几乎所有的涡流测量转换为超目标测量。团队将方法应用于二维和三维矢量场的涡旋提取,并分析了伽利不变量、目标和两种新的超目标方法的数值鲁棒性、提取时间和最小残差