图数据的可视化,核心在布局,而布局算法通常是按照一些特定的模型,将抽象数据进行具象展示,这一过程伴随大量的迭代计算,例如朴素的 FR 力导向算法其在计算斥力时的算法时间复杂度达到了 O(n 3 ),这在小规模数据量下可能并不会出现问题,但随着规模的不断增大,采用如此“高昂”计算复杂度的算法变得不能接受,所以,出现了许多针对算法时间复杂度进行改进的方法,需要说明的是,在这一阶段,数据集的规模仍未达到单机处理上限,例如 OpenOrd算法采用多线程并行来加速计算过程。随着数据规模的进一步扩大,图数据节点达到百万级别时,单机并行策略也变得无能为力,这时,分布式并行计算的方式为这种“大规模图数据”的处理提供了可能性。

图数据的产生和发展

图是信息科学中最常用的一类抽象数据结构,能够直观的表达现实世界中对象之间的真实关系。许多重要应用都需要用图结构表示,传统应用如最优运输路线的确定、疾病爆发路径的预测、科技文献的引用关系等;新兴应用如社交网络分析、语义 Web 分析、生物信息网络分析等,与图相关的处理和应用几乎无所不在 [1] 。

原文名:Cluster Stability and the Use of Noise in Interpretation of Clustering
中文译:聚类的稳定性和在聚类解释中添加噪声
源刊载:IEEE Symposium on Information Visualization , 2001 :23
机构名:Sandia National Laboratories 桑迪亚国家实验室,US
研究点:
    - Clustering algorithms
    - Data visualization
    - Stability analysis
    - Algorithm design and analysis
    - Best practices




全站共计 313.7k 字,自豪地使用 Volantis 主题

博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议