当前位置 博文首页 > leslie lee的博客(python ansys):Orange Example

    leslie lee的博客(python ansys):Orange Example

    作者:[db:作者] 时间:2021-06-25 09:20

    oange(Not Origin)在Anaconda浏览器中安装GUI版本,或者在Python中安装(pip install Orange3)。origin比orange早个三四年。
    下面的例子是Orange3 GUI版本中的。

    Iris鸢尾花数据集,三种花,每朵花有四个属性,即每个数据为一个四维向量

    https://orangedatamining.com/widget-catalog/

    File and Data Table


    File Widget:读取文件
    Data Table Widget:显示表格
    Widget左边为输入,右边为输出,两个Widget连线(channel)为前一个Widget将数据流向下一个Widget

    增加一个Data Table Widget

    双击channel可以选择

    Selected Data与Data连线:会在Data Table (1)?中显示Data Table中选择数据
    Data与Data连续:会在Data Table (1)?中显示Data Table中所有数据

    Interactive Visualizations交互可视化

    增加一个Box Plot Widget

    双击Scatter Plot,点击拖拉选择数据,则在Data Table 与 Box Plot中可显示

    注:
    箭头与注释在左下角

    Visualization of Data Subsets子集可视化



    在Data Table中点击拖拉选择数据(Ctrl键),在Scatter Plot会标记出选择的数据

    Classification Tree分类树


    Classification Tree将数据分类,并在Viewer中显示。
    在Viewer中单击选择数据,在Scatter Plot会标记出选择的数据,在Box Plot会显示

    注:决策树包括回归树、分类树、CART(分类与回归树)

    Principal Component Analysis主成分分析

    将文件更换为Iris数据集
    双击PCA widget选择主成分分量的个数

    利用PCA,可将四种属性进行降低,比如降成三种属性。降低并不是删掉一种属性即可,而是进行空间变换。
    如20朵花的数据为20X4的矩阵,将其降为20X3的矩阵,并不是删去一列,而是找一个4X3矩阵相乘得到20X3的矩阵。

    注:pca经常用于数据降维

    Hierarchical Clustering层次聚类

    计算每个数据间的距离,利用距离来分类

    dendrogram树状图
    distance map距离图

    注:分类与聚类
    分类:通过带标签的训练数据训练出分类器,不带标签的新数据通过分类器后被分类
    聚类:对不带标签的数据进行分类

    Feature Ranking特征排序

    Impute widget将数据中的缺失值补全
    Rank widget将特征进行排名

    Cross-Validation交叉验证

    ?

    Test&Score进行交叉验证
    数据在三种分类器中通过交叉验证进行学习
    Confusion Matrix混淆矩阵或误差矩阵,来评估结果

    Where are Misclassification?查看分类错误

    在混淆矩阵中点击分错的数据,可以在Scatter Plot中显示出来