首先,你必须了解如何从各种不同的来源收集文档数据,然后确保数据描述方案(元数据)是集成的、一致的,并且适用于所有要使用的数据。在这一点上,有一种做法尽管不是必需的但却是非常好的,那就是通过创建分布状态并运行简单的统计测试来探索数据。有一点至关重要,那就是数据必须是整洁的,并且不存在类型不匹配的情况,否则算法可能无法提取重要的信息,或者,如果提取到重要的信息,可能会生成错误的结果。你可能会采取其他准备措施,例如,你可能想要构造派生特性,这种特性也称为计算特性或计算列。若要验证数据挖掘算法结果的准确性,通常需要将源数据划分为定性数据和测试数据。应该按如下比例对源数据进行拆分:三分之二用于定型目的,剩下的三分之一用于测试和对结果进行验证。
了解数据还涉及了解文档数据的特性。例如,如果你查看客户的数据,那么姓名、性别、年龄、收入和子女等都是客户可能具有的特性。其中一部分特性对于你将要创建的数据挖掘模型最具代表性意义,需要对这部分特性的值有很好的了解。例如,通常情况下,客户的性别具有三个可能的值,分别是男、女或者未知。对于性别特性只存在这三个可能的值,但是如果你查看客户的收入情况就完全不一样了,因为收入的变化范围非常大,肯呢过是零到几百万美元不等。需要对这些特性进行相应的建模,以便所选的数据挖掘算法可以获得最佳的结果。通常情况下,应该将性别特性建模为不连续的特性,意思是具有固定数量的值;而收入特性通常应该建模为连续的特性,因为收入值的变化范围非常大。
关于TeamDoc软件:
TeamDoc是基于服务器/客户端架构的轻量级文件管理软件。TeamDoc将文件集中加密存储在您单位自己的服务器中,员工使用TeamDoc客户端访问服务器,从而获得与自己权限相关的权限:登入后与“我的电脑”界面类似,可以看到自己该看的文件,编辑自己能编辑的文档,对于能看到的文件,还可以细分文档权限,进而做到能看不能拷,能看不能截屏等功能,多种权限灵活设置,在线协同编辑、全文搜索、日志与版本追踪,快速构建企业文档库。告别假大空,我们提供值得您选择的、易用的、可用的文档管理软件。现在就访问TeamDoc首页
TeamDoc软件界面(点击可放大)
版权所有:南京网亚计算机有限公司,本文链接地址: 数据:了解并对其进行文档配置