图9-37解压Hadoop的jar文件2.配置Hadoop-env.sh使用gedit打开Hadoop-env.sh,配置JDK的路径。......
2023-11-08
格式化文件系统。格式化命令如下,该操作需要在HadoopMaster节点上执行。
看到如图9-46所示的打印信息表示格式化成功,INFO util.ExitUtil:Exiting with status 1,INFO namenode.NameNode:SHUTDOWN_MSG;如果出现Exception/Error,则表示出问题。
图9-46 master的进程成功
图9-47 slave的进程成功
Web UI查看集群是否成功启动。在HadoopMaster上启动Firefox浏览器,在浏览器地址栏中输入http://master:50070/,检查namenode和datanode是否正常。UI如图9-48所示。
图9-48 Web UI查看集群是否成功启动(www.chuimin.cn)
检查Yarn是否正常。在HadoopMaster上启动Firefox浏览器,在浏览器地址栏中输入http://master:18088/,页面如图9-49所示。
图9-49 检查Yarn是否正常
运行PI实例检查集群是否成功。进入Hadoop安装主目录,执行下面的命令:
完成后,会看到如下的执行结果,输出:Estimated value ofPi is 3.20000000000000000000,集群正常启动。
图9-50 运行PI实例检查集群
安装Hadoop需要注意的问题:(1)基础Linux命令必须熟悉,使用频率最高的Linux命令如su root,cd,ping slave,ifconfigure,tar-xvf~。(2)master和slave的IP地址。(3)找不到jps,hdfs等,看jdk环境,看dadoop配置环境,然后再梳理其他配置文件。(4)注意哪些在slave上配置,哪些在master上配置。(5)使改动生效命令,source/home/zkpk/.bash_profile。(6)gedit命令无法修改系统环境变量问题的解决办法是注销用户,用root用户登录,获得最高权限,再修改环境变量。(7)配置Hadoop时,路径和实际Hadoop安装路径必须一致。
有关大数据挖掘技术及其在医药领域的应用的文章
图9-37解压Hadoop的jar文件2.配置Hadoop-env.sh使用gedit打开Hadoop-env.sh,配置JDK的路径。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
表6-2NoSQL的类型1.键值存储Key-Value键值数据模型是NoSQL中最基本的、最重要的数据存储模型。列存储可以将数据存储在列族中,存储在一个列族中的数据通常是经常被一起查询的相关数据。列存储的数据模型具有支持不完整的关系数据模型,适合规模巨大的海量数据,支持分布式并发数据处理等特点。......
2023-11-08
关于分类和回归模型的各种评估方法,一种是处理分类任务的模型,一种是预测回归的模型,这两种模型的评估方法也不完全一致,下面就来分别介绍两种类型模型的各种评估手段。AUC可以说是用单个数字总结模型性能的最好方法,其实就是ROC曲线下方的面积大小。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。MAE可以表示预测与实际结果的接近程度。以上即为两种模型的常用评估方法。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
大数据存储方式:分布式系统。哈希方式是最常见的数据分布方式,其方法是按照数据的某一特征计算哈希值,并将哈希值与机器建立映射关系,从而将不同哈希值的数据分布到不同的机器上。然而NoSQL数据库则可省去这些麻烦,确实是方便快捷。另外,利用面向列的数据库的优势,把它作为批处理程序的存储器来对大量数据进行更新也是非常有用的。但是,由于面向列的数据库跟现行数据库存储的思维方式有很大不同,应用起来是非常困难的。......
2023-11-08
相关推荐