`
davidxiaozhi
  • 浏览: 236675 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

MahoutDriver运作机制-mahout源码学习及总结

阅读更多

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群     推荐系统之Mahout  135918911

 

mahout入口类MahoutDriver
 
如果我们想要研究MahoutDriver的源码,没有什么比测试类更好的了,下面我们看一下测试类
 

public final class MahoutDriverTest {

     //测试MahoutDriver.main方法

    @Test
     public void testMain() throws Throwable {

    //我们注释掉原有的简单help参数,增加自定定义参数
    //MahoutDriver.main(new String[] {"itemsimilarity", "help"});
    MahoutDriver.main(new String[] {"itemsimilarity", "-Djava.home=wwww.c.cn"," -input"," c:/c/c","-output", "d"," e", "f"});
    }

}

 
 下面我们来看一下MahoutDriver方法组成,下面先粘贴上其方法大纲
 
 
先简单介绍一下main方法之外的一些方法的作用
 
 //判断我们要使用的mahout类是否已经过期,过期返回true,不过期返回false
 private static boolean isDeprecated(Properties mainClasses, String keyString) {
    return "deprecated".equalsIgnoreCase(shortName(mainClasses.getProperty(keyString)));
  }
 
 
//加载资源属性文件
private static Properties loadProperties(String resource) throws IOException
//模拟linux中的shift命令,及让第一个参数失效(数组中index=0),及重新构造数组,保留index1位置开始到结束的全部参数
private static String[] shift(String[] args)
//例如org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob = itemsimilarity : Compute the item-item-similarities for item-based collaborative filtering
private static String shortName(String valueString) {
    return valueString.contains(":") ? valueString.substring(0, valueString.indexOf(':')).trim() : valueString;
}

  private static String desc(String valueString) {
    return valueString.contains(":") ? valueString.substring(valueString.indexOf(':')).trim() : valueString;
  }
 
介绍一下MahoutDriver的核心代码,这里我们就不粘贴全部代码了,我们分逻辑块说明
 1.创建programdriver, 使用hadoop的驱动工具类进行相关类的实例化,及调用
 ProgramDriver programDriver = new ProgramDriver();
 2. 首先加载mahout配置文件driver.classes.props ,如果该文件不存在的话,我们加载driver.classes.default.props ,如果都不存在就会退出,停止运行,如果我们需要新添加算法类,可以再两个文件中添加
    Properties mainClasses = loadProperties("driver.classes.props");
    if (mainClasses == null) {
      mainClasses = loadProperties("driver.classes.default.props");
    }
    if (mainClasses == null) {
      throw new IOException("Can't load any properties file?");
    }
3.验证是否是算法类简称调用,算法类是否过时,并创建描述信息
 
    boolean foundShortName = false;
    for (Object key :  mainClasses.keySet()) {
      String keyString = (String) key;
 首先判断是我们是否是通过算法类简称及shortName调用,  
      if (args.length > 0 && shortName(mainClasses.getProperty(keyString)).equals(args[0])) {
        foundShortName = true;
      }
    第二步 判断是否是通过算法类全路径调用,如果是全路径调用但是获取算法类简称 是过时废弃的 即等于deprecated 那么退出main方法,防止我们通过全路径方式使用过时的算法类    
      if (args.length > 0 && keyString.equalsIgnoreCase(args[0]) && isDeprecated(mainClasses, keyString)) {
        log.error(desc(mainClasses.getProperty(keyString)));
        return;
      }
       不处理已经过时废弃的类
      if (isDeprecated(mainClasses, keyString)) {
        continue;
      }
    第三步 建立 全部算法类的描述信息类就是描述该类是做什么的,参数等等,
      addClass(programDriver, keyString, mainClasses.getProperty(keyString));
    }
 
 
 
4.验证我们是否调用帮助信息,如果是的话直接输出帮助信息,
   如果我们是使用全路径调用的,并没有使用简称,创建描述类,个人认为这里主要是针对第一个参数没有在配置文件中注册的情况出现的处理办法,最后让arg[0]失效,其他数组索引全部减一,(内部是通过copy数组实现的)
   if (args.length < 1 || args[0] == null || "-h".equals(args[0]) || "--help".equals(args[0])) {
      programDriver.driver(args);
    }

    String progName = args[0];
    if (!foundShortName) {
      addClass(programDriver, progName, progName);
    }
    shift(args);
 
5. 加载progName + ".props"指定配置文件(progName 就是我们传递的第一个参数),如果不存在的话,那么我们就只能使用命令行参数了
最后对参数进行封装处理
 Properties mainProps = loadProperties(progName + ".props");
    if (mainProps == null) {
      log.warn("No {}.props found on classpath, will use command-line arguments only", progName);
      mainProps = new Properties();
    }
   接下来对命令参数进行处理 分三步, 解析命令行参数 ,添加我们命令行没有覆盖的参数,还原命令行参数  
     Map<String,String[]> argMap = Maps.newHashMap();
    int i = 0;
    while (i < args.length && args[i] != null) {
      List<String> argValues = Lists.newArrayList();
      //取到当前参数,该值是用来作为map中的key使用的,
      1)arg一般情况下为当前参数 args[i]  当前args[i]后面的一系列参数都会作为args[i]的参数,除非我们查找到带 “ -  ”横杠的参数 
      2)但是如果是java命令行参数的话,该值会被替换为args[i]中=符号前面的部分,args[i]中=符号后面的字符串作为值
      String arg = args[i];
      i++;
       //验证是否是java的命令行参数设置
      if (arg.startsWith("-D")) { // '-Dkey=value' or '-Dkey=value1,value2,etc' case
        String[] argSplit = arg.split("=");
        arg = argSplit[0];
        if (argSplit.length == 2) { 传参格式必须正确长度必须是2
          argValues.add(argSplit[1]);
        }
      } else { 非java命令行参数value值添加处理                                     // '-key [values]' or '--key [values]' case.
        while (i < args.length && args[i] != null) {
           //非java命令行参数处理,只要遇到-
          if (args[i].startsWith("-")) {
            break;
          }
          argValues.add(args[i]);
          i++;
        }
      }
      argMap.put(arg, argValues.toArray(new String[argValues.size()]));
    }
   添加没有被我们覆盖的其他默认参数
// Add properties from the .props file that are not overridden on the command line
    for (String key : mainProps.stringPropertyNames()) {
       //举例配置文件中内容为
       // #i|input = /path/to/input
       // #o|output = /path/to/output  
      String[] argNamePair = key.split("\\|");
      //简写参数及长写参数
      String shortArg = '-' + argNamePair[0].trim();
      String longArg = argNamePair.length < 2 ? null : "--" + argNamePair[1].trim();
     //如果传递命令参数中不包含该参数,添加进处理的参数集合中
      if (!argMap.containsKey(shortArg) && (longArg == null || !argMap.containsKey(longArg))) {
        argMap.put(longArg, new String[] {mainProps.getProperty(key)});
      }
    }
  将处理好后的参数进行封装中可以使用的参数
 // Now add command-line args
    List<String> argsList = Lists.newArrayList();
    argsList.add(progName);
    for (Map.Entry<String,String[]> entry : argMap.entrySet()) {
      String arg = entry.getKey();
      if (arg.startsWith("-D")) { // arg is -Dkey - if value for this !isEmpty(), then arg -> -Dkey + "=" + value
        String[] argValues = entry.getValue();
        if (argValues.length > 0 && !argValues[0].trim().isEmpty()) {
          arg += '=' + argValues[0].trim();
        }
        argsList.add(1, arg);
      } else {
        argsList.add(arg);
        for (String argValue : Arrays.asList(argMap.get(arg))) {
          if (!argValue.isEmpty()) {
            argsList.add(argValue);
          }
        }
      }
    }
6 使用hadoop工具类驱动我们的算法类运行,并接传递相关参数
programDriver.driver(argsList.toArray(new String[argsList.size()]));
 
下面简单介绍一下hadoop的工具类,程序驱动类
 
ProgramDriver 主要功能求实输出我们添加的全部类描述信息,主要属性是一个存放ProgramDescription的treemap集合,
其他方法为 
 
          printUsage,打印Treemap<ProgramDescription>中的全部描述信息 
          addClass 创建ProgramDescription 并接添加进treemap当中
          driver(String[] args) 通过args[0] 取到 ProgramDescription  反射调用指定类的main方法并接传递参数
          其核心代码以去除非空判断及打印全部信息等等
    ProgramDescription pgm = programs.get(args[0]);
    if (pgm == null) {
      System.out.println("Unknown program '" + args[0] + "' chosen.");
      printUsage(programs);
      System.exit(-1);
    }
    
    // Remove the leading argument and call main
    String[] new_args = new String[args.length - 1];
    for(int i=1; i < args.length; ++i) {
      new_args[i-1] = args[i];
    }
    //这里开始调用ProgramDescription 的invoke方法
    pgm.invoke(new_args);
 
下面介绍一下其很重要的静态内部类ProgramDescription
 
  
 
     这里paramTypes主要是申明我们在反射调用时传递的是string数组类型(因为反射调用的默认都是main方法) 
     static final Class<?>[] paramTypes = new Class<?>[] {String[].class};
     我们将来要反射调用的方法实例
     Mehod main      
      我们自己定义的程序描述信息
     String description
    探秘一下构造器 
    public ProgramDescription(Class<?> mainClass, 
                              String description)
      throws SecurityException, NoSuchMethodException {
      负责获取我们将来要反射调用的main函数的Method的实例
      this.main = mainClass.getMethod("main", paramTypes);
      this.description = description;// 算法的描述信息
    }
      
    探秘一下invoke 很简单的反射调用
    public void invoke(String[] args)
      throws Throwable {
      try {
        main.invoke(null, new Object[]{args});
      } catch (InvocationTargetException except) {
        throw except.getCause();
      }
    }
 
 

 

分享到:
评论

相关推荐

    基于matlab实现V2G系统simulink仿真图以及电动汽车充电和放电图.rar

    基于matlab实现V2G系统simulink仿真图以及电动汽车充电和放电图.rar

    共创在线考试系统(JSP+SERVLET)130223.rar

    共创在线考试系统(JSP+SERVLET)130223.rar,这是一个针对计算机专业学生的JSP源码资料包,旨在帮助学生更好地理解和掌握Java Web开发技术。该资料包包含了一个基于JSP和Servlet技术的在线考试系统,具有以下特点:功能齐全:该系统包括了在线考试、成绩查询、试题管理、用户管理等多个模块,能够满足学生进行在线考试的需求。界面友好:系统采用了简洁明了的界面设计,使得用户能够快速上手,方便地进行操作。代码规范:源码遵循Java编程规范,结构清晰,注释详细,便于学生学习和理解。可扩展性强:系统采用了模块化的设计思路,可以根据需要进行功能的扩展和修改。数据库支持:系统使用了MySQL数据库进行数据存储,可以方便地进行数据的增删改查操作。通过学习这个JSP源码资料包,学生可以掌握JSP和Servlet的基本用法,了解Java Web开发的基本流程,提高自己的编程能力。同时,该系统还可以作为学生课程设计或者毕业设计的参考项目,帮助他们完成学业任务。总之,这个共创在线考试系统(JSP+SERVLET)130223.rar资料包对于计算机专业的学生来说,是一个非常有价值的学习资

    医药集团能源集团汽车集团大型集团战略规划顶层战略设计方案PPT(4份)

    医药集团能源集团汽车集团大型集团战略规划顶层战略设计方案PPT(4份)

    基于matlab实现非常齐全的wsn定位matlaB仿真程序.rar

    基于matlab实现非常齐全的wsn定位matlaB仿真程序.rar

    matlab GPS与捷联惯导的组合导航程序,可以运行.rar

    matlab GPS与捷联惯导的组合导航程序,可以运行.rar

    3D模型009,可用于建模、GIS、BIM、CIM学习

    3D模型009,可用于建模、GIS、BIM、CIM学习

    大一C++作业,功能完善的学生成绩管理系统 支持信息的增删改补,虚拟信息生成,排序,硬盘数据的写入与读取.zip

    大一C++作业,功能完善的学生成绩管理系统 支持信息的增删改补,虚拟信息生成,排序,硬盘数据的写入与读取.zip

    毕业设计:基于SSM的mysql-软件缺陷管理系统(源码 + 数据库 + 说明文档)

    毕业设计:基于SSM的mysql_软件缺陷管理系统(源码 + 数据库 + 说明文档) 第2章 可行性分析 3 2.1技术的可行性 3 2.2经济的可行性 3 2.3操作可行性 4 2.4法律的可行性 4 第3章 需求分析 5 3.1开发工具需求 5 3.1.1开发语言和工具 5 3.1.2基于B/S结构开发 5 3.1.3 JAVA语言简介 5 3.1.4 JavaScript技术 6 3.1.5 MySQL数据库 6 3.1.7软硬件需求 6 3.2 系统需求 6 第4章 总体设计 8 4.1 系统模块总体设计 8 4.2 数据库设计 10 4.2.1 数据分析 10 4.2.2 数据库的详细设计 10 4.3 本章小结 12 第5章 详细设计与实现 13 5.1 管理员管理 13 5.1.1 管理员登录管理 13 5.1.2 欢迎页 13 5.1.3 项目经理管理 14 5.1.4 员工管理 15 5.1.5 用户登录日志管理 15 5.1.6 个人信息管理 16 5.2 项目经理管理 17 5.2.1 项目经理登录 17 5.2.2 项目管理 18 5.3 调试员端 1

    大型集团企业财务共享业财一体化应用平台建设方案.pptx

    大型集团企业财务共享业财一体化应用平台建设方案.pptx

    银行智能化数据安全分类分级实践方案.pdf

    银行智能化数据安全分类分级实践方案.pdf

    node-v6.10.1.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    知乎小程序算法.zip

    知乎小程序算法.zip

    基于嵌入式AI的人脸识别课堂签到系统.zip

    优秀源码设计,详情请查看资源源码内容

    基于matlab实现文档+程序边缘计算任务卸载与资源调度的算法,是论文的源代码,具有价值.rar

    基于matlab实现文档+程序边缘计算任务卸载与资源调度的算法,是论文的源代码,具有价值.rar

    毕业设计:基于SSM的mysql-软件学院互助答疑平台(源码 + 数据库 + 说明文档)

    毕业设计:基于SSM的mysql_软件学院互助答疑平台(源码 + 数据库 + 说明文档) 2 开发技术简介 13 2.1 基于B/S结构开发 13 2.2 JSP简介 13 2.3 MySQL数据库 13 2.4 JDBC 13 2.5 SSM框架 14 3 需求分析 14 3.1 需求分析 14 3.2 可行性分析 15 3.2.1 经济可行性 15 3.2.2 技术可行性 15 3.2.3 操作可行性 16 3.3 非功能需求分析 16 4 系统设计 17 4.1 数据库表设计 17 4.2 功能设计 18 5 系统详细设计 18 5.1 用户登录 18 5.2 问题发布 19 5.3 回答提问 20 5.4 用户资料 20 5.5 热门回答 21 5.6 最新回答 21 6 系统测试 22 6.1 调试目的 22 6.2 调试的主要内容 23 6.3 调试案例 23 6.4 测试方法 23 6.5 测试的重要性 24 6.6 不登陆测试 25 6.7 性能测试 25

    基于JSP技术的猎头公司管理软件的设计和实现-内部事务部分(源代码+论文).rar

    这个资料包名为"基于JSP技术的猎头公司管理软件的设计和实现——内部事务部分(源代码+论文).rar",是一个针对计算机专业学习者或开发者提供的实用资源。它涵盖了一个以Java Server Pages (JSP)技术为基础开发的猎头公司管理软件项目,专注于公司的内部事务处理。该软件旨在简化猎头公司的工作流程,提高工作效率,并使得管理工作更加系统化和自动化。资料包中包含了完整的源代码,这意味着用户可以直接查看、修改和部署这些代码来适应自己的需求。源代码的开放性为用户提供了学习和自定义的巨大空间,可以深入理解JSP技术在实际项目中的应用,以及如何结合数据库、前端页面设计和后端逻辑控制来构建一个完整的Web应用程序。除了源代码之外,资料包还附带了一篇论文,这篇论文详细阐述了软件的设计理念、系统架构、功能模块划分、关键技术点以及实现过程等。对于学生或研究者来说,这篇论文不仅提供了技术上的指导,还展示了如何将理论知识转化为实践操作的过程,具有一定的学术价值和参考意义。整体而言,这个资料包是计算机专业学生、软件开发者或对JSP技术感兴趣的人士宝贵的学习资源。无论是作为教学案例、课程项目,还是实际

    node-v7.10.1-linux-s390x.tar.gz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    图3-7.zip

    图3-7.zip

    STM32412G-Discovery BSP用户手册

    STM32412G-Discovery BSP用户手册

    产品创新体系高阶流程设计及发展规划方案.pptx

    产品创新体系高阶流程设计及发展规划方案.pptx

Global site tag (gtag.js) - Google Analytics