NGramMapper.java example

Explorer

hiho-master
- src
  - main
    - java
      - co
        nubetech
        hiho
        avro
        DBMapper.java
        common
        HIHOConf.java
        HIHOException.java
        OutputStrategyEnum.java
        sf
        SFHandler.java
        dedup
        DedupJob.java
        DedupKeyMapper.java
        DedupKeyReducer.java
        DedupRecordCounter.java
        DedupValueMapper.java
        DedupValueReducer.java
        DelimitedLineRecordReader.java
        DelimitedTextInputFormat.java
        HashUtility.java
        HihoHashPartitioner.java
        HihoTuple.java
        hive
        HiveUtility.java
        job
        DBQueryInputJob.java
        ExportDelimitedToDB.java
        ExportToDB.java
        ExportToFTPServer.java
        ExportToMySQLDB.java
        ExportToOracleDb.java
        sf
        ExportSalesforceJob.java
        mapreduce
        DBInputAvroMapper.java
        DBInputDelimMapper.java
        DelimitedLoadMapper.java
        GenericDBLoadDataMapper.java
        MySQLLoadDataMapper.java
        OracleLoadMapper.java
        lib
        db
        ColumnInfo.java
        DBQueryInputFormat.java
        DBQueryRecordReader.java
        GenericDBOutputFormat.java
        GenericDBWritable.java
        MySQLQueryRecordReader.java
        apache
        BigDecimalSplitter.java
        BooleanSplitter.java
        DBConfiguration.java
        DBInputFormat.java
        DBOutputFormat.java
        DBRecordReader.java
        DBSplitter.java
        DBWritable.java
        DataDrivenDBInputFormat.java
        DataDrivenDBRecordReader.java
        DateSplitter.java
        FloatSplitter.java
        IntegerSplitter.java
        InterfaceAudience.java
        InterfaceStability.java
        MRJobConfig.java
        MySQLDBRecordReader.java
        MySQLDataDrivenDBRecordReader.java
        OracleDBRecordReader.java
        OracleDataDrivenDBInputFormat.java
        OracleDataDrivenDBRecordReader.java
        OracleDateSplitter.java
        TextSplitter.java
        input
        FileStreamInputFormat.java
        FileStreamRecordReader.java
        output
        AppendSequenceFileOutputFormat.java
        AppendTextOutputFormat.java
        FTPTextOutputFormat.java
        NoKeyOnlyValueOutputFormat.java
        sf
        ExportSalesforceMapper.java
        ExportSalesforceReducer.java
        merge
        HihoValue.java
        MergeJob.java
        MergeKeyMapper.java
        MergeKeyReducer.java
        MergeRecordCounter.java
        MergeValueMapper.java
        MergeValueReducer.java
        pig
        PigUtility.java
        similarity
        ngram
        NGramJob.java
        NGramMapper.java
        NGramReducer.java
        ScoreJob.java
        ScoreMapper.java
        ScoreReducer.java
        SimilarityJob.java
        ValuePair.java
        uuid
        UuidJob.java
        UuidMapper.java
  - test
    - java
      - co
        nubetech
        hiho
        avro
        TestDBMapper.java
        common
        HihoTestCase.java
        dedup
        TestDedupJob.java
        TestDedupKeyMapper.java
        TestDedupKeyReducer.java
        TestDedupValueMapper.java
        TestDedupValueReducer.java
        TestDelimitedLineRecordReader.java
        TestDelimitedTextInputFormat.java
        TestHashUtility.java
        TestHihoTuple.java
        hive
        TestHiveUtility.java
        job
        TestDBQueryInputJob.java
        TestDBQueryInputJobWithCluster.java
        TestExportToDB.java
        TestExportToFTPServer.java
        TestExportToMySQLDB.java
        TestExportToOracleDb.java
        sf
        TestExportSalesForceJob.java
        mapreduce
        TestDBInputAvroMapper.java
        TestDBInputDelimMapper.java
        TestGenericDBLoadDataMapper.java
        TestMySQLLoadMapper.java
        TestOracleLoadMapper.java
        lib
        db
        TestColumnInfo.java
        TestGenericDBOutputFormat.java
        TestGenericDBWritable.java
        input
        TestFileStreamInputFormat.java
        sf
        TestExportSalesforceMapper.java
        merge
        TestHihoValue.java
        TestMergeJob.java
        TestMergeKeyMapper.java
        TestMergeKeyReducer.java
        TestMergeValueMapper.java
        TestMergeValueReducer.java
        pig
        TestPigUtility.java
        similarity
        ngram
        TestNGramJob.java
        TestNGramMapper.java
        TestNGramReducer.java
        TestScoreJob.java
        TestScoreMapper.java
        TestScoreReducer.java
        TestSimilarityJob.java
        testdata
        AvroDataFileWriteDemo.java
        NGramLogic.java
        SequenceFileForCustomObject.java
        SequenceFileWriteDemo.java
        Student.java

/**
 * Copyright 2011 Nube Technologies
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software distributed
 * under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR
 * CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and limitations under the License.
 */
package co.nubetech.hiho.similarity.ngram;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashSet;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.log4j.Logger;

public class NGramMapper extends Mapper<Text, Text, Text, Text> {

	final static Logger logger = Logger
			.getLogger(co.nubetech.hiho.similarity.ngram.NGramMapper.class);

	@Override
	public void map(Text key, Text val, Context context) throws IOException,
			InterruptedException {
		if (key == null) {
			throw new IOException("Key is null");
		}
		HashSet<String> nGramList = new HashSet<String>();
		int gramSize = 2;
		nGramList = getNGrams(key, gramSize);
		for (String nGrams : nGramList) {
			String value = key.toString() + "delimiterBetweenKeyAndValue" + val.toString();
			context.write(new Text(nGrams), new Text(value));
			logger.info("Key and Value in NGram Mapper is: " + new Text(nGrams)
					+ ", " + new Text(value));
		}
	}

	public HashSet<String> getNGrams(Text line, int gramSize) {
		ArrayList<String> words = new ArrayList<String>();
		HashSet<String> nGrams = new HashSet<String>();
		String[] tokens = line.toString().split(" ");
		for (String t : tokens) {
			words.add(t);
		}
		for (int i = 0; i < words.size() - gramSize + 1; i++) {
			String key = "";
			for (int j = i; j < i + gramSize; j++) {
				key += words.get(j);
				if(j != ( i + gramSize - 1)){
				key += " ";
				}
			}
			nGrams.add(key);
		}
		return nGrams;
	}
	
}