NewsKMeansClustering.java example

Explorer

MiA-master
- src
  - main
    - java
      - mia
        classifier
        ch14
        TokenizingAndVectorizingText.java
        TrainNewsGroups.java
        ch15
        AucExample.java
        ConfusionMatrixExample.java
        ch16
        CategoryFeatureEncoder.java
        CategoryInteractionEncoder.java
        FeatureEncoder.java
        Item.java
        ItemEncoder.java
        ModelEvaluator.java
        User.java
        UserEncoder.java
        UserItemEncoder.java
        client
        Client.java
        Connection.java
        generated
        Classifier.java
        samples
        CSVEncoderFastLine.java
        CSVEncoderLine.java
        FastLine.java
        Line.java
        server
        Ops.java
        Server.java
        train
        TrainNewsGroups.java
        clustering
        ch07
        SimpleKMeansClustering.java
        ch08
        ApplesToVectors.java
        ch09
        CanopyClustering.java
        CanopyExample.java
        DirichletExample.java
        FuzzyKMeansClustering.java
        FuzzyKMeansExample.java
        KMeansClustering.java
        KMeansExample.java
        KMeansWithCanopyClustering.java
        MyAnalyzer.java
        NewsFuzzyKMeansClustering.java
        NewsKMeansClustering.java
        RandomPointsUtil.java
        ReutersToSparseVectors.java
        ch10
        InterClusterDistances.java
        MyAnalyzer.java
        MyDistanceMeasure.java
        MyDistanceNewsClustering.java
        NewsKMeansClustering.java
        ch12
        CreateLastfmDataset.java
        CreateTwitterUserDataset.java
        TwitterAnalyzer.java
        TwitterDownloader.java
        lastfm
        DictionaryMapper.java
        DictionaryReducer.java
        VectorCreationJob.java
        VectorMapper.java
        VectorReducer.java
        twitter
        ByKeyGroupingJob.java
        ByKeyMapper.java
        ByKeyReducer.java
        recommender
        ch02
        EvaluatorIntro.java
        IREvaluatorIntro.java
        RecommenderIntro.java
        ch03
        CreateGenericDataModel.java
        CreatePreferenceArray.java
        IREvaluatorBooleanPrefIntro1.java
        IREvaluatorBooleanPrefIntro2.java
        ch04
        ClusterBasedRecommender.java
        GroupLens10MEvalIntro.java
        GroupLensDataModelIntro.java
        KnnBasedRecommender.java
        SlopeOneJDBC.java
        SlopeOneNoWeighting.java
        ch05
        Book.java
        BookManager.java
        GenderItemSimilarity.java
        GenderRescorer.java
        Genre.java
        GenreRescorer.java
        LibimsetiEvalRunner.java
        LibimsetiIREvalRunner.java
        LibimsetiLoadRunner.java
        LibimsetiRecommender.java
        LibimsetiWithAnonymousRecommender.java
        LimitedMemoryDiffStorage.java
        ch06
        AggregateAndRecommendReducer.java
        AggregateCombiner.java
        CooccurrenceColumnWrapperMapper.java
        PartialMultiplyMapper.java
        UserVectorSplitterMapper.java
        UserVectorToCooccurrenceMapper.java
        UserVectorToCooccurrenceReducer.java
        WikipediaDataConverter.java
        WikipediaItemIDIndexMapper.java
        WikipediaToItemPrefsMapper.java
        WikipediaToUserVectorReducer.java

/*
 * Source code for Listing 9.4
 * 
 */

package mia.clustering.ch09;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.lucene.analysis.Analyzer;
import org.apache.mahout.clustering.Cluster;
import org.apache.mahout.clustering.WeightedVectorWritable;
import org.apache.mahout.clustering.canopy.CanopyDriver;
import org.apache.mahout.clustering.kmeans.KMeansDriver;
import org.apache.mahout.common.HadoopUtil;
import org.apache.mahout.common.distance.EuclideanDistanceMeasure;
import org.apache.mahout.common.distance.TanimotoDistanceMeasure;
import org.apache.mahout.vectorizer.DictionaryVectorizer;
import org.apache.mahout.vectorizer.DocumentProcessor;
import org.apache.mahout.vectorizer.tfidf.TFIDFConverter;

public class NewsKMeansClustering {
  
  public static void main(String args[]) throws Exception {
    
    int minSupport = 5;
    int minDf = 5;
    int maxDFPercent = 95;
    int maxNGramSize = 2;
    int minLLRValue = 50;
    int reduceTasks = 1;
    int chunkSize = 200;
    int norm = 2;
    boolean sequentialAccessOutput = true;
    
    String inputDir = "inputDir";
   
    Configuration conf = new Configuration();
    FileSystem fs = FileSystem.get(conf);
    /*
     * SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf, new Path(inputDir, "documents.seq"),
     * Text.class, Text.class); for (Document d : Database) { writer.append(new Text(d.getID()), new
     * Text(d.contents())); } writer.close();
     */

    String outputDir = "newsClusters";
    HadoopUtil.delete(conf, new Path(outputDir));
    Path tokenizedPath = new Path(outputDir,
        DocumentProcessor.TOKENIZED_DOCUMENT_OUTPUT_FOLDER);
    MyAnalyzer analyzer = new MyAnalyzer();
    DocumentProcessor.tokenizeDocuments(new Path(inputDir), analyzer.getClass()
        .asSubclass(Analyzer.class), tokenizedPath, conf);
    
    DictionaryVectorizer.createTermFrequencyVectors(tokenizedPath,
      new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 2, true, reduceTasks,
      chunkSize, sequentialAccessOutput, false);
    TFIDFConverter.processTfIdf(
      new Path(outputDir , DictionaryVectorizer.DOCUMENT_VECTOR_OUTPUT_FOLDER),
      new Path(outputDir), conf, chunkSize, minDf,
      maxDFPercent, norm, true, sequentialAccessOutput, false, reduceTasks);
    Path vectorsFolder = new Path(outputDir, "tfidf-vectors");
    Path canopyCentroids = new Path(outputDir , "canopy-centroids");
    Path clusterOutput = new Path(outputDir , "clusters");
    
    CanopyDriver.run(vectorsFolder, canopyCentroids,
      new EuclideanDistanceMeasure(), 250, 120, false, false);
    KMeansDriver.run(conf, vectorsFolder, new Path(canopyCentroids, "clusters-0"),
      clusterOutput, new TanimotoDistanceMeasure(), 0.01,
      20, true, false);
    
    SequenceFile.Reader reader = new SequenceFile.Reader(fs,
        new Path(clusterOutput + Cluster.CLUSTERED_POINTS_DIR + "/part-00000"), conf);
    
    IntWritable key = new IntWritable();
    WeightedVectorWritable value = new WeightedVectorWritable();
    while (reader.next(key, value)) {
       System.out.println(key.toString() + " belongs to cluster "
       + value.toString());
    }
    reader.close();
  }
}