SVMClassify.java example

Explorer

TACIT-master
- edu.usc.cssl.tacit.classify.naivebayes
  - src
    - edu
      - usc
        cssl
        tacit
        classify
        naivebayes
        Activator.java
        services
        CommandOption.java
        CrossValidationIterator.java
        CrossValidator.java
        NaiveBayesClassifier.java
        Text2Vectors.java
        Vectors2Classify.java
- edu.usc.cssl.tacit.classify.naivebayes.ui
  - src
    - edu
      - usc
        cssl
        tacit
        classify
        naivebayes
        ui
        Activator.java
        NaiveBayesClassifierView.java
        handlers
        NaiveBayesClassifierViewHandler.java
        internal
        INaiveBayesClassifierViewConstants.java
        NaiveBayesClassifierViewImageRegistry.java
- edu.usc.cssl.tacit.classify.svm
  - src
    - edu
      - usc
        cssl
        tacit
        classify
        svm
        Activator.java
        services
        CrossValidator.java
        SVMClassify.java
        SVMPredict.java
        SVMTrain.java
- edu.usc.cssl.tacit.classify.svm.ui
  - src
    - edu
      - usc
        cssl
        tacit
        classifiy
        svm
        ui
        Activator.java
        SVMView.java
        classify
        svm
        ui
        handlers
        OpenSVMViewHandler.java
        internal
        ISVMViewConstants.java
        SVMViewImageRegistry.java
- edu.usc.cssl.tacit.cluster.hierarchical
  - src
    - edu
      - usc
        cssl
        tacit
        cluster
        hierarchical
        Activator.java
        services
        HierarchicalClusterAnalysis.java
- edu.usc.cssl.tacit.cluster.hierarchical.ui
  - src
    - edu
      - usc
        cssl
        tacit
        cluster
        hierarchical
        ui
        Activator.java
        HierarchicalClusterView.java
        handlers
        OpenHierarchicalClusterViewHandler.java
        internal
        HeirarchicalClusterViewImageRegistry.java
        IHeirarchicalClusterViewConstants.java
- edu.usc.cssl.tacit.cluster.kmeans
  - src
    - edu
      - uc
        cssl
        tacit
        cluster
        kmeans
        Activator.java
        services
        KmeansClusterAnalysis.java
- edu.usc.cssl.tacit.cluster.kmeans.ui
  - src
    - edu
      - usc
        cssl
        tacit
        cluster
        kmeans
        ui
        Activator.java
        KmeansClusterView.java
        handlers
        OpenKmeansClusterViewHandler.java
        internal
        IKmeansClusterViewConstants.java
        KmeansClusterViewImageRegistry.java
- edu.usc.cssl.tacit.common
  - src
    - edu
      - usc
        cssl
        tacit
        common
        Activator.java
        JsonHandler.java
        Preprocess.java
        TacitUtility.java
        crawlers
        ICrawler.java
        snowballstemmer
        Among.java
        DanishStemmer.java
        DutchStemmer.java
        EnglishStemmer.java
        FinnishStemmer.java
        FrenchStemmer.java
        GermanStemmer.java
        HungarianStemmer.java
        ItalianStemmer.java
        NorwegianStemmer.java
        PorterStemmer.java
        PortugueseStemmer.java
        RomanianStemmer.java
        RussianStemmer.java
        SnowballProgram.java
        SnowballStemmer.java
        SpanishStemmer.java
        SwedishStemmer.java
        TurkishStemmer.java
- edu.usc.cssl.tacit.common.ui
  - src
    - edu
      - usc
        cssl
        tacit
        common
        ui
        CommonUiActivator.java
        ICommonUiConstants.java
        IPreprocessorSettingsConstant.java
        composite
        from
        TacitFormComposite.java
        handlers
        OpenConsoleViewHandler.java
        OpenCorpusManagementViewHandler.java
        OpenPreProcessViewHandler.java
        OpenProblemsViewHandler.java
        OpenProgressViewHandler.java
        internal
        CommonUiViewImageRegistry.java
        TargetLocationContentProvider.java
        TargetLocationLabelProvider.java
        TargetLocationsGroup.java
        TreeParent.java
        outputdata
        OutputLayoutData.java
        TableLayoutData.java
        preferencepage
        ELanguageType.java
        MainPreferencePage.java
        PrepocessorSettings.java
        utility
        INlpCommonUiConstants.java
        IconRegistry.java
        validation
        OutputPathValidation.java
        views
        ConsoleView.java
        CorpusManagementView.java
        PreprocessorView.java
- edu.usc.cssl.tacit.crawlers.latin
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        latin
        Activator.java
        ILatinCrawlerConstants.java
        services
        LatinCrawler.java
- edu.usc.cssl.tacit.crawlers.latin.ui
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        latin
        ui
        Activator.java
        AuthorListDialog.java
        LatinCrawlerView.java
        handlers
        OpenLatinCrawlerViewHandler.java
        internal
        ILatinCrawlerUIConstants.java
        LatinCrawlerImageRegistry.java
- edu.usc.cssl.tacit.crawlers.reddit
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        reddit
        Activator.java
        services
        RedditCrawler.java
        RedditPlugin.java
- edu.usc.cssl.tacit.crawlers.reddit.ui
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        reddit
        ui
        Activator.java
        RedditCrawlerView.java
        handlers
        RedditCrawlerViewHandler.java
        internal
        IRedditCrawlerViewConstants.java
        RedditCrawlerViewImageRegistry.java
- edu.usc.cssl.tacit.crawlers.senate
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        senate
        Activator.java
        services
        AvailableRecords.java
        SenateCrawler.java
        SenatorDetails.java
- edu.usc.cssl.tacit.crawlers.senate.ui
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        senate
        ui
        Activator.java
        SenateCrawlerView.java
        SenatorListDialog.java
        handlers
        SenateCrawlerViewHandler.java
        internal
        AbstractElementListSelectionDialog.java
        ElementListSelectionDialog.java
        FilteredList.java
        ISenateCrawlerViewConstants.java
        SenateCrawlerViewImageRegistry.java
- edu.usc.cssl.tacit.crawlers.supremecourt
  - src
    - edu
      - uc
        cssl
        tacit
        crawlers
        supremecourt
        Activator.java
        services
        CrawlerData.java
        CrawlerJob.java
        MyThread.java
        SupremCrawlerFilter.java
        SupremeCourtCrawler.java
- edu.usc.cssl.tacit.crawlers.supremecourt.ui
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        supremecourt
        ui
        Activator.java
        SupremeCrawlerView.java
        handlers
        OpenSupremeCrawlerViewHandler.java
        internal
        ISupremeCrawlerUIConstants.java
        SupremeCrawlerImageRegistry.java
- edu.usc.cssl.tacit.crawlers.twitter
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        twitter
        Activator.java
        services
        TwitterStreamApi.java
        TwitterTestProgram.java
- edu.usc.cssl.tacit.crawlers.twitter.ui
  - src
    - edu
      - usc
        cssl
        tacit
        crawlers
        twitter
        ui
        Activator.java
        TwitterCrawlerView.java
        handlers
        OpenTwitterCrawlerViewHandler.java
        internal
        ITwitterCrawlerUIConstants.java
        TwitterCrawlerImageRegistry.java
        preferencepage
        ITwitterConstant.java
        TwitterUserConfiguration.java
- edu.usc.cssl.tacit.help
  - src
    - edu
      - usc
        cssl
        tacit
        help
        Activator.java
- edu.usc.cssl.tacit.repository
  - src
    - edu
      - usc
        cssl
        tacit
        repository
        Activator.java
        Application.java
        ApplicationActionBarAdvisor.java
        ApplicationWorkbenchAdvisor.java
        ApplicationWorkbenchWindowAdvisor.java
        Perspective.java
- edu.usc.cssl.tacit.topicmodel.lda
  - src
    - edu
      - usc
        cssl
        tacit
        topicmodel
        lda
        Activator.java
        services
        LdaAnalysis.java
        Text2Vectors.java
        Vectors2Topics.java
- edu.usc.cssl.tacit.topicmodel.lda.ui
  - src
    - edu
      - usc
        cssl
        tacit
        topicmodel
        lda
        ui
        Activator.java
        LdaTopicModelView.java
        handlers
        OpenLdaTopicModelViewHandler.java
        internal
        ILdaTopicModelClusterViewConstants.java
        LdaTopicModelViewImageRegistry.java
- edu.usc.cssl.tacit.topicmodel.zlda
  - src
    - edu
      - usc
        cssl
        tacit
        topicmodel
        zlda
        Activator.java
        services
        DTWC.java
        ZlabelLDA.java
        ZlabelTopicModelAnalysis.java
- edu.usc.cssl.tacit.topicmodel.zlda.ui
  - src
    - edu
      - usc
        cssl
        tacit
        topicmodel
        zlda
        ui
        Activator.java
        ZlabelLdaTopicModelView.java
        handlers
        OpenZlabelLdaTopicModelViewHandler.java
        internal
        IZlabelLdaTopicModelClusterViewConstants.java
        ZlabelLdaTopicModelViewImageRegistry.java
- edu.usc.cssl.tacit.wordcount.cooccurrence
  - src
    - edu
      - usc
        cssl
        tacit
        wordcount
        cooccurrence
        Activator.java
        services
        CooccurrenceAnalysis.java
- edu.usc.cssl.tacit.wordcount.cooccurrence.ui
  - src
    - edu
      - usc
        cssl
        tacit
        wordcount
        cooccurrence
        ui
        Activator.java
        CooccurrenceWordCountView.java
        handlers
        OpenCooccurrenceWordCountViewHandler.java
        internal
        CooccurrenceWordCountImageRegistry.java
        ICooccurrenceWordCountViewConstants.java
- edu.usc.cssl.tacit.wordcount.standard
  - src
    - edu
      - usc
        cssl
        tacit
        wordcount
        standard
        Activator.java
        services
        WordCountPlugin.java
- edu.usc.cssl.tacit.wordcount.standard.ui
  - src
    - edu
      - usc
        cssl
        tacit
        wordcount
        standard
        ui
        Activator.java
        StandardWordCountView.java
        handlers
        OpenStandardWordCountViewHandler.java
        internal
        IStandardWordCountViewConstants.java
        StandardWordCountImageRegistry.java
- edu.usc.cssl.tacit.wordcount.weighted
  - src
    - edu
      - uc
        cssl
        tacit
        wordcount
        weighted
        Activator.java
        services
        Trie.java
        WordCountApi.java
- edu.usc.cssl.tacit.wordcount.weighted.ui
  - src
    - edu
      - usc
        cssl
        tacit
        wordcount
        weighted
        ui
        Activator.java
        WeightedWordCountView.java
        handlers
        OpenWeightedWordCountViewHandler.java
        internal
        AddLocationPage.java
        EditDirectoryContainerPage.java
        IWeightedWordCountViewConstants.java
        WeightedWordCountImageRegistry.java

package edu.usc.cssl.tacit.classify.svm.services;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.ObjectOutputStream;
import java.text.DateFormat;
import java.text.NumberFormat;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.HashMap;
import java.util.HashSet;
import java.util.TreeMap;

import org.apache.commons.math3.stat.inference.AlternativeHypothesis;
import org.apache.commons.math3.stat.inference.BinomialTest;

import edu.usc.cssl.tacit.common.ui.views.ConsoleView;

public class SVMClassify {
	private String intermediatePath;
	private File modelFile;
	private boolean doTfidf;
	private int featureMapIndex;
	private HashMap<String, Integer> featureMap = new HashMap<String, Integer>();
	private HashMap<String, Integer> dfMap = new HashMap<String, Integer>();
	private String delimiters = " .,;'\"!-()[]{}:?";
	private int noOfDocuments = 0;

	public SVMClassify(String class1Name, String class2Name, String outputFolder) {
		this.intermediatePath = outputFolder
				+ System.getProperty("file.separator") + "SVM-Classification";
	}

	public void buildDfMap(File inputFile) throws IOException {
		BufferedReader br = new BufferedReader(new FileReader(inputFile));

		// ConsoleView.writeInConsole("Building map for: "+inputFile.getAbsolutePath());
		String currentLine;
		StringBuilder fullFile = new StringBuilder();
		while ((currentLine = br.readLine()) != null) {
			fullFile.append(currentLine + ' ');
		}
		String input = fullFile.toString();
		for (char c : delimiters.toCharArray())
			input = input.replace(c, ' ');
		HashSet<String> wordSet = new HashSet<String>();
		for (String word : input.split("\\s+")) {
			wordSet.add(word);
		}
		for (String word : wordSet) {
			if (!(dfMap.containsKey(word))) {
				dfMap.put(word, 1);
			} else {
				dfMap.put(word, dfMap.get(word) + 1);
			}
		}
		br.close();
	}

	public HashMap<String, Double> fileToBow(File inputFile) throws IOException {
		HashMap<String, Double> hashMap = new HashMap<String, Double>();
		BufferedReader br = new BufferedReader(new FileReader(inputFile));
		String currentLine;

		// Converting the file to one string for faster processing
		StringBuilder fullFile = new StringBuilder();
		while ((currentLine = br.readLine()) != null) {
			fullFile.append(currentLine + ' ');
		}
		// ConsoleView.writeInConsole(fullFile);
		String input = fullFile.toString();
		for (char c : delimiters.toCharArray())
			input = input.replace(c, ' ');

		// ConsoleView.writeInConsole(input);
		for (String word : input.split("\\s+")) {
			if (!hashMap.containsKey(word))
				hashMap.put(word, (double) 1);
			else {
				hashMap.put(word, hashMap.get(word) + 1);
			}
		}

		// If TF.IDF method, multiply each hashMap value with IDF. IDF = log10(
		// noOfDocuments / no of documents containing the current word)
		if (doTfidf) {
			double tfidf = 0;
			for (String word : hashMap.keySet()) {
				Integer docsContaining;
				if ((docsContaining = dfMap.get(word)) != null) {
					tfidf = hashMap.get(word)
							* (Math.log10(noOfDocuments
									/ (double) docsContaining));
					// ConsoleView.writeInConsole(word+" - "+noOfDocuments+"/"+(double)docsContaining);
				} else {
					continue; // If new word, none of the training documents
								// will contain it. So, skip.
				}
				hashMap.put(word, tfidf);
			}
		}
		// ConsoleView.writeInConsole(hashMap);
		br.close();
		return hashMap;
	}

	public String BowToString(HashMap<String, Double> bow) {
		TreeMap<Integer, Double> integerMap = new TreeMap<Integer, Double>();
		for (String word : bow.keySet()) {
			if (featureMap.containsKey(word)) {
				integerMap.put(featureMap.get(word), bow.get(word));
			} else {
				featureMapIndex = featureMapIndex + 1;
				featureMap.put(word, featureMapIndex);
				integerMap.put(featureMapIndex, bow.get(word));
			}
		}
		// ConsoleView.writeInConsole(integerMap.toString());
		// ConsoleView.writeInConsole(bow.toString());
		StringBuilder sb = new StringBuilder();
		for (int i : integerMap.keySet()) {
			sb.append(i + ":" + integerMap.get(i) + " ");
		}
		// ConsoleView.writeInConsole(sb.toString().trim());
		return sb.toString().trim();
	}

	public String BowToTestString(HashMap<String, Double> bow) {
		TreeMap<Integer, Double> integerMap = new TreeMap<Integer, Double>();
		for (String word : bow.keySet()) {
			if (featureMap.containsKey(word)) {
				integerMap.put(featureMap.get(word), bow.get(word));
			} else {
				// Ignore new words
			}
		}
		StringBuilder sb = new StringBuilder();
		for (int i : integerMap.keySet()) {
			sb.append(i + ":" + integerMap.get(i) + " ");
		}
		return sb.toString().trim();
	}

	public HashMap<Integer, Double> computePredictiveWeights(File modelFile)
			throws IOException {
		BufferedReader br = new BufferedReader(new FileReader(modelFile));
		HashMap<Integer, Double> weights = new HashMap<Integer, Double>();
		String currentLine;
		while ((currentLine = br.readLine()) != null) {
			if (currentLine.equals("SV")) {
				break;
			}
		}
		while ((currentLine = br.readLine()) != null) {
			String[] items = currentLine.split("\\s+");
			double alpha = Double.parseDouble(items[0]);
			// ConsoleView.writeInConsole(alpha);
			for (int i = 1; i < items.length; i++) {
				String[] pair = items[i].split(":");
				int featureID = Integer.parseInt(pair[0]);
				double weight = Double.parseDouble(pair[1]);
				// ConsoleView.writeInConsole(pair[0]+" "+pair[1]);
				if (weights.containsKey(featureID)) {
					weights.put(featureID, weights.get(featureID)
							+ (alpha * weight));
				} else {
					weights.put(featureID, alpha * weight);
				}
			}
		}
		// ConsoleView.writeInConsole(weights);
		br.close();
		return weights;
	}

	public int cross_train(String kVal, String label1, File[] trainFiles1,
			String label2, File[] trainFiles2, boolean doPredictiveWeights, Date dateObj)
			throws IOException {
		int ret = 0;
		modelFile = new File(intermediatePath + "_" + kVal + ".model");
		File trainFile = new File(intermediatePath + "_" + kVal + ".train");
		this.doTfidf = true;
		featureMapIndex = 0;
		featureMap.clear();
		dfMap.clear();
		noOfDocuments = 0;

		if (doTfidf) {
			for (File file : trainFiles1) {
				if (file.getAbsolutePath().contains("DS_Store"))
					continue;
				noOfDocuments = noOfDocuments + 1; // Count the total no of
													// documents
				buildDfMap(file);
			}
			for (File file : trainFiles2) {
				if (file.getAbsolutePath().contains("DS_Store"))
					continue;
				noOfDocuments = noOfDocuments + 1; // Count the total no of
													// documents
				buildDfMap(file);
			}
			// ConsoleView.writeInConsole("dfmap -"+dfMap);
			ConsoleView
					.printlInConsoleln("Finished building document frequency map.");
		}

		BufferedWriter bw = new BufferedWriter(new FileWriter(trainFile));

		for (File file : trainFiles1) {
			if (file.getAbsolutePath().contains("DS_Store"))
				continue;
			// ConsoleView.writeInConsole("Reading File "+file.toString());
			bw.write("+1 " + BowToString(fileToBow(file)));
			bw.newLine();
		}
		for (File file : trainFiles2) {
			if (file.getAbsolutePath().contains("DS_Store"))
				continue;
			// ConsoleView.writeInConsole("Reading File "+file.toString());
			bw.write("-1 " + BowToString(fileToBow(file)));
			bw.newLine();
		}
		ConsoleView.printlInConsoleln("Total number of documents - "
				+ noOfDocuments + ". Total unique features - "
				+ featureMapIndex);
		// ConsoleView.printlInConsoleln("Finished building SVM-format training file - "+trainFile.getAbsolutePath());
		bw.close();

		String[] train_arguments;

		ConsoleView.printlInConsoleln("Linear Kernel selected");
		train_arguments = new String[4];
		train_arguments[0] = "-t";
		train_arguments[1] = "0";
		train_arguments[2] = trainFile.getAbsolutePath();
		train_arguments[3] = modelFile.getAbsolutePath();

		DateFormat df = new SimpleDateFormat("MM-dd-yy-HH-mm-ss");
		ConsoleView.printlInConsoleln("Training the classifier...");
		double[] result = SVMTrain.main(train_arguments);
		double crossValResult = result[0];
		double pvalue = result[1];
		// ConsoleView.printlInConsoleln("Model file created - "+modelFile.getAbsolutePath());

		// Saving the feature map
		File hashmap = new File(intermediatePath + "_" + kVal + ".hashmap");
		ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(
				hashmap));
		oos.writeObject(featureMap);
		oos.flush();
		oos.close();
		// ConsoleView.printlInConsoleln("Feature Map saved - "+hashmap.getAbsolutePath());

		HashMap<Integer, String> reverseMap = new HashMap<Integer, String>();
		for (String k : featureMap.keySet()) {
			reverseMap.put(featureMap.get(k), k);
		}

		if (doPredictiveWeights) {
			// PredictiveWeights pw = new PredictiveWeights();
			File weightsFile = new File(intermediatePath + "-weights" + "-"
					+ kVal +"-"+df.format(dateObj)+".csv");
			BufferedWriter weightsWriter = new BufferedWriter(new FileWriter(
					weightsFile));
			// HashMap<Integer,Double> weightsMap =
			// pw.computePredictiveWeights(modelFile);
			HashMap<Integer, Double> weightsMap = computePredictiveWeights(modelFile);
			weightsWriter.write("Word,ID,Weight\n");
			for (Integer i : weightsMap.keySet()) {
				// System.out.print(i+" ");
				weightsWriter.write(reverseMap.get(i) + "," + i + ","
						+ weightsMap.get(i) + "\n");
			}
			ConsoleView.printlInConsoleln("Created Predictive Weights file - "
					+ weightsFile.getAbsolutePath());
			weightsWriter.close();
		}

		return ret;
	}

	public double cross_predict(String kVal, String label1, File[] testFiles1,
			String label2, File[] testFiles2) throws IOException {

		// if TFIDF method, clear and rebuild df map
		dfMap.clear();
		noOfDocuments = 0;
		if (doTfidf) {
			for (File file : testFiles1) {
				if (file.getAbsolutePath().contains("DS_Store"))
					continue;
				noOfDocuments = noOfDocuments + 1;
				buildDfMap(file);
			}
			for (File file : testFiles2) {
				if (file.getAbsolutePath().contains("DS_Store"))
					continue;
				noOfDocuments = noOfDocuments + 1;
				buildDfMap(file);
			}
			// ConsoleView.writeInConsole("dfmap -"+dfMap);
			ConsoleView
					.printlInConsoleln("Finished building document frequency map.");
		}

		// Create a test file just like the training file was created.
		// Use the existing featureMap, ignore new words.
		File testFile = new File(intermediatePath + "_" + kVal + ".test");
		BufferedWriter bw = new BufferedWriter(new FileWriter(testFile));

		for (File file : testFiles1) {
			if (file.getAbsolutePath().contains("DS_Store"))
				continue;
			// ConsoleView.writeInConsole("Reading File "+file.toString());
			bw.write("+1 " + BowToTestString(fileToBow(file)));
			bw.newLine();
		}
		for (File file : testFiles2) {
			if (file.getAbsolutePath().contains("DS_Store"))
				continue;
			// ConsoleView.writeInConsole("Reading File "+file.toString());
			bw.write("-1 " + BowToTestString(fileToBow(file)));
			bw.newLine();
		}
		// ConsoleView.printlInConsoleln("Finished building SVM-format test file - "+testFile.getAbsolutePath());
		bw.close();
		// ConsoleView.printlInConsoleln("Model file loaded - "+modelFile.getAbsolutePath());
		String[] predict_arguments = new String[3];
		predict_arguments[0] = testFile.getAbsolutePath();
		predict_arguments[1] = modelFile.getAbsolutePath();
		predict_arguments[2] = intermediatePath + "_" + kVal + ".out";
		double[] result = SVMPredict.main(predict_arguments);
		int correct = (int) result[0], total = (int) result[1];
		// double pvalue = result[2];
		BinomialTest btest = new BinomialTest();
		double p = 0.5;
		double pvalue = btest.binomialTest(total, correct, p,
				AlternativeHypothesis.TWO_SIDED);
		// ConsoleView.printlInConsoleln("Created SVM output file - "+intermediatePath+"_"+kVal+".out");
		ConsoleView.printlInConsoleln("Accuracy = " + (double) correct / total
				* 100 + "% (" + correct + "/" + total + ") (classification)\n");
		ConsoleView.printlInConsoleln("Binomial Test P value  = " + pvalue);
		NumberFormat nf = NumberFormat.getInstance();
		nf.setMaximumFractionDigits(Integer.MAX_VALUE);
		// ConsoleView.writeInConsole(nf.format(pvalue));
		if (pvalue != 0) {
			if (pvalue > 0.5)
				pvalue = Math.abs(pvalue - 1);
		}

		return (double) correct / total * 100;
	}

}