TextCategorizer.java example

Explorer

cognitionis-nlp-libraries-master
- external-tools
  - src
    - main
      - java
        com
        cognitionis
        external_tools
        CRF.java
        CoNLL_scorer.java
        FreeLing.java
        Main.java
        MaltParser.java
        SRL_Roth.java
        SVM.java
        TempEval_scorer.java
        Tokenizer_TreeTagger.java
        TreeTagger.java
        WNInterface.java
- feature-builder
  - src
    - main
      - java
        com
        cognitionis
        feature_builder
        BaseTokenFeatures.java
        CategorizationTE2.java
        Classification.java
        Main.java
        Timen.java
        TimexNormalization.java
- jtimegraph
  - src
    - main
      - java
        com
        cognitionis
        jtimegraph
        Main.java
        gregoriangraph
        GregorianGraph.java
        GregorianPoint.java
        timegraph
        Chain.java
        TimeGraph.java
        TimePoint.java
- knowledgek
  - src
    - main
      - java
        com
        cognitionis
        knowledgek
        Main.java
        NUMEK
        NUMEK.java
        TIMEK
        TIMEK.java
        VerbAttributesK.java
- nlp-files
  - src
    - main
      - java
        com
        cognitionis
        nlp_files
        LengthAlphabeticalComparator.java
        Main.java
        NLPFile.java
        NgramHandler.java
        PhraselistFile.java
        PipesFile.java
        PlainFile.java
        RegexPhraselistFile.java
        Stat.java
        TabFile.java
        TempEvalFiles.java
        TokenizedFile.java
        TokenizedPerSentenceFile.java
        TransduceRulelistFile.java
        TreebankFile.java
        XMLFile.java
        annotation_scorers
        Judgement.java
        Scomp.java
        Score.java
        Scorer.java
        parentical_parsers
        SRLColParser.java
        SyntColParser.java
        SyntColSBarTMPRoleParser.java
- nlp-knowledge
  - src
    - main
      - java
        com
        cognitionis
        nlp_knowledge
        Main.java
        numbers
        Numek.java
        time
        Timek.java
        TimexNormalizer.java
        TimexResolver.java
    - test
      - java
        com
        cognitionis
        nlp_knowledge
        numbers
        NumekTest.java
        time
        TimekTest.java
        TimexNormalizerTest.java
- nlp-lang-models
  - src
    - main
      - java
        com
        cognitionis
        nlp_lang_models
        Main.java
        TextCategorizer.java
        TextCategorizerFingerprint.java
    - test
      - java
        com
        cognitionis
        nlp_lang_models
        TextCategorizerTest.java
- nlp-segmentation
  - src
    - main
      - java
        com
        cognitionis
        nlp_segmentation
        Aligner.java
        Main.java
        SentSplit.java
        Tokenizer_PTB_Rulebased.java
    - test
      - java
        com
        cognitionis
        nlp_segmentation
        TokenizerTest.java
- nlp-taggers
  - src
    - main
      - java
        com
        cognitionis
        nlp_taggers
        Baseline_MostFrequentTag.java
        HMM.java
        Main.java
        Tagger.java
- nlpbt
  - src
    - main
      - java
        com
        cognitionis
        nlpbt
        Main.java
- timeml-basickit
  - src
    - main
      - java
        com
        cognitionis
        timeml_basickit
        Element.java
        Event.java
        Link.java
        Main.java
        TML_file_utils.java
        TimeML.java
        TimeReference.java
        Timex.java
        comparators
        AscINT_eiid_Comparator.java
        AscINT_lid_Comparator.java
        AscStringTimeRefMapComparator.java
        AscStringTimexMapComparator.java
- utils-basickit
  - src
    - main
      - java
        com
        cognitionis
        utils_basickit
        AscStringIntMapComparator.java
        DateUtils.java
        DescStringIntMapComparator.java
        DescStringIntMapEntryListComparator.java
        FileUtils.java
        Main.java
        MapUtils.java
        SAXReader.java
        StringUtils.java
        Xml2PlainHandler.java
        XmlAttribs.java
        statistics
        T_test.java
- wiki-basickit
  - src
    - main
      - java
        com
        cognitionis
        wiki_basickit
        DBpedia_bk.java
        Main.java
        WikiHtml2PlainESHandler.java
        WikiHtml2PlainHandler.java
        Wiki_bk.java

package com.cognitionis.nlp_lang_models;


import java.io.*;
import java.util.*;
import com.cognitionis.utils_basickit.*;
import static com.cognitionis.utils_basickit.FileUtils.URL_exists;

/**
 *
 * @author Héctor Llorens
 * @since 2011
 *
 * This is an implementation of the famous Tenkle Text Categorization algorithm
 * based on character n-grams
 * Best known as TextCat
 *
 */
public class TextCategorizer {

    private final static int MIN_WORDS_4_CATEGORIZE = 5;
    private final static String DEFAULT_CATEGORY = "en"; // English

    private String conf_file_path = "/resources/lang_models/text_categorization/";
    private String conf_file_name = "indoeuropean.conf";
    //private String conf_file_path = "indoeuropean.conf";
    private ArrayList<TextCategorizerFingerprint> categories = new ArrayList();

    public TextCategorizer() {
        loadFingerprints();
    }

    public TextCategorizer(String conf_file_path) {
        this.conf_file_path = conf_file_path;
        loadFingerprints();
    }

    private void loadFingerprints() {
        this.categories.clear();
        try {
            // For our beloved Windows
            String extra = ""; // TODO check if this is really needed
            if (File.separator.equals("\\")) {
                extra = "\\";
            }
            String app_path = FileUtils.getApplicationPath(TextCategorizer.class);
            
        if (!URL_exists(app_path+conf_file_path)) { // Check for external resoucre (outside classes)
            if (System.getProperty("DEBUG") != null && System.getProperty("DEBUG").equalsIgnoreCase("true")) {
                System.out.println("look outside classes");
            }
            app_path=app_path.replaceAll(extra + File.separator + "classes", ""); // see if we need \\ for windows
        }            

            try (BufferedReader reader = new BufferedReader(new FileReader(new File(app_path+this.conf_file_path+this.conf_file_name)))) {
                String line;
                while ((line = reader.readLine()) != null) {
                    String[] line_arr = line.split("\\s+");
                    if(line_arr.length > 0){
                        if(line_arr.length != 2){
                            throw new Exception("Malformed TextCategorizer configuration file.\n\tMust contain one fingerprint file path per line.");
                        }
                        TextCategorizerFingerprint fp=new TextCategorizerFingerprint(app_path+this.conf_file_path+line_arr[0],line_arr[1]);
                        categories.add(fp);
                    }
                }
            }

        } catch (Exception e) {
            System.err.println("Errors found ("+this.getClass().getSimpleName()+"):\n\t" + e.toString() + "\n");
            if(System.getProperty("DEBUG")!=null && System.getProperty("DEBUG").equalsIgnoreCase("true")){e.printStackTrace(System.err);}
        }
    }


	/**
	 * categorizes only a certain amount of characters in the text. recommended
	 * when categorizing large texts in order to increase performance.
	 *
	 * @param text text to be analyzed
	 * @param limit number of characters to be analyzed
	 * @return the category name given in the configuration file
	 */
	public String categorize(String text, int limit) {
		if(limit > (text.length()-1)) {
                    limit=text.length()-1;
		}
		return this.categorize(text.substring(0,limit));
	}

  	public String categorize(String text) {
		if(text.length() < MIN_WORDS_4_CATEGORIZE) {
			return DEFAULT_CATEGORY;
		}
		TextCategorizerFingerprint fp = new TextCategorizerFingerprint();
		fp.create(text.toLowerCase());
		fp.categorize(categories);

		return fp.getCategory();
	}
}