BasePhraseAnalyzer.java example

Explorer

wikibrain-master
- wikibrain-cookbook
  - src
    - main
      - java
        org
        wikibrain
        cookbook
        Quickstart.java
        concepts
        TranslateConcept.java
        core
        CategoryExample.java
        CompareLocalLinkDaos.java
        ConceptExample.java
        LocalLinkLiveDaoExample.java
        LocalLinkTimer.java
        LocalPageLiveDaoExample.java
        ShowAnchorText.java
        TestFetchSize.java
        TraverseWithConceptualign.java
        UniversalLinkExplorer.java
        UniversalPageDaoExample.java
        pageview
        CategoryViews.java
        CountryPageViews.java
        PageViewExample.java
        phrases
        CheckHashCollisions.java
        DescribeExample.java
        ResolveExample.java
        spatial
        CountryDistances.java
        Distances.java
        sr
        CosimilartyExample.java
        MostSimilarDatasetExample.java
        MostSimilarExample.java
        SimilarMovies.java
        SimilarityExample.java
        SimilarityExample2.java
        WikifierExample.java
        wikidata
        BerlinExample.java
        ShowStatements.java
    - test
      - java
        org
        wikibrain
        cookbook
        Sandbox.java
- wikibrain-core
  - src
    - main
      - java
        org
        wikibrain
        core
        WikiBrainException.java
        cmd
        Env.java
        EnvBuilder.java
        FileMatcher.java
        package-info.java
        dao
        Dao.java
        DaoException.java
        DaoFilter.java
        InterLanguageLinkDao.java
        LocalCategoryMemberDao.java
        LocalLinkDao.java
        LocalPageDao.java
        MetaInfoDao.java
        RawPageDao.java
        RedirectDao.java
        UniversalLinkDao.java
        UniversalPageDao.java
        live
        LiveAPIQuery.java
        LocalCategoryMemberLiveDao.java
        LocalLinkLiveDao.java
        LocalPageLiveDao.java
        QueryParser.java
        QueryReply.java
        RedirectLiveDao.java
        matrix
        MatrixLocalLinkDao.java
        sql
        AbstractSqlDao.java
        CategoryBfs.java
        CategoryDistance.java
        FastLoader.java
        InterLanguageLinkSqlDao.java
        JooqUtils.java
        LocalCategoryGraphBuilder.java
        LocalCategoryMemberSqlDao.java
        LocalLinkSqlDao.java
        LocalPageSqlDao.java
        MetaInfoSqlDao.java
        RawPageSqlDao.java
        RedirectSqlDao.java
        SimpleSqlDaoIterable.java
        SqlCache.java
        SqlDaoIterable.java
        TestDaoUtil.java
        UniversalLinkSkeletalSqlDao.java
        UniversalLinkSqlDao.java
        UniversalPageSqlDao.java
        WpDataSource.java
        lang
        IdentityStringNormalizer.java
        Language.java
        LanguageInfo.java
        LanguageSet.java
        LocalId.java
        LocalString.java
        StringNormalizer.java
        UniversalId.java
        model
        AbstractUniversalEntity.java
        CategoryGraph.java
        InterLanguageLink.java
        LocalCategoryMember.java
        LocalLink.java
        LocalPage.java
        MetaInfo.java
        NameSpace.java
        RawPage.java
        Redirect.java
        Title.java
        UniversalLink.java
        UniversalLinkGroup.java
        UniversalPage.java
        nlp
        Dictionary.java
        NGramCreator.java
        StringTokenizer.java
        Token.java
    - test
      - java
        org
        wikibrain
        core
        cmd
        FileMatcherTest.java
        dao
        BenchmarkFastLoader.java
        DaoIntegrationTest.java
        TestDaoFilter.java
        TestInterLanguageLinkSqlDao.java
        TestLocalCategoryMemberDao.java
        TestLocalLinkDao.java
        TestLocalLinkDao2.java
        TestLocalLinkDao3.java
        TestLocalPageDao.java
        TestMetaInfoDao.java
        TestRawPageDao.java
        TestRedirectDao.java
        TestSqlCache.java
        TestWpDataSource.java
        lang
        TestLangStorage.java
        TestLanguage.java
        TestLanguageInfo.java
        TestLocalId.java
        model
        TestNameSpace.java
        TestTitle.java
        nlp
        DictionaryBenchmarker.java
        DictionaryTest.java
- wikibrain-download
  - src
    - main
      - java
        org
        wikibrain
        download
        DumpFileDownloader.java
        DumpLinkCluster.java
        DumpLinkGetter.java
        DumpLinkInfo.java
        FileDownloader.java
        RequestedLinkGetter.java
    - test
      - java
        org
        wikibrain
        download
        TestFileDownloader.java
- wikibrain-integration-tests
  - src
    - test
      - java
        org
        wikibrain
        integration
        DownloadIT.java
        DumpIT.java
        LocalEnsembleSRIT.java
        LocalPageDaoIT.java
        LocalSRMetricIT.java
        LuceneIT.java
        LuceneLoaderIT.java
        PhraseLoaderIT.java
        RawPageDaoIT.java
        RedirectIT.java
        RedirectLoaderIT.java
        TestDB.java
        TestUtils.java
        WikiTextLoaderIT.java
- wikibrain-loader
  - src
    - main
      - java
        org
        wikibrain
        GuiLoader.java
        Loader.java
        loader
        ConceptLoader.java
        DumpLoader.java
        GraphicLoader.java
        InterLanguageLinkExtractor.java
        LoadedStats.java
        LocalLinkSet.java
        LuceneLoader.java
        PhraseLoader.java
        RedirectLoader.java
        SqlLinksLoader.java
        UniversalLinkLoader.java
        WikiTextLoader.java
        pipeline
        CpuBenchmarker.java
        DiagnosticDao.java
        DiagnosticReport.java
        LoadTimeEstimator.java
        PipelineLoader.java
        PipelineStage.java
        StageArgs.java
        StageDiagnostic.java
        StageFailedException.java
    - test
      - java
        BenchLevelDB.java
        BlockingQueueTest.java
        TestLinkResolver.java
- wikibrain-lucene
  - src
    - main
      - java
        org
        wikibrain
        lucene
        LuceneIndexer.java
        LuceneOptions.java
        LuceneSearcher.java
        LuceneStringNormalizer.java
        QueryBuilder.java
        TextFieldBuilder.java
        TextFieldElements.java
        TokenizerOptions.java
        WikiBrainAnalyzer.java
        WikiBrainScoreDoc.java
        WpIdFilter.java
        tokenizers
        ArabicTokenizer.java
        ArmenianTokenizer.java
        BasqueTokenizer.java
        BulgarianTokenizer.java
        CatalanTokenizer.java
        ChineseTokenizer.java
        CzechTokenizer.java
        DanishTokenizer.java
        DefaultTokenizer.java
        DutchTokenizer.java
        EnglishTokenizer.java
        FinnishTokenizer.java
        FrenchTokenizer.java
        GalicianTokenizer.java
        GermanTokenizer.java
        GreekTokenizer.java
        HebrewTokenizer.java
        HindiTokenizer.java
        HungarianTokenizer.java
        IndonesianTokenizer.java
        IrishTokenizer.java
        ItalianTokenizer.java
        JapaneseTokenizer.java
        KoreanTokenizer.java
        LadinoTokenizer.java
        LanguageTokenizer.java
        LatvianTokenizer.java
        NorwegianTokenizer.java
        PersianTokenizer.java
        PolishTokenizer.java
        PortugueseTokenizer.java
        RomanianTokenizer.java
        RussianTokenizer.java
        SlovakTokenizer.java
        SpanishTokenizer.java
        SwedishTokenizer.java
        ThaiTokenizer.java
        TurkishTokenizer.java
        UkrainianTokenizer.java
    - test
      - java
        TestLanguageTokenizer.java
        TestLuceneNormalizer.java
        TestLuceneSearcher.java
- wikibrain-mapper
  - src
    - main
      - java
        org
        wikibrain
        mapper
        ConceptMapper.java
        MapperIterator.java
        algorithms
        MonolingualConceptMapper.java
        PureWikidataConceptMapper.java
        conceptualign3
        ClusterResult.java
        CombinedIllDao.java
        Conceptualign3ConnectedComponentHandler.java
        ConceptualignConceptMapper.java
        ConceptualignHelper.java
        ConnectedComponentHandler.java
        ConnectedComponentTraversalListener.java
        ILLEdge.java
        ILLGraph.java
        ILLSplitter.java
        SummingHashMap.java
- wikibrain-matrix
  - src
    - main
      - java
        org
        wikibrain
        matrix
        BaseMatrixRow.java
        DenseMatrix.java
        DenseMatrixRow.java
        DenseMatrixWriter.java
        InMemorySparseMatrix.java
        IntSorter.java
        Matrix.java
        MatrixRow.java
        MemoryMappedMatrix.java
        SparseMatrix.java
        SparseMatrixRow.java
        SparseMatrixSorter.java
        SparseMatrixTransposer.java
        SparseMatrixUtils.java
        SparseMatrixWriter.java
        ValueConf.java
        knn
        BruteForceKNNFinder.java
        KDTreeKNN.java
        KNNFinder.java
        KmeansKNNFinder.java
        LSHForestKNNFinder.java
        Neighborhood.java
        NeighborhoodAccumulator.java
        RandomProjectionKNNFinder.java
    - test
      - java
        org
        wikibrain
        matrix
        BenchBuffers.java
        TestDenseMatrix.java
        TestDenseMatrixRow.java
        TestSparseMatrix.java
        TestSparseMatrixRow.java
        TestUtils.java
        knn
        BenchBruteForce.java
        TestKDDNNFinder.java
        TestKMeansNNFinder.java
        TestLSHForestNNFinder.java
        TestLSHNNFinder.java
        TestUtils.java
- wikibrain-pageview
  - src
    - main
      - java
        org
        wikibrain
        pageview
        PageView.java
        PageViewDao.java
        PageViewDaoFilter.java
        PageViewDataStruct.java
        PageViewDownloader.java
        PageViewLoader.java
        PageViewReader.java
        PageViewSqlDao.java
        PageViewUtils.java
        RawPageView.java
    - test
      - java
        org
        wikibrain
        pageview
        TestPageViewUtils.java
- wikibrain-parser
  - src
    - main
      - java
        org
        wikibrain
        parser
        DumpSplitter.java
        WpParseException.java
        sql
        MySqlDumpParser.java
        wiki
        InterLanguageLinkVisitor.java
        LocalCategoryVisitor.java
        LocalLinkVisitor.java
        MarkupStripper.java
        ParsedCategory.java
        ParsedEntity.java
        ParsedIll.java
        ParsedLink.java
        ParsedLocation.java
        ParsedRedirect.java
        ParserVisitor.java
        RedirectParser.java
        SubarticleParser.java
        WikiTextDumpParser.java
        WikiTextParser.java
        WikitextRenderer.java
        xml
        DumpPageXmlParser.java
        PageXmlParser.java
    - test
      - java
        org
        wikibrain
        parser
        TestDumpPageParser.java
        TestDumpSplitter.java
        TestMysqlDumpParser.java
        TestWikiTextDumpParser.java
        TestXMLParser.java
- wikibrain-phrases
  - src
    - main
      - java
        org
        wikibrain
        phrases
        AnchorTextPhraseAnalyzer.java
        BasePhraseAnalyzer.java
        CascadingAnalyzer.java
        LinkProbabilityDao.java
        LucenePhraseAnalyzer.java
        NormalizedStringPruner.java
        OldLucenePhraseAnalyzer.java
        PhraseAnalyzer.java
        PhraseAnalyzerDao.java
        PhraseAnalyzerLangDao.java
        PhraseAnalyzerObjectDbDao.java
        PhraseCorpus.java
        PhraseTokenizer.java
        PrunedCounts.java
        SimplePruner.java
        StanfordPhraseAnalyzer.java
        TitleRedirectPhraseAnalyzer.java
    - test
      - java
        org
        wikibrain
        phrases
        TestPhraseAnalyzerDao.java
- wikibrain-spatial
  - src
    - main
      - java
        ags
        utils
        dataStructures
        BinaryHeap.java
        IntervalHeap.java
        MaxHeap.java
        MinHeap.java
        Pair.java
        trees
        secondGenKD
        KdTree.java
        thirdGenKD
        DistanceFunction.java
        KdNode.java
        KdTree.java
        NearestNeighborIterator.java
        SquareEuclideanDistanceFunction.java
        org
        wikibrain
        spatial
        SpatialContainerMetadata.java
        WikiBrainShapeFile.java
        constants
        Layers.java
        Precision.java
        RefSys.java
        cookbook
        AdjacentPolygonExample.java
        CalculateAllDistancePairs.java
        CalculateGeographicDistanceBetweenPages.java
        DistanceMetricsExample.java
        EasySpatialExamples.java
        GraphDistanceExample.java
        SimpleToblersLawEvaluator.java
        SpatialContainmentExample.java
        SpatialNeighborExample.java
        tflevaluate
        BipartiteEvaluatorTest.java
        DistanceMetrics.java
        KNNEvaluator.java
        Point3DDistance.java
        ToblersLawEvaluator.java
        ToblersLawEvaluatorTest.java
        TopoEvaluator.java
        dao
        SpatialContainmentDao.java
        SpatialDataDao.java
        SpatialNeighborDao.java
        postgis
        PostGISDB.java
        PostGISSpatialContainmentDao.java
        PostGISSpatialDataDao.java
        PostGISSpatialNeighborDao.java
        PostGISVersionChecker.java
        distance
        BorderingDistanceMetric.java
        GeodeticDistanceMetric.java
        GraphDistanceMetric.java
        OrdinalDistanceMetric.java
        SpatialDistanceMetric.java
        SphericalDistanceMetric.java
        loader
        SpatialDataDownloader.java
        SpatialDataFolder.java
        SpatialDataLoader.java
        WikidataLayerLoader.java
        matcher
        AbstractMatchScorer.java
        ContainsPointScorer.java
        GeoResolver.java
        InstanceOfMatchScorer.java
        MappedShapefileLoader.java
        ShapeFileMatcher.java
        WikidataValueScorer.java
        util
        ClosestPointIndex.java
        ContainmentIndex.java
        WikiBrainSpatialUtils.java
    - test
      - java
        org
        wikibrain
        spatial
        distance
        TestBorderingDistanceMetric.java
        TestGeodeticDistanceMetric.java
        TestGraphDistanceMetric.java
        TestOrdinalDistanceMetric.java
        TestSphereDistanceMetric.java
        utils
        TestClosestPointIndex.java
        TestContainmentIndex.java
- wikibrain-sr
  - src
    - main
      - java
        org
        wikibrain
        sr
        BaseSRMetric.java
        DirectLinkMetric.java
        Explanation.java
        MatrixSummarizer.java
        MetricTrainer.java
        SRBuilder.java
        SRMetric.java
        SRResult.java
        SRResultList.java
        category
        CategoryGraphSimilarity.java
        dataset
        Dataset.java
        DatasetDao.java
        FakeDatasetCreator.java
        disambig
        Disambiguator.java
        SimilarityDisambiguator.java
        TopResultConsensusDisambiguator.java
        TopResultDisambiguator.java
        ensemble
        CorrelationEnsemble.java
        Ensemble.java
        EnsembleMetric.java
        EnsembleSim.java
        EvenEnsemble.java
        Interpolator.java
        LinearEnsemble.java
        MultilingualEnsemble.java
        SimpleEnsembleMetric.java
        esa
        SRConceptSpaceGenerator.java
        evaluation
        BaseEvaluationLog.java
        ConfigMonolingualSRFactory.java
        EvaluationMain.java
        Evaluator.java
        KnownMostSim.java
        KnownSimGuess.java
        MonolingualSRFactory.java
        MostSimilarDataset.java
        MostSimilarEvaluationLog.java
        MostSimilarEvaluator.java
        MostSimilarGuess.java
        PrecisionRecallAccumulator.java
        PretrainedSRFactory.java
        QualitativeAnalyzer.java
        SimilarityEvaluationLog.java
        SimilarityEvaluator.java
        Split.java
        milnewitten
        MilneWittenDisambiguator.java
        MilneWittenMetric.java
        SimpleMilneWitten.java
        normalize
        BaseNormalizer.java
        IdentityNormalizer.java
        LoessNormalizer.java
        LogNormalizer.java
        Normalizer.java
        PercentileNormalizer.java
        RangeNormalizer.java
        RankAndScoreNormalizer.java
        phrasesim
        CosimilarityMatrix.java
        EnsemblePhraseCreator.java
        KnownPhrase.java
        KnownPhraseSim.java
        PhraseCreator.java
        PhraseSimEvaluator.java
        PhraseUtils.java
        PhraseVector.java
        SimplePhraseCreator.java
        synrank
        SynRank.java
        utils
        ExplanationFormatter.java
        KnownSim.java
        Leaderboard.java
        SimUtils.java
        SrNormalizers.java
        vector
        CosineSimilarity.java
        DenseVectorGenerator.java
        DenseVectorSRMetric.java
        ESAGenerator.java
        FancyPhraseVectorBasedSRMetric.java
        FeatureFilter.java
        GoogleSimilarity.java
        LinkGenerator.java
        MostSimilarConceptsGenerator.java
        PhraseVectorCreator.java
        SparseVectorGenerator.java
        SparseVectorSRMetric.java
        VectorSimilarity.java
        wikify
        BaseCorpusCreator.java
        Corpus.java
        IdAndText.java
        IdentityWikifier.java
        LinkInfo.java
        MilneWittenWikifier.java
        PlainTextCorpusCreator.java
        Tester.java
        WBCorpusDocReader.java
        WbCorpusLineReader.java
        WebSailWikifier.java
        WikiTextCorpusCreator.java
        Wikifier.java
        word2vec
        CorpusCreatorMain.java
        Word2Phrase.java
        Word2VecGenerator.java
        Word2VecTrainer.java
        Word2VecUtils.java
        universal
        UniversalWord2VecMain.java
    - test
      - java
        org
        wikibrain
        sr
        TestExplanation.java
        TestIdentityWikifier.java
        TestLinkGenerator.java
        TestNormalizer.java
        TestPairwiseSimilarity.java
        TestSRResult.java
        dataset
        TestDatasetDao.java
        evaluation
        TestEvaluator.java
        TestKnownMostSim.java
        TestLocalSR.java
        TestMostSimilarGuess.java
        TestSimilarityEvaluation.java
        utils
        TestSimUtils.java
        vector
        CompareDenseKnnAccelerators.java
        TestCosineSimilarity.java
        TestGoogleSimilarity.java
        wikify
        TestWBCorpusLineIterable.java
- wikibrain-utils
  - src
    - main
      - java
        jnt
        scimark2
        MonteCarlo.java
        org
        clapper
        util
        classutil
        ClassFinder.java
        wikibrain
        conf
        Configuration.java
        ConfigurationException.java
        Configurator.java
        DefaultOptionBuilder.java
        Provider.java
        ProviderFilter.java
        utils
        AtomicByteArray.java
        AtomicIntSet.java
        AtomicLongSet.java
        Function.java
        IntRangeIterator.java
        JavaProcessBuilder.java
        JvmUtils.java
        MapValueComparator.java
        MurmurHash.java
        OS.java
        ObjectDb.java
        ParallelForEach.java
        Procedure.java
        ResourceInstaller.java
        Scoreboard.java
        SevenZipBuffer.java
        SummingHashMap.java
        WbArrayUtils.java
        WbCommandLine.java
        WbMathUtils.java
        WpCollectionUtils.java
        WpIOUtils.java
        WpStringUtils.java
        WpThreadUtils.java
        ZipDir.java
    - test
      - java
        org
        wikibrain
        conf
        ConsecutiveIntProvider.java
        ConstantIntProvider.java
        OddIntProvider.java
        TestConfigurator.java
        utils
        TestAtomicByteArray.java
        TestAtomicIntSet.java
        TestAtomicLongSet.java
        TestJvmUtils.java
        TestObjectDb.java
        TestParallelForEach.java
        TestScoreboard.java
        TestWpIOUtils.java
        TestZipDir.java
- wikibrain-webapi
  - src
    - main
      - java
        org
        wikibrain
        webapi
        JSONSerializer.java
        WebEntity.java
        WebEntityParser.java
        WikiBrainServer.java
        WikiBrainWebException.java
        WikiBrainWebRequest.java
- wikibrain-wikidata
  - src
    - main
      - java
        org
        wikibrain
        wikidata
        LocalWikidataStatement.java
        RawPageWrapper.java
        WikidataDao.java
        WikidataDumpHelper.java
        WikidataDumpLoader.java
        WikidataDumpParser.java
        WikidataEntity.java
        WikidataFilter.java
        WikidataParser.java
        WikidataSqlDao.java
        WikidataStatement.java
        WikidataValue.java
    - test
      - java
        org
        wikibrain
        wikidata
        CreateTestDump.java
        TestWikidataDao.java
        TestWikidataParser.java
        TestWikidataValue.java

package org.wikibrain.phrases;

import com.google.code.externalsorting.ExternalSort;
import org.wikibrain.core.dao.DaoException;
import org.wikibrain.core.dao.LocalPageDao;
import org.wikibrain.core.lang.Language;
import org.wikibrain.core.lang.LanguageSet;
import org.wikibrain.core.lang.LocalId;
import org.wikibrain.core.lang.StringNormalizer;
import org.wikibrain.core.model.LocalPage;
import org.wikibrain.core.model.Title;
import org.wikibrain.utils.WpIOUtils;

import java.io.*;
import java.nio.charset.Charset;
import java.text.DecimalFormat;
import java.util.*;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * Base implementation of a phrase analyzer.
 * Concrete implementations extending this class need only implement a getCorpus() method.
 */
public abstract class BasePhraseAnalyzer implements PhraseAnalyzer {
    private static final Logger LOG = LoggerFactory.getLogger(PhraseAnalyzer.class);

    /**
     * An entry in the phrase corpus.
     * Some implementations may have a local id.
     * Others will only have a title.
     */
    public static class Entry {
        Language language;
        int localId = -1;
        String title = null;
        String phrase;
        int count;

        public Entry(Language language, int localId, String phrase, int count) {
            this.language = language;
            this.localId = localId;
            this.phrase = phrase;
            this.count = count;
        }

        public Entry(Language language, String title, String phrase, int count) {
            this.language = language;
            this.title = title;
            this.phrase = phrase;
            this.count = count;
        }
    }

    private final PrunedCounts.Pruner<String> phrasePruner;
    private final PrunedCounts.Pruner<Integer> pagePruner;
    private final StringNormalizer normalizer;
    protected final PhraseAnalyzerDao phraseDao;
    protected final LocalPageDao pageDao;

    public BasePhraseAnalyzer(PhraseAnalyzerDao phraseDao, LocalPageDao pageDao, PrunedCounts.Pruner<String> phrasePruner, PrunedCounts.Pruner<Integer> pagePruner) {
        this.phrasePruner = phrasePruner;
        this.pagePruner = pagePruner;
        this.phraseDao = phraseDao;
        this.pageDao = pageDao;
        this.normalizer = phraseDao.getStringNormalizer();
    }

    /**
     * Concrete implementations must override this method to determine what phrases
     * are stored.
     *
     * @return
     * @throws IOException
     * @throws DaoException
     */
    protected abstract Iterable<Entry> getCorpus(LanguageSet langs) throws IOException, DaoException;

    /**
     * Loads a specific corpus into the dao.
     *
     * @throws DaoException
     * @throws IOException
     */
    @Override
    public int loadCorpus(LanguageSet langs) throws DaoException, IOException {
        // create temp files for storing corpus entries by phrase and local id.
        // these will ultimately be sorted to group together records with the same phrase / id.
        File byWpIdFile = File.createTempFile("wp_phrases_by_id", "txt");
        byWpIdFile.deleteOnExit();
        BufferedWriter byWpId = WpIOUtils.openWriter(byWpIdFile);
        File byPhraseFile = File.createTempFile("wp_phrases_by_phrase", "txt");
        byPhraseFile.deleteOnExit();
        BufferedWriter byPhrase = WpIOUtils.openWriter(byPhraseFile);

        // Iterate over each entry in the corpus.
        // Throws away entries in languages we don't care about.
        // Resolve titles to ids if necessary.
        // Write entries to the by phrase / id files.
        long numEntries = 0;
        long numEntriesRetained = 0;
        for (Entry e : getCorpus(langs)) {
            if (++numEntries % 1000000 == 0) {
                double p = 100.0 * numEntriesRetained / numEntries;
                LOG.info("processing entry: " + numEntries +
                        ", retained " + numEntriesRetained +
                        "(" + new DecimalFormat("#.#").format(p) + "%)");
            }
            if (!langs.containsLanguage(e.language)) {
                continue;
            }
            if (e.phrase == null || e.phrase.trim().isEmpty()) {
                continue;
            }
            if (e.title != null && e.localId < 0) {
                int localId = pageDao.getIdByTitle(new Title(e.title, e.language));
                e.localId = (localId <= 0) ? -1 : localId;
            }
            if (e.localId < 0) {
                continue;
            }
            numEntriesRetained++;
            e.phrase = e.phrase.replace("\n", " ").replace("\t", " ");
            // phrase is last because it may contain tabs.
            String line = e.language.getLangCode() + "\t" + e.localId + "\t" + e.count + "\t" + e.phrase + "\n";
            byPhrase.write(e.language.getLangCode() + ":" + normalize(e.language, e.phrase) + "\t" + line);
            byWpId.write(e.language.getLangCode() + ":" + e.localId + "\t" + line);
        }
        byWpId.close();
        byPhrase.close();

        // sort phrases by phrase / id and load them
        sortInPlace(byWpIdFile);
        loadFromFile(RecordType.PAGES, byWpIdFile, phrasePruner);
        sortInPlace(byPhraseFile);
        loadFromFile(RecordType.PHRASES, byPhraseFile, pagePruner);

        phraseDao.close();

        return (int) Math.min(Integer.MAX_VALUE, numEntriesRetained);
    }

    /**
     * Uses the string's normalizer, but replaces adjacent whitespace white a single space
     * @param lang
     * @param text
     * @return
     */
    private String normalize(Language lang, String text) {
        return normalizer.normalize(lang, text).replaceAll("\\s+", " ");
    }

    private static enum RecordType {
        PAGES, PHRASES
    }

    protected void loadFromFile(RecordType ltype, File input, PrunedCounts.Pruner pruner) throws IOException, DaoException {
        BufferedReader reader = WpIOUtils.openBufferedReader(input);
        String lastKey = null;

        int maxBufferSize = 1000;
        List<Entry> buffer = new ArrayList<Entry>();

        while (true) {
            String line = reader.readLine();
            if (line == null) {
                break;
            }
            String tokens[] = line.split("\t", 5);
            if (tokens.length != 5) {
                LOG.warn("invalid line in file " + input + ": " + line);
                continue;
            }

            // if new id, write out buffer and clear it
            if (lastKey != null && !tokens[0].equals(lastKey)) {
                if (ltype == RecordType.PAGES) {
                    writePage(buffer, pruner);
                } else {
                    writePhrase(buffer, pruner);
                }
                buffer.clear();
            }
            Entry e = new Entry(
                    Language.getByLangCode(tokens[1]),
                    new Integer(tokens[2]),
                    tokens[4],
                    new Integer(tokens[3])
            );
            buffer.add(e);
            if (buffer.size() > maxBufferSize * 3 / 2) {
                LOG.warn("large buffer observed: " + buffer.size() + " for string " + lastKey);
                maxBufferSize = buffer.size();
            }
            lastKey = tokens[0];
        }
        if (ltype == RecordType.PAGES) {
            writePage(buffer, pruner);
        } else {
            writePhrase(buffer, pruner);
        }
    }

    protected void writePage(List<Entry> pageCounts, PrunedCounts.Pruner pruner) throws DaoException {
        if (pageCounts.isEmpty()) {
            return;
        }
        Language lang = pageCounts.get(0).language;
        int wpId = pageCounts.get(0).localId;
        Map<String, Integer> counts = new HashMap<String, Integer>();
        for (Entry e : pageCounts) {
            if (e.localId != wpId) throw new IllegalStateException();
            if (e.language != lang) throw new IllegalStateException();
            if (counts.containsKey(e.phrase)) {
                counts.put(e.phrase, counts.get(e.phrase) + e.count);
            } else {
                counts.put(e.phrase, e.count);
            }
        }
        PrunedCounts<String> pruned = pruner.prune(counts);
        if (pruned != null) {
            phraseDao.savePageCounts(lang, wpId, pruned);
        }
    }

    protected void writePhrase(List<Entry> pageCounts, PrunedCounts.Pruner pruner) throws DaoException {
        if (pageCounts.isEmpty()) {
            return;
        }
        Language lang = pageCounts.get(0).language;
        String phrase = normalize(lang, pageCounts.get(0).phrase);
        Map<Integer, Integer> counts = new HashMap<Integer, Integer>();
        for (Entry e : pageCounts) {
            if (!normalize(lang, e.phrase).equals(phrase)) {
                LOG.warn("disagreement between phrases " + phrase + " and " + e.phrase);
            }
            if (e.language != lang) {
                LOG.warn("disagreement between languages " + lang+ " and " + e.language);
            }
            if (counts.containsKey(e.localId)) {
                counts.put(e.localId, counts.get(e.localId) + e.count);
            } else {
                counts.put(e.localId, e.count);
            }
        }
        PrunedCounts<Integer> pruned = pruner.prune(counts);
        if (pruned != null) {
            phraseDao.savePhraseCounts(lang, phrase, pruned);
        }
    }

    private void sortInPlace(File file) throws IOException {
        int maxFiles = Math.max(100, (int) (file.length() / (Runtime.getRuntime().maxMemory() / 20)));
        LOG.info("sorting " + file + " using max of " + maxFiles);
        Comparator<String> comparator = new Comparator<String>() {
            public int compare(String r1, String r2){
                return r1.compareTo(r2);}};
        List<File> l = ExternalSort.sortInBatch(file, comparator, maxFiles, Charset.forName("utf-8"), null, false);
        LOG.info("merging " + file);
        ExternalSort.mergeSortedFiles(l, file, comparator, Charset.forName("utf-8"));
        LOG.info("finished sorting" + file);
    }


    @Override
    public LinkedHashMap<String, Float> describe(Language language, LocalPage page, int maxPhrases) throws DaoException {
        LinkedHashMap<String, Float> result = new LinkedHashMap<String, Float>();
        PrunedCounts<String> counts = phraseDao.getPageCounts(language, page.getLocalId(), maxPhrases);
        if (counts == null) {
            return null;
        }
        for (String phrase : counts.keySet()) {
            result.put(phrase, (float)1.0 * counts.get(phrase) / counts.getTotal());
            if (result.size() >= maxPhrases) {
                break;
            }
        }
        return result;
    }

    @Override
    public LinkedHashMap<LocalId, Float> resolve(Language language, String phrase, int maxPages) throws DaoException {
        LinkedHashMap<LocalId, Float> result = new LinkedHashMap<LocalId, Float>();
        PrunedCounts<Integer> counts = phraseDao.getPhraseCounts(language, phrase, maxPages);
        if (counts == null) {
            return null;
        }
        for (Integer wpId : counts.keySet()) {
            result.put(new LocalId(language, wpId),
                    (float)1.0 * counts.get(wpId) / counts.getTotal());
            if (result.size() >= maxPages) {
                break;
            }
        }
        return result;
    }

    public PhraseAnalyzerDao getDao() {
        return phraseDao;
    }

}