BaseCorpusCreator.java example

Explorer

wikibrain-master
- wikibrain-cookbook
  - src
    - main
      - java
        org
        wikibrain
        cookbook
        Quickstart.java
        concepts
        TranslateConcept.java
        core
        CategoryExample.java
        CompareLocalLinkDaos.java
        ConceptExample.java
        LocalLinkLiveDaoExample.java
        LocalLinkTimer.java
        LocalPageLiveDaoExample.java
        ShowAnchorText.java
        TestFetchSize.java
        TraverseWithConceptualign.java
        UniversalLinkExplorer.java
        UniversalPageDaoExample.java
        pageview
        CategoryViews.java
        CountryPageViews.java
        PageViewExample.java
        phrases
        CheckHashCollisions.java
        DescribeExample.java
        ResolveExample.java
        spatial
        CountryDistances.java
        Distances.java
        sr
        CosimilartyExample.java
        MostSimilarDatasetExample.java
        MostSimilarExample.java
        SimilarMovies.java
        SimilarityExample.java
        SimilarityExample2.java
        WikifierExample.java
        wikidata
        BerlinExample.java
        ShowStatements.java
    - test
      - java
        org
        wikibrain
        cookbook
        Sandbox.java
- wikibrain-core
  - src
    - main
      - java
        org
        wikibrain
        core
        WikiBrainException.java
        cmd
        Env.java
        EnvBuilder.java
        FileMatcher.java
        package-info.java
        dao
        Dao.java
        DaoException.java
        DaoFilter.java
        InterLanguageLinkDao.java
        LocalCategoryMemberDao.java
        LocalLinkDao.java
        LocalPageDao.java
        MetaInfoDao.java
        RawPageDao.java
        RedirectDao.java
        UniversalLinkDao.java
        UniversalPageDao.java
        live
        LiveAPIQuery.java
        LocalCategoryMemberLiveDao.java
        LocalLinkLiveDao.java
        LocalPageLiveDao.java
        QueryParser.java
        QueryReply.java
        RedirectLiveDao.java
        matrix
        MatrixLocalLinkDao.java
        sql
        AbstractSqlDao.java
        CategoryBfs.java
        CategoryDistance.java
        FastLoader.java
        InterLanguageLinkSqlDao.java
        JooqUtils.java
        LocalCategoryGraphBuilder.java
        LocalCategoryMemberSqlDao.java
        LocalLinkSqlDao.java
        LocalPageSqlDao.java
        MetaInfoSqlDao.java
        RawPageSqlDao.java
        RedirectSqlDao.java
        SimpleSqlDaoIterable.java
        SqlCache.java
        SqlDaoIterable.java
        TestDaoUtil.java
        UniversalLinkSkeletalSqlDao.java
        UniversalLinkSqlDao.java
        UniversalPageSqlDao.java
        WpDataSource.java
        lang
        IdentityStringNormalizer.java
        Language.java
        LanguageInfo.java
        LanguageSet.java
        LocalId.java
        LocalString.java
        StringNormalizer.java
        UniversalId.java
        model
        AbstractUniversalEntity.java
        CategoryGraph.java
        InterLanguageLink.java
        LocalCategoryMember.java
        LocalLink.java
        LocalPage.java
        MetaInfo.java
        NameSpace.java
        RawPage.java
        Redirect.java
        Title.java
        UniversalLink.java
        UniversalLinkGroup.java
        UniversalPage.java
        nlp
        Dictionary.java
        NGramCreator.java
        StringTokenizer.java
        Token.java
    - test
      - java
        org
        wikibrain
        core
        cmd
        FileMatcherTest.java
        dao
        BenchmarkFastLoader.java
        DaoIntegrationTest.java
        TestDaoFilter.java
        TestInterLanguageLinkSqlDao.java
        TestLocalCategoryMemberDao.java
        TestLocalLinkDao.java
        TestLocalLinkDao2.java
        TestLocalLinkDao3.java
        TestLocalPageDao.java
        TestMetaInfoDao.java
        TestRawPageDao.java
        TestRedirectDao.java
        TestSqlCache.java
        TestWpDataSource.java
        lang
        TestLangStorage.java
        TestLanguage.java
        TestLanguageInfo.java
        TestLocalId.java
        model
        TestNameSpace.java
        TestTitle.java
        nlp
        DictionaryBenchmarker.java
        DictionaryTest.java
- wikibrain-download
  - src
    - main
      - java
        org
        wikibrain
        download
        DumpFileDownloader.java
        DumpLinkCluster.java
        DumpLinkGetter.java
        DumpLinkInfo.java
        FileDownloader.java
        RequestedLinkGetter.java
    - test
      - java
        org
        wikibrain
        download
        TestFileDownloader.java
- wikibrain-integration-tests
  - src
    - test
      - java
        org
        wikibrain
        integration
        DownloadIT.java
        DumpIT.java
        LocalEnsembleSRIT.java
        LocalPageDaoIT.java
        LocalSRMetricIT.java
        LuceneIT.java
        LuceneLoaderIT.java
        PhraseLoaderIT.java
        RawPageDaoIT.java
        RedirectIT.java
        RedirectLoaderIT.java
        TestDB.java
        TestUtils.java
        WikiTextLoaderIT.java
- wikibrain-loader
  - src
    - main
      - java
        org
        wikibrain
        GuiLoader.java
        Loader.java
        loader
        ConceptLoader.java
        DumpLoader.java
        GraphicLoader.java
        InterLanguageLinkExtractor.java
        LoadedStats.java
        LocalLinkSet.java
        LuceneLoader.java
        PhraseLoader.java
        RedirectLoader.java
        SqlLinksLoader.java
        UniversalLinkLoader.java
        WikiTextLoader.java
        pipeline
        CpuBenchmarker.java
        DiagnosticDao.java
        DiagnosticReport.java
        LoadTimeEstimator.java
        PipelineLoader.java
        PipelineStage.java
        StageArgs.java
        StageDiagnostic.java
        StageFailedException.java
    - test
      - java
        BenchLevelDB.java
        BlockingQueueTest.java
        TestLinkResolver.java
- wikibrain-lucene
  - src
    - main
      - java
        org
        wikibrain
        lucene
        LuceneIndexer.java
        LuceneOptions.java
        LuceneSearcher.java
        LuceneStringNormalizer.java
        QueryBuilder.java
        TextFieldBuilder.java
        TextFieldElements.java
        TokenizerOptions.java
        WikiBrainAnalyzer.java
        WikiBrainScoreDoc.java
        WpIdFilter.java
        tokenizers
        ArabicTokenizer.java
        ArmenianTokenizer.java
        BasqueTokenizer.java
        BulgarianTokenizer.java
        CatalanTokenizer.java
        ChineseTokenizer.java
        CzechTokenizer.java
        DanishTokenizer.java
        DefaultTokenizer.java
        DutchTokenizer.java
        EnglishTokenizer.java
        FinnishTokenizer.java
        FrenchTokenizer.java
        GalicianTokenizer.java
        GermanTokenizer.java
        GreekTokenizer.java
        HebrewTokenizer.java
        HindiTokenizer.java
        HungarianTokenizer.java
        IndonesianTokenizer.java
        IrishTokenizer.java
        ItalianTokenizer.java
        JapaneseTokenizer.java
        KoreanTokenizer.java
        LadinoTokenizer.java
        LanguageTokenizer.java
        LatvianTokenizer.java
        NorwegianTokenizer.java
        PersianTokenizer.java
        PolishTokenizer.java
        PortugueseTokenizer.java
        RomanianTokenizer.java
        RussianTokenizer.java
        SlovakTokenizer.java
        SpanishTokenizer.java
        SwedishTokenizer.java
        ThaiTokenizer.java
        TurkishTokenizer.java
        UkrainianTokenizer.java
    - test
      - java
        TestLanguageTokenizer.java
        TestLuceneNormalizer.java
        TestLuceneSearcher.java
- wikibrain-mapper
  - src
    - main
      - java
        org
        wikibrain
        mapper
        ConceptMapper.java
        MapperIterator.java
        algorithms
        MonolingualConceptMapper.java
        PureWikidataConceptMapper.java
        conceptualign3
        ClusterResult.java
        CombinedIllDao.java
        Conceptualign3ConnectedComponentHandler.java
        ConceptualignConceptMapper.java
        ConceptualignHelper.java
        ConnectedComponentHandler.java
        ConnectedComponentTraversalListener.java
        ILLEdge.java
        ILLGraph.java
        ILLSplitter.java
        SummingHashMap.java
- wikibrain-matrix
  - src
    - main
      - java
        org
        wikibrain
        matrix
        BaseMatrixRow.java
        DenseMatrix.java
        DenseMatrixRow.java
        DenseMatrixWriter.java
        InMemorySparseMatrix.java
        IntSorter.java
        Matrix.java
        MatrixRow.java
        MemoryMappedMatrix.java
        SparseMatrix.java
        SparseMatrixRow.java
        SparseMatrixSorter.java
        SparseMatrixTransposer.java
        SparseMatrixUtils.java
        SparseMatrixWriter.java
        ValueConf.java
        knn
        BruteForceKNNFinder.java
        KDTreeKNN.java
        KNNFinder.java
        KmeansKNNFinder.java
        LSHForestKNNFinder.java
        Neighborhood.java
        NeighborhoodAccumulator.java
        RandomProjectionKNNFinder.java
    - test
      - java
        org
        wikibrain
        matrix
        BenchBuffers.java
        TestDenseMatrix.java
        TestDenseMatrixRow.java
        TestSparseMatrix.java
        TestSparseMatrixRow.java
        TestUtils.java
        knn
        BenchBruteForce.java
        TestKDDNNFinder.java
        TestKMeansNNFinder.java
        TestLSHForestNNFinder.java
        TestLSHNNFinder.java
        TestUtils.java
- wikibrain-pageview
  - src
    - main
      - java
        org
        wikibrain
        pageview
        PageView.java
        PageViewDao.java
        PageViewDaoFilter.java
        PageViewDataStruct.java
        PageViewDownloader.java
        PageViewLoader.java
        PageViewReader.java
        PageViewSqlDao.java
        PageViewUtils.java
        RawPageView.java
    - test
      - java
        org
        wikibrain
        pageview
        TestPageViewUtils.java
- wikibrain-parser
  - src
    - main
      - java
        org
        wikibrain
        parser
        DumpSplitter.java
        WpParseException.java
        sql
        MySqlDumpParser.java
        wiki
        InterLanguageLinkVisitor.java
        LocalCategoryVisitor.java
        LocalLinkVisitor.java
        MarkupStripper.java
        ParsedCategory.java
        ParsedEntity.java
        ParsedIll.java
        ParsedLink.java
        ParsedLocation.java
        ParsedRedirect.java
        ParserVisitor.java
        RedirectParser.java
        SubarticleParser.java
        WikiTextDumpParser.java
        WikiTextParser.java
        WikitextRenderer.java
        xml
        DumpPageXmlParser.java
        PageXmlParser.java
    - test
      - java
        org
        wikibrain
        parser
        TestDumpPageParser.java
        TestDumpSplitter.java
        TestMysqlDumpParser.java
        TestWikiTextDumpParser.java
        TestXMLParser.java
- wikibrain-phrases
  - src
    - main
      - java
        org
        wikibrain
        phrases
        AnchorTextPhraseAnalyzer.java
        BasePhraseAnalyzer.java
        CascadingAnalyzer.java
        LinkProbabilityDao.java
        LucenePhraseAnalyzer.java
        NormalizedStringPruner.java
        OldLucenePhraseAnalyzer.java
        PhraseAnalyzer.java
        PhraseAnalyzerDao.java
        PhraseAnalyzerLangDao.java
        PhraseAnalyzerObjectDbDao.java
        PhraseCorpus.java
        PhraseTokenizer.java
        PrunedCounts.java
        SimplePruner.java
        StanfordPhraseAnalyzer.java
        TitleRedirectPhraseAnalyzer.java
    - test
      - java
        org
        wikibrain
        phrases
        TestPhraseAnalyzerDao.java
- wikibrain-spatial
  - src
    - main
      - java
        ags
        utils
        dataStructures
        BinaryHeap.java
        IntervalHeap.java
        MaxHeap.java
        MinHeap.java
        Pair.java
        trees
        secondGenKD
        KdTree.java
        thirdGenKD
        DistanceFunction.java
        KdNode.java
        KdTree.java
        NearestNeighborIterator.java
        SquareEuclideanDistanceFunction.java
        org
        wikibrain
        spatial
        SpatialContainerMetadata.java
        WikiBrainShapeFile.java
        constants
        Layers.java
        Precision.java
        RefSys.java
        cookbook
        AdjacentPolygonExample.java
        CalculateAllDistancePairs.java
        CalculateGeographicDistanceBetweenPages.java
        DistanceMetricsExample.java
        EasySpatialExamples.java
        GraphDistanceExample.java
        SimpleToblersLawEvaluator.java
        SpatialContainmentExample.java
        SpatialNeighborExample.java
        tflevaluate
        BipartiteEvaluatorTest.java
        DistanceMetrics.java
        KNNEvaluator.java
        Point3DDistance.java
        ToblersLawEvaluator.java
        ToblersLawEvaluatorTest.java
        TopoEvaluator.java
        dao
        SpatialContainmentDao.java
        SpatialDataDao.java
        SpatialNeighborDao.java
        postgis
        PostGISDB.java
        PostGISSpatialContainmentDao.java
        PostGISSpatialDataDao.java
        PostGISSpatialNeighborDao.java
        PostGISVersionChecker.java
        distance
        BorderingDistanceMetric.java
        GeodeticDistanceMetric.java
        GraphDistanceMetric.java
        OrdinalDistanceMetric.java
        SpatialDistanceMetric.java
        SphericalDistanceMetric.java
        loader
        SpatialDataDownloader.java
        SpatialDataFolder.java
        SpatialDataLoader.java
        WikidataLayerLoader.java
        matcher
        AbstractMatchScorer.java
        ContainsPointScorer.java
        GeoResolver.java
        InstanceOfMatchScorer.java
        MappedShapefileLoader.java
        ShapeFileMatcher.java
        WikidataValueScorer.java
        util
        ClosestPointIndex.java
        ContainmentIndex.java
        WikiBrainSpatialUtils.java
    - test
      - java
        org
        wikibrain
        spatial
        distance
        TestBorderingDistanceMetric.java
        TestGeodeticDistanceMetric.java
        TestGraphDistanceMetric.java
        TestOrdinalDistanceMetric.java
        TestSphereDistanceMetric.java
        utils
        TestClosestPointIndex.java
        TestContainmentIndex.java
- wikibrain-sr
  - src
    - main
      - java
        org
        wikibrain
        sr
        BaseSRMetric.java
        DirectLinkMetric.java
        Explanation.java
        MatrixSummarizer.java
        MetricTrainer.java
        SRBuilder.java
        SRMetric.java
        SRResult.java
        SRResultList.java
        category
        CategoryGraphSimilarity.java
        dataset
        Dataset.java
        DatasetDao.java
        FakeDatasetCreator.java
        disambig
        Disambiguator.java
        SimilarityDisambiguator.java
        TopResultConsensusDisambiguator.java
        TopResultDisambiguator.java
        ensemble
        CorrelationEnsemble.java
        Ensemble.java
        EnsembleMetric.java
        EnsembleSim.java
        EvenEnsemble.java
        Interpolator.java
        LinearEnsemble.java
        MultilingualEnsemble.java
        SimpleEnsembleMetric.java
        esa
        SRConceptSpaceGenerator.java
        evaluation
        BaseEvaluationLog.java
        ConfigMonolingualSRFactory.java
        EvaluationMain.java
        Evaluator.java
        KnownMostSim.java
        KnownSimGuess.java
        MonolingualSRFactory.java
        MostSimilarDataset.java
        MostSimilarEvaluationLog.java
        MostSimilarEvaluator.java
        MostSimilarGuess.java
        PrecisionRecallAccumulator.java
        PretrainedSRFactory.java
        QualitativeAnalyzer.java
        SimilarityEvaluationLog.java
        SimilarityEvaluator.java
        Split.java
        milnewitten
        MilneWittenDisambiguator.java
        MilneWittenMetric.java
        SimpleMilneWitten.java
        normalize
        BaseNormalizer.java
        IdentityNormalizer.java
        LoessNormalizer.java
        LogNormalizer.java
        Normalizer.java
        PercentileNormalizer.java
        RangeNormalizer.java
        RankAndScoreNormalizer.java
        phrasesim
        CosimilarityMatrix.java
        EnsemblePhraseCreator.java
        KnownPhrase.java
        KnownPhraseSim.java
        PhraseCreator.java
        PhraseSimEvaluator.java
        PhraseUtils.java
        PhraseVector.java
        SimplePhraseCreator.java
        synrank
        SynRank.java
        utils
        ExplanationFormatter.java
        KnownSim.java
        Leaderboard.java
        SimUtils.java
        SrNormalizers.java
        vector
        CosineSimilarity.java
        DenseVectorGenerator.java
        DenseVectorSRMetric.java
        ESAGenerator.java
        FancyPhraseVectorBasedSRMetric.java
        FeatureFilter.java
        GoogleSimilarity.java
        LinkGenerator.java
        MostSimilarConceptsGenerator.java
        PhraseVectorCreator.java
        SparseVectorGenerator.java
        SparseVectorSRMetric.java
        VectorSimilarity.java
        wikify
        BaseCorpusCreator.java
        Corpus.java
        IdAndText.java
        IdentityWikifier.java
        LinkInfo.java
        MilneWittenWikifier.java
        PlainTextCorpusCreator.java
        Tester.java
        WBCorpusDocReader.java
        WbCorpusLineReader.java
        WebSailWikifier.java
        WikiTextCorpusCreator.java
        Wikifier.java
        word2vec
        CorpusCreatorMain.java
        Word2Phrase.java
        Word2VecGenerator.java
        Word2VecTrainer.java
        Word2VecUtils.java
        universal
        UniversalWord2VecMain.java
    - test
      - java
        org
        wikibrain
        sr
        TestExplanation.java
        TestIdentityWikifier.java
        TestLinkGenerator.java
        TestNormalizer.java
        TestPairwiseSimilarity.java
        TestSRResult.java
        dataset
        TestDatasetDao.java
        evaluation
        TestEvaluator.java
        TestKnownMostSim.java
        TestLocalSR.java
        TestMostSimilarGuess.java
        TestSimilarityEvaluation.java
        utils
        TestSimUtils.java
        vector
        CompareDenseKnnAccelerators.java
        TestCosineSimilarity.java
        TestGoogleSimilarity.java
        wikify
        TestWBCorpusLineIterable.java
- wikibrain-utils
  - src
    - main
      - java
        jnt
        scimark2
        MonteCarlo.java
        org
        clapper
        util
        classutil
        ClassFinder.java
        wikibrain
        conf
        Configuration.java
        ConfigurationException.java
        Configurator.java
        DefaultOptionBuilder.java
        Provider.java
        ProviderFilter.java
        utils
        AtomicByteArray.java
        AtomicIntSet.java
        AtomicLongSet.java
        Function.java
        IntRangeIterator.java
        JavaProcessBuilder.java
        JvmUtils.java
        MapValueComparator.java
        MurmurHash.java
        OS.java
        ObjectDb.java
        ParallelForEach.java
        Procedure.java
        ResourceInstaller.java
        Scoreboard.java
        SevenZipBuffer.java
        SummingHashMap.java
        WbArrayUtils.java
        WbCommandLine.java
        WbMathUtils.java
        WpCollectionUtils.java
        WpIOUtils.java
        WpStringUtils.java
        WpThreadUtils.java
        ZipDir.java
    - test
      - java
        org
        wikibrain
        conf
        ConsecutiveIntProvider.java
        ConstantIntProvider.java
        OddIntProvider.java
        TestConfigurator.java
        utils
        TestAtomicByteArray.java
        TestAtomicIntSet.java
        TestAtomicLongSet.java
        TestJvmUtils.java
        TestObjectDb.java
        TestParallelForEach.java
        TestScoreboard.java
        TestWpIOUtils.java
        TestZipDir.java
- wikibrain-webapi
  - src
    - main
      - java
        org
        wikibrain
        webapi
        JSONSerializer.java
        WebEntity.java
        WebEntityParser.java
        WikiBrainServer.java
        WikiBrainWebException.java
        WikiBrainWebRequest.java
- wikibrain-wikidata
  - src
    - main
      - java
        org
        wikibrain
        wikidata
        LocalWikidataStatement.java
        RawPageWrapper.java
        WikidataDao.java
        WikidataDumpHelper.java
        WikidataDumpLoader.java
        WikidataDumpParser.java
        WikidataEntity.java
        WikidataFilter.java
        WikidataParser.java
        WikidataSqlDao.java
        WikidataStatement.java
        WikidataValue.java
    - test
      - java
        org
        wikibrain
        wikidata
        CreateTestDump.java
        TestWikidataDao.java
        TestWikidataParser.java
        TestWikidataValue.java

package org.wikibrain.sr.wikify;

import gnu.trove.TCollections;
import gnu.trove.list.TIntList;
import gnu.trove.list.array.TIntArrayList;
import gnu.trove.map.TIntObjectMap;
import gnu.trove.map.hash.TIntObjectHashMap;
import gnu.trove.set.TIntSet;
import gnu.trove.set.hash.TIntHashSet;
import org.apache.commons.io.FileUtils;
import org.apache.commons.lang3.StringUtils;
import org.wikibrain.core.dao.DaoException;
import org.wikibrain.core.dao.LocalPageDao;
import org.wikibrain.core.lang.Language;
import org.wikibrain.core.model.LocalLink;
import org.wikibrain.core.model.LocalPage;
import org.wikibrain.core.nlp.Dictionary;
import org.wikibrain.core.nlp.StringTokenizer;
import org.wikibrain.core.nlp.Token;
import org.wikibrain.phrases.LinkProbabilityDao;
import org.wikibrain.phrases.PhraseTokenizer;
import org.wikibrain.utils.ParallelForEach;
import org.wikibrain.utils.Procedure;
import org.wikibrain.utils.WpIOUtils;
import org.wikibrain.utils.WpThreadUtils;

import java.io.BufferedWriter;
import java.io.File;
import java.io.IOException;
import java.util.*;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

/**
 * @author Shilad Sen
 */
public abstract class BaseCorpusCreator {
    private static final Logger LOG = LoggerFactory.getLogger(BaseCorpusCreator.class);

    private final Language language;
    private final StringTokenizer tokenizer = new StringTokenizer();

    private final Wikifier wikifier;
    private final LocalPageDao pageDao;
    private Dictionary dictionary;
    private BufferedWriter corpus;
    private TIntObjectMap<String> mentionUrls = TCollections.synchronizedMap(new TIntObjectHashMap<String>());

    private boolean joinPhrases = true;
    private final PhraseTokenizer phraseTokenizer;

    public BaseCorpusCreator(Language language, LocalPageDao pageDao, Wikifier wikifier, LinkProbabilityDao linkProbDao) {
        this.language = language;
        this.pageDao = pageDao;
        this.wikifier = wikifier;
        this.phraseTokenizer = new PhraseTokenizer(linkProbDao);
    }

    /**
     * @return A list of Strings in the corpus.
     * Each string should be at least sentence granularity.
     * They could be a higher level (paragraph, document).
     */
    public abstract Iterator<IdAndText> getCorpus() throws DaoException;

    public void write(File dir) throws IOException, DaoException {
        if (dir.exists()) {
            FileUtils.deleteQuietly(dir);
        }
        dir.mkdirs();
        dictionary = new Dictionary(language, Dictionary.WordStorage.ON_DISK);
        corpus = WpIOUtils.openWriter(new File(dir, "corpus.txt"));
        corpus.write(String.format("@WikiBrainCorpus\t%s\t%s\t%s\t%s\n",
                this.language.getLangCode(),
                this.getClass().getName(),
                wikifier.getClass().getName(),
                new Date().toString()
            ));
        ParallelForEach.iterate(getCorpus(), new Procedure<IdAndText>() {
            @Override
            public void call(IdAndText text) throws Exception {
                processText(text);
            }
        }, 10000);
        corpus.close();
        dictionary.write(new File(dir, "dictionary.txt"));
    }

    private void processText(IdAndText text) throws IOException, DaoException {
        List<LocalLink> mentions;
        if (text.getId() >= 0) {
            mentions = wikifier.wikify(text.getId(), text.getText());
        } else {
            mentions = wikifier.wikify(text.getText());
        }
        LocalPage page = pageDao.getById(language, text.getId());
        String title = (page == null) ? "Unknown" : page.getTitle().getCanonicalTitle();
        StringBuilder document = new StringBuilder();
        document.append("\n@WikiBrainDoc\t" + text.getId() + "\t" + title + "\n");

        for (Token sentence : tokenizer.getSentenceTokens(language, text.getText())) {
            List<String> tokens = addMentions(sentence, mentions);
            if (tokens == null) {
                continue;
            }
            String finalSentence = joinPhrases(tokens);
            document.append(finalSentence);
            document.append('\n');
            dictionary.countNormalizedText(finalSentence);
        }
        synchronized (corpus) {
            corpus.write(document.toString() + "\n");
        }
    }

    private String joinPhrases(List<String> words) throws DaoException {
        if (words.isEmpty()) {
            return null;
        }
        StringBuilder buffer = new StringBuilder();
        for (String phrase : phraseTokenizer.makePhrases(language, words)) {
            if (buffer.length() > 0) buffer.append(' ');
            buffer.append(phrase.replaceAll(" ", "_"));
        }
        return buffer.toString();
    }

    private List<String> addMentions(Token sentence, List<LocalLink> mentions) throws IOException, DaoException {
        List<Token> words = tokenizer.getWordTokens(language, sentence);
        if (words.isEmpty()) {
            return null;
        }

        // Accumulators
        List<String> line = new ArrayList<String>();

        // Process each word token
        // Warning: If mentions do not align with sentence tokens, this will break...
        for (int m = 0, w = 0; w < words.size(); w++) {
            Token token = words.get(w);

            // Advance mention while it starts before the current token
            while (m < mentions.size() && mentions.get(m).getLocation() < token.getBegin()) {
                m++;
            }

            String phrase = token.getToken();

            // If start of mention occurs in token, advance tokens as necessary
            if (m < mentions.size() && mentions.get(m).getLocation() < token.getEnd()) {
                int end = mentions.get(m).getLocation() + mentions.get(m).getAnchorText().length();

                // While next word begins before mention ends, append next word
                while (w+1 < words.size() && words.get(w+1).getBegin() < end) {
                    if (phrase.length() > 0) {
                        phrase += "_";
                    }
                    w++;
                    phrase += words.get(w).getToken();
                }
                phrase += ":" + getMentionUrl(mentions.get(m).getDestId());
            }

            phrase = phrase.trim();
            if (phrase.length() == 0) {
                continue;
            }
            if (phrase.contains("\n")) {
                throw new IllegalStateException();
            }
            line.add(phrase);
        }

        return line;
    }

    private String getMentionUrl(int wpId) throws DaoException {
        if (!mentionUrls.containsKey(wpId)) {
            LocalPage page = pageDao.getById(language, wpId);
            if (page == null) {
                mentionUrls.put(wpId, "/w/" + language.getLangCode() + "/-1/Unknown_page");
            } else {
                mentionUrls.put(wpId, page.getCompactUrl());
            }
        }
        return mentionUrls.get(wpId);
    }

    public void setJoinPhrases(boolean joinPhrases) {
        this.joinPhrases = joinPhrases;
    }
}