MarkupStripper.java example

Explorer

wikibrain-master
- wikibrain-cookbook
  - src
    - main
      - java
        org
        wikibrain
        cookbook
        Quickstart.java
        concepts
        TranslateConcept.java
        core
        CategoryExample.java
        CompareLocalLinkDaos.java
        ConceptExample.java
        LocalLinkLiveDaoExample.java
        LocalLinkTimer.java
        LocalPageLiveDaoExample.java
        ShowAnchorText.java
        TestFetchSize.java
        TraverseWithConceptualign.java
        UniversalLinkExplorer.java
        UniversalPageDaoExample.java
        pageview
        CategoryViews.java
        CountryPageViews.java
        PageViewExample.java
        phrases
        CheckHashCollisions.java
        DescribeExample.java
        ResolveExample.java
        spatial
        CountryDistances.java
        Distances.java
        sr
        CosimilartyExample.java
        MostSimilarDatasetExample.java
        MostSimilarExample.java
        SimilarMovies.java
        SimilarityExample.java
        SimilarityExample2.java
        WikifierExample.java
        wikidata
        BerlinExample.java
        ShowStatements.java
    - test
      - java
        org
        wikibrain
        cookbook
        Sandbox.java
- wikibrain-core
  - src
    - main
      - java
        org
        wikibrain
        core
        WikiBrainException.java
        cmd
        Env.java
        EnvBuilder.java
        FileMatcher.java
        package-info.java
        dao
        Dao.java
        DaoException.java
        DaoFilter.java
        InterLanguageLinkDao.java
        LocalCategoryMemberDao.java
        LocalLinkDao.java
        LocalPageDao.java
        MetaInfoDao.java
        RawPageDao.java
        RedirectDao.java
        UniversalLinkDao.java
        UniversalPageDao.java
        live
        LiveAPIQuery.java
        LocalCategoryMemberLiveDao.java
        LocalLinkLiveDao.java
        LocalPageLiveDao.java
        QueryParser.java
        QueryReply.java
        RedirectLiveDao.java
        matrix
        MatrixLocalLinkDao.java
        sql
        AbstractSqlDao.java
        CategoryBfs.java
        CategoryDistance.java
        FastLoader.java
        InterLanguageLinkSqlDao.java
        JooqUtils.java
        LocalCategoryGraphBuilder.java
        LocalCategoryMemberSqlDao.java
        LocalLinkSqlDao.java
        LocalPageSqlDao.java
        MetaInfoSqlDao.java
        RawPageSqlDao.java
        RedirectSqlDao.java
        SimpleSqlDaoIterable.java
        SqlCache.java
        SqlDaoIterable.java
        TestDaoUtil.java
        UniversalLinkSkeletalSqlDao.java
        UniversalLinkSqlDao.java
        UniversalPageSqlDao.java
        WpDataSource.java
        lang
        IdentityStringNormalizer.java
        Language.java
        LanguageInfo.java
        LanguageSet.java
        LocalId.java
        LocalString.java
        StringNormalizer.java
        UniversalId.java
        model
        AbstractUniversalEntity.java
        CategoryGraph.java
        InterLanguageLink.java
        LocalCategoryMember.java
        LocalLink.java
        LocalPage.java
        MetaInfo.java
        NameSpace.java
        RawPage.java
        Redirect.java
        Title.java
        UniversalLink.java
        UniversalLinkGroup.java
        UniversalPage.java
        nlp
        Dictionary.java
        NGramCreator.java
        StringTokenizer.java
        Token.java
    - test
      - java
        org
        wikibrain
        core
        cmd
        FileMatcherTest.java
        dao
        BenchmarkFastLoader.java
        DaoIntegrationTest.java
        TestDaoFilter.java
        TestInterLanguageLinkSqlDao.java
        TestLocalCategoryMemberDao.java
        TestLocalLinkDao.java
        TestLocalLinkDao2.java
        TestLocalLinkDao3.java
        TestLocalPageDao.java
        TestMetaInfoDao.java
        TestRawPageDao.java
        TestRedirectDao.java
        TestSqlCache.java
        TestWpDataSource.java
        lang
        TestLangStorage.java
        TestLanguage.java
        TestLanguageInfo.java
        TestLocalId.java
        model
        TestNameSpace.java
        TestTitle.java
        nlp
        DictionaryBenchmarker.java
        DictionaryTest.java
- wikibrain-download
  - src
    - main
      - java
        org
        wikibrain
        download
        DumpFileDownloader.java
        DumpLinkCluster.java
        DumpLinkGetter.java
        DumpLinkInfo.java
        FileDownloader.java
        RequestedLinkGetter.java
    - test
      - java
        org
        wikibrain
        download
        TestFileDownloader.java
- wikibrain-integration-tests
  - src
    - test
      - java
        org
        wikibrain
        integration
        DownloadIT.java
        DumpIT.java
        LocalEnsembleSRIT.java
        LocalPageDaoIT.java
        LocalSRMetricIT.java
        LuceneIT.java
        LuceneLoaderIT.java
        PhraseLoaderIT.java
        RawPageDaoIT.java
        RedirectIT.java
        RedirectLoaderIT.java
        TestDB.java
        TestUtils.java
        WikiTextLoaderIT.java
- wikibrain-loader
  - src
    - main
      - java
        org
        wikibrain
        GuiLoader.java
        Loader.java
        loader
        ConceptLoader.java
        DumpLoader.java
        GraphicLoader.java
        InterLanguageLinkExtractor.java
        LoadedStats.java
        LocalLinkSet.java
        LuceneLoader.java
        PhraseLoader.java
        RedirectLoader.java
        SqlLinksLoader.java
        UniversalLinkLoader.java
        WikiTextLoader.java
        pipeline
        CpuBenchmarker.java
        DiagnosticDao.java
        DiagnosticReport.java
        LoadTimeEstimator.java
        PipelineLoader.java
        PipelineStage.java
        StageArgs.java
        StageDiagnostic.java
        StageFailedException.java
    - test
      - java
        BenchLevelDB.java
        BlockingQueueTest.java
        TestLinkResolver.java
- wikibrain-lucene
  - src
    - main
      - java
        org
        wikibrain
        lucene
        LuceneIndexer.java
        LuceneOptions.java
        LuceneSearcher.java
        LuceneStringNormalizer.java
        QueryBuilder.java
        TextFieldBuilder.java
        TextFieldElements.java
        TokenizerOptions.java
        WikiBrainAnalyzer.java
        WikiBrainScoreDoc.java
        WpIdFilter.java
        tokenizers
        ArabicTokenizer.java
        ArmenianTokenizer.java
        BasqueTokenizer.java
        BulgarianTokenizer.java
        CatalanTokenizer.java
        ChineseTokenizer.java
        CzechTokenizer.java
        DanishTokenizer.java
        DefaultTokenizer.java
        DutchTokenizer.java
        EnglishTokenizer.java
        FinnishTokenizer.java
        FrenchTokenizer.java
        GalicianTokenizer.java
        GermanTokenizer.java
        GreekTokenizer.java
        HebrewTokenizer.java
        HindiTokenizer.java
        HungarianTokenizer.java
        IndonesianTokenizer.java
        IrishTokenizer.java
        ItalianTokenizer.java
        JapaneseTokenizer.java
        KoreanTokenizer.java
        LadinoTokenizer.java
        LanguageTokenizer.java
        LatvianTokenizer.java
        NorwegianTokenizer.java
        PersianTokenizer.java
        PolishTokenizer.java
        PortugueseTokenizer.java
        RomanianTokenizer.java
        RussianTokenizer.java
        SlovakTokenizer.java
        SpanishTokenizer.java
        SwedishTokenizer.java
        ThaiTokenizer.java
        TurkishTokenizer.java
        UkrainianTokenizer.java
    - test
      - java
        TestLanguageTokenizer.java
        TestLuceneNormalizer.java
        TestLuceneSearcher.java
- wikibrain-mapper
  - src
    - main
      - java
        org
        wikibrain
        mapper
        ConceptMapper.java
        MapperIterator.java
        algorithms
        MonolingualConceptMapper.java
        PureWikidataConceptMapper.java
        conceptualign3
        ClusterResult.java
        CombinedIllDao.java
        Conceptualign3ConnectedComponentHandler.java
        ConceptualignConceptMapper.java
        ConceptualignHelper.java
        ConnectedComponentHandler.java
        ConnectedComponentTraversalListener.java
        ILLEdge.java
        ILLGraph.java
        ILLSplitter.java
        SummingHashMap.java
- wikibrain-matrix
  - src
    - main
      - java
        org
        wikibrain
        matrix
        BaseMatrixRow.java
        DenseMatrix.java
        DenseMatrixRow.java
        DenseMatrixWriter.java
        InMemorySparseMatrix.java
        IntSorter.java
        Matrix.java
        MatrixRow.java
        MemoryMappedMatrix.java
        SparseMatrix.java
        SparseMatrixRow.java
        SparseMatrixSorter.java
        SparseMatrixTransposer.java
        SparseMatrixUtils.java
        SparseMatrixWriter.java
        ValueConf.java
        knn
        BruteForceKNNFinder.java
        KDTreeKNN.java
        KNNFinder.java
        KmeansKNNFinder.java
        LSHForestKNNFinder.java
        Neighborhood.java
        NeighborhoodAccumulator.java
        RandomProjectionKNNFinder.java
    - test
      - java
        org
        wikibrain
        matrix
        BenchBuffers.java
        TestDenseMatrix.java
        TestDenseMatrixRow.java
        TestSparseMatrix.java
        TestSparseMatrixRow.java
        TestUtils.java
        knn
        BenchBruteForce.java
        TestKDDNNFinder.java
        TestKMeansNNFinder.java
        TestLSHForestNNFinder.java
        TestLSHNNFinder.java
        TestUtils.java
- wikibrain-pageview
  - src
    - main
      - java
        org
        wikibrain
        pageview
        PageView.java
        PageViewDao.java
        PageViewDaoFilter.java
        PageViewDataStruct.java
        PageViewDownloader.java
        PageViewLoader.java
        PageViewReader.java
        PageViewSqlDao.java
        PageViewUtils.java
        RawPageView.java
    - test
      - java
        org
        wikibrain
        pageview
        TestPageViewUtils.java
- wikibrain-parser
  - src
    - main
      - java
        org
        wikibrain
        parser
        DumpSplitter.java
        WpParseException.java
        sql
        MySqlDumpParser.java
        wiki
        InterLanguageLinkVisitor.java
        LocalCategoryVisitor.java
        LocalLinkVisitor.java
        MarkupStripper.java
        ParsedCategory.java
        ParsedEntity.java
        ParsedIll.java
        ParsedLink.java
        ParsedLocation.java
        ParsedRedirect.java
        ParserVisitor.java
        RedirectParser.java
        SubarticleParser.java
        WikiTextDumpParser.java
        WikiTextParser.java
        WikitextRenderer.java
        xml
        DumpPageXmlParser.java
        PageXmlParser.java
    - test
      - java
        org
        wikibrain
        parser
        TestDumpPageParser.java
        TestDumpSplitter.java
        TestMysqlDumpParser.java
        TestWikiTextDumpParser.java
        TestXMLParser.java
- wikibrain-phrases
  - src
    - main
      - java
        org
        wikibrain
        phrases
        AnchorTextPhraseAnalyzer.java
        BasePhraseAnalyzer.java
        CascadingAnalyzer.java
        LinkProbabilityDao.java
        LucenePhraseAnalyzer.java
        NormalizedStringPruner.java
        OldLucenePhraseAnalyzer.java
        PhraseAnalyzer.java
        PhraseAnalyzerDao.java
        PhraseAnalyzerLangDao.java
        PhraseAnalyzerObjectDbDao.java
        PhraseCorpus.java
        PhraseTokenizer.java
        PrunedCounts.java
        SimplePruner.java
        StanfordPhraseAnalyzer.java
        TitleRedirectPhraseAnalyzer.java
    - test
      - java
        org
        wikibrain
        phrases
        TestPhraseAnalyzerDao.java
- wikibrain-spatial
  - src
    - main
      - java
        ags
        utils
        dataStructures
        BinaryHeap.java
        IntervalHeap.java
        MaxHeap.java
        MinHeap.java
        Pair.java
        trees
        secondGenKD
        KdTree.java
        thirdGenKD
        DistanceFunction.java
        KdNode.java
        KdTree.java
        NearestNeighborIterator.java
        SquareEuclideanDistanceFunction.java
        org
        wikibrain
        spatial
        SpatialContainerMetadata.java
        WikiBrainShapeFile.java
        constants
        Layers.java
        Precision.java
        RefSys.java
        cookbook
        AdjacentPolygonExample.java
        CalculateAllDistancePairs.java
        CalculateGeographicDistanceBetweenPages.java
        DistanceMetricsExample.java
        EasySpatialExamples.java
        GraphDistanceExample.java
        SimpleToblersLawEvaluator.java
        SpatialContainmentExample.java
        SpatialNeighborExample.java
        tflevaluate
        BipartiteEvaluatorTest.java
        DistanceMetrics.java
        KNNEvaluator.java
        Point3DDistance.java
        ToblersLawEvaluator.java
        ToblersLawEvaluatorTest.java
        TopoEvaluator.java
        dao
        SpatialContainmentDao.java
        SpatialDataDao.java
        SpatialNeighborDao.java
        postgis
        PostGISDB.java
        PostGISSpatialContainmentDao.java
        PostGISSpatialDataDao.java
        PostGISSpatialNeighborDao.java
        PostGISVersionChecker.java
        distance
        BorderingDistanceMetric.java
        GeodeticDistanceMetric.java
        GraphDistanceMetric.java
        OrdinalDistanceMetric.java
        SpatialDistanceMetric.java
        SphericalDistanceMetric.java
        loader
        SpatialDataDownloader.java
        SpatialDataFolder.java
        SpatialDataLoader.java
        WikidataLayerLoader.java
        matcher
        AbstractMatchScorer.java
        ContainsPointScorer.java
        GeoResolver.java
        InstanceOfMatchScorer.java
        MappedShapefileLoader.java
        ShapeFileMatcher.java
        WikidataValueScorer.java
        util
        ClosestPointIndex.java
        ContainmentIndex.java
        WikiBrainSpatialUtils.java
    - test
      - java
        org
        wikibrain
        spatial
        distance
        TestBorderingDistanceMetric.java
        TestGeodeticDistanceMetric.java
        TestGraphDistanceMetric.java
        TestOrdinalDistanceMetric.java
        TestSphereDistanceMetric.java
        utils
        TestClosestPointIndex.java
        TestContainmentIndex.java
- wikibrain-sr
  - src
    - main
      - java
        org
        wikibrain
        sr
        BaseSRMetric.java
        DirectLinkMetric.java
        Explanation.java
        MatrixSummarizer.java
        MetricTrainer.java
        SRBuilder.java
        SRMetric.java
        SRResult.java
        SRResultList.java
        category
        CategoryGraphSimilarity.java
        dataset
        Dataset.java
        DatasetDao.java
        FakeDatasetCreator.java
        disambig
        Disambiguator.java
        SimilarityDisambiguator.java
        TopResultConsensusDisambiguator.java
        TopResultDisambiguator.java
        ensemble
        CorrelationEnsemble.java
        Ensemble.java
        EnsembleMetric.java
        EnsembleSim.java
        EvenEnsemble.java
        Interpolator.java
        LinearEnsemble.java
        MultilingualEnsemble.java
        SimpleEnsembleMetric.java
        esa
        SRConceptSpaceGenerator.java
        evaluation
        BaseEvaluationLog.java
        ConfigMonolingualSRFactory.java
        EvaluationMain.java
        Evaluator.java
        KnownMostSim.java
        KnownSimGuess.java
        MonolingualSRFactory.java
        MostSimilarDataset.java
        MostSimilarEvaluationLog.java
        MostSimilarEvaluator.java
        MostSimilarGuess.java
        PrecisionRecallAccumulator.java
        PretrainedSRFactory.java
        QualitativeAnalyzer.java
        SimilarityEvaluationLog.java
        SimilarityEvaluator.java
        Split.java
        milnewitten
        MilneWittenDisambiguator.java
        MilneWittenMetric.java
        SimpleMilneWitten.java
        normalize
        BaseNormalizer.java
        IdentityNormalizer.java
        LoessNormalizer.java
        LogNormalizer.java
        Normalizer.java
        PercentileNormalizer.java
        RangeNormalizer.java
        RankAndScoreNormalizer.java
        phrasesim
        CosimilarityMatrix.java
        EnsemblePhraseCreator.java
        KnownPhrase.java
        KnownPhraseSim.java
        PhraseCreator.java
        PhraseSimEvaluator.java
        PhraseUtils.java
        PhraseVector.java
        SimplePhraseCreator.java
        synrank
        SynRank.java
        utils
        ExplanationFormatter.java
        KnownSim.java
        Leaderboard.java
        SimUtils.java
        SrNormalizers.java
        vector
        CosineSimilarity.java
        DenseVectorGenerator.java
        DenseVectorSRMetric.java
        ESAGenerator.java
        FancyPhraseVectorBasedSRMetric.java
        FeatureFilter.java
        GoogleSimilarity.java
        LinkGenerator.java
        MostSimilarConceptsGenerator.java
        PhraseVectorCreator.java
        SparseVectorGenerator.java
        SparseVectorSRMetric.java
        VectorSimilarity.java
        wikify
        BaseCorpusCreator.java
        Corpus.java
        IdAndText.java
        IdentityWikifier.java
        LinkInfo.java
        MilneWittenWikifier.java
        PlainTextCorpusCreator.java
        Tester.java
        WBCorpusDocReader.java
        WbCorpusLineReader.java
        WebSailWikifier.java
        WikiTextCorpusCreator.java
        Wikifier.java
        word2vec
        CorpusCreatorMain.java
        Word2Phrase.java
        Word2VecGenerator.java
        Word2VecTrainer.java
        Word2VecUtils.java
        universal
        UniversalWord2VecMain.java
    - test
      - java
        org
        wikibrain
        sr
        TestExplanation.java
        TestIdentityWikifier.java
        TestLinkGenerator.java
        TestNormalizer.java
        TestPairwiseSimilarity.java
        TestSRResult.java
        dataset
        TestDatasetDao.java
        evaluation
        TestEvaluator.java
        TestKnownMostSim.java
        TestLocalSR.java
        TestMostSimilarGuess.java
        TestSimilarityEvaluation.java
        utils
        TestSimUtils.java
        vector
        CompareDenseKnnAccelerators.java
        TestCosineSimilarity.java
        TestGoogleSimilarity.java
        wikify
        TestWBCorpusLineIterable.java
- wikibrain-utils
  - src
    - main
      - java
        jnt
        scimark2
        MonteCarlo.java
        org
        clapper
        util
        classutil
        ClassFinder.java
        wikibrain
        conf
        Configuration.java
        ConfigurationException.java
        Configurator.java
        DefaultOptionBuilder.java
        Provider.java
        ProviderFilter.java
        utils
        AtomicByteArray.java
        AtomicIntSet.java
        AtomicLongSet.java
        Function.java
        IntRangeIterator.java
        JavaProcessBuilder.java
        JvmUtils.java
        MapValueComparator.java
        MurmurHash.java
        OS.java
        ObjectDb.java
        ParallelForEach.java
        Procedure.java
        ResourceInstaller.java
        Scoreboard.java
        SevenZipBuffer.java
        SummingHashMap.java
        WbArrayUtils.java
        WbCommandLine.java
        WbMathUtils.java
        WpCollectionUtils.java
        WpIOUtils.java
        WpStringUtils.java
        WpThreadUtils.java
        ZipDir.java
    - test
      - java
        org
        wikibrain
        conf
        ConsecutiveIntProvider.java
        ConstantIntProvider.java
        OddIntProvider.java
        TestConfigurator.java
        utils
        TestAtomicByteArray.java
        TestAtomicIntSet.java
        TestAtomicLongSet.java
        TestJvmUtils.java
        TestObjectDb.java
        TestParallelForEach.java
        TestScoreboard.java
        TestWpIOUtils.java
        TestZipDir.java
- wikibrain-webapi
  - src
    - main
      - java
        org
        wikibrain
        webapi
        JSONSerializer.java
        WebEntity.java
        WebEntityParser.java
        WikiBrainServer.java
        WikiBrainWebException.java
        WikiBrainWebRequest.java
- wikibrain-wikidata
  - src
    - main
      - java
        org
        wikibrain
        wikidata
        LocalWikidataStatement.java
        RawPageWrapper.java
        WikidataDao.java
        WikidataDumpHelper.java
        WikidataDumpLoader.java
        WikidataDumpParser.java
        WikidataEntity.java
        WikidataFilter.java
        WikidataParser.java
        WikidataSqlDao.java
        WikidataStatement.java
        WikidataValue.java
    - test
      - java
        org
        wikibrain
        wikidata
        CreateTestDump.java
        TestWikidataDao.java
        TestWikidataParser.java
        TestWikidataValue.java

/*
 *    MarkupStripper.java
 *    Copyright (C) 2007 David Milne, d.n.milne@gmail.com
 *
 *    This program is free software; you can redistribute it and/or modify
 *    it under the terms of the GNU General Public License as published by
 *    the Free Software Foundation; either version 2 of the License, or
 *    (at your option) any later version.
 *
 *    This program is distributed in the hope that it will be useful,
 *    but WITHOUT ANY WARRANTY; without even the implied warranty of
 *    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 *    GNU General Public License for more details.
 *
 *    You should have received a copy of the GNU General Public License
 *    along with this program; if not, write to the Free Software
 *    Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
 */

package org.wikibrain.parser.wiki;

import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * This provides tools to strip out markup from wikipedia articles, or anything else that has been written
 * in mediawiki's format. It's all pretty simple, so don't expect perfect parsing. It is particularly bad at 
 * dealing with templates (these are simply removed rather than resolved).  
 * 
 * @author David Milne
 */
public class MarkupStripper {
	
	/**
	 * Strips a string of all markup; tries to turn it into plain text	 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripEverything(String markup)  {
		
		String strippedMarkup = stripTemplates(markup) ;
		strippedMarkup = MarkupStripper.stripSection(strippedMarkup, "see also") ;
		strippedMarkup = MarkupStripper.stripSection(strippedMarkup, "references") ;
		strippedMarkup = MarkupStripper.stripSection(strippedMarkup, "further reading") ;
		strippedMarkup = MarkupStripper.stripSection(strippedMarkup, "external links") ;
		strippedMarkup = stripTables(strippedMarkup) ;
		strippedMarkup = stripIsolatedLinks(strippedMarkup) ;
		strippedMarkup = stripLinks(strippedMarkup) ;
		strippedMarkup = stripHTML(strippedMarkup) ;
		strippedMarkup = stripExternalLinks(strippedMarkup) ;
		strippedMarkup = stripFormatting(strippedMarkup) ;
		strippedMarkup = stripExcessNewlines(strippedMarkup) ;
		
		return strippedMarkup ;
	}
	
	/**
	 * Strips all links from the given markup; anything like [[this]] is replaced. If it is a link to a wikipedia article, 
	 * then it is replaced with its anchor text. Only links to images are treated differently: they are discarded entirely. 
	 * 
	 * You may want to first strip non-article links, isolated links, category links etc before calling this method. 	 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripLinks(String markup) {
		
		HashSet<String> discardPrefixes = new HashSet<String>() ;
		discardPrefixes.add("image") ;
		
		Vector<Integer> linkStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\[\\[|\\]\\])") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("[["))
				linkStack.add(m.start()) ;
			else {
				if (!linkStack.isEmpty()) {
					int linkStart = linkStack.lastElement() ;
					linkStack.remove(linkStack.size()-1) ;
					
					if (linkStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, linkStart)) ;
						
						//we have the whole link, with other links nested inside if it's an image
						String linkMarkup = markup.substring(linkStart+2, m.start()) ;
						sb.append(stripLink(linkMarkup, discardPrefixes, false)) ;
						
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (!linkStack.isEmpty()) {
			System.err.println("MarkupStripper | Warning: links were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		}
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ;
	}
	
	/**
	 * Removes all references to images in the given markup
	 * 
	 * @param markup the markup to be stripped
	 * @return the stripped markup
	 */
	public static String stripImages(String markup) {
			
		Vector<Integer> linkStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\[\\[|\\]\\])") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("[["))
				linkStack.add(m.start()) ;
			else {
				if (!linkStack.isEmpty()) {
					int linkStart = linkStack.lastElement() ;
					linkStack.remove(linkStack.size()-1) ;
					
					if (linkStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, linkStart)) ;
						
						//we have the whole link, with other links nested inside if it's an image
						String linkMarkup = markup.substring(linkStart+2, m.start()) ;
						if (!linkMarkup.toLowerCase().startsWith("image:")){
							sb.append("[[") ;
							sb.append(linkMarkup) ;
							sb.append("]]") ;							
						}
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (!linkStack.isEmpty()) {
			System.err.println("MarkupStripper | Warning: links were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		}
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ;
	}
	
	/**
	 * Strips all non-article links from the given markup; anything like [[this]] is removed unless it
	 * goes to a wikipedia article, redirect, or disambiguation page. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripNonArticleLinks(String markup) {
				
		Vector<Integer> linkStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\[\\[|\\]\\])") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("[["))
				linkStack.add(m.start()) ;
			else {
				if (!linkStack.isEmpty()) {
					int linkStart = linkStack.lastElement() ;
					linkStack.remove(linkStack.size()-1) ;
					
					if (linkStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, linkStart)) ;
						
						//we have the whole link, with other links nested inside if it's an image
						String linkMarkup = markup.substring(linkStart+2, m.start()) ;
						if (linkMarkup.indexOf(":") < 0)
							sb.append("[[" + linkMarkup + "]]") ;
						else						
							sb.append(stripLink(linkMarkup, null, true)) ;
						
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (! linkStack.isEmpty()) 
			System.err.println("MarkupStripper | Warning: links were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ; 
	}
	
	/**
	 * Strips all non-article links from the given markup; anything like [[this]] is removed unless it
	 * goes to a wikipedia article, redirect, or disambiguation page. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripIsolatedLinks(String markup) {
				
		Vector<Integer> linkStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\[\\[|\\]\\])") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("[["))
				linkStack.add(m.start()) ;
			else {
				if (!linkStack.isEmpty()) {
					int linkStart = linkStack.lastElement() ;
					linkStack.remove(linkStack.size()-1) ;
					
					if (linkStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, linkStart)) ;
						
						//we have the whole link, with other links nested inside if it's an image
						String linkMarkup = markup.substring(linkStart+2, m.start()) ;
						
						//System.out.println(" - " + linkStart + ", " + m.end() + ", " + markup.length()) ;
						
						if (markup.substring(Math.max(0, linkStart-10), linkStart).matches("(?s).*(\\W*)\n") && (m.end() >= markup.length()-1 || markup.substring(m.end(), Math.min(markup.length()-1, m.end()+10)).matches("(?s)(\\W*)(\n.*|$)"))) {
							//discarding link
						} else {
							sb.append("[[") ;
							sb.append(linkMarkup) ;
							sb.append("]]") ;
						}
						
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (!linkStack.isEmpty())
			System.err.println("MarkupStripper | Warning: links were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ;
	}
	
	
	private static String stripLink(String linkMarkup, HashSet<String> discardedPrefixes, boolean discardAllPrefixes) {
		
		int colonPos = linkMarkup.indexOf(":") ;
		if (colonPos>0) {
			//prefix is specified
			
			String prefix = linkMarkup.substring(0, colonPos) ;
			if (discardAllPrefixes || (discardedPrefixes != null && discardedPrefixes.contains(prefix.toLowerCase()))) {
				//prefix indicates a link we want cleared
				return "" ;
			} else {
				linkMarkup = linkMarkup.substring(colonPos+1) ;
			}
		}
		
		int pos = linkMarkup.lastIndexOf("|") ;
			
		if (pos>0) {
			//link is piped 
			return linkMarkup.substring(pos+1) ;
		} else {
			//link is not piped ;
			return linkMarkup ;
		}
	}
	
	
	/**
	 * Removes all sections (both header and content) with the given sectionName
	 * 
	 * @param sectionName the name of the section (case insensitive) to remove.
	 * @param markup the markup to be stripped
	 * @return the stripped markup
	 */
    static Map<String, Pattern> SECTION_FINDERS = new HashMap<String, Pattern>();
    static Map<String, Pattern> SECTION_END_FINDERS = new HashMap<String, Pattern>();
    static {
        for (String section : new String[] {"see also", "references", "further reading", "external links"}) {
            SECTION_FINDERS.put(section,
                    Pattern.compile("(={2,})\\s*" + section + "\\s*\\1.*?([^=]\\1[^=])",
                            Pattern.CASE_INSENSITIVE + Pattern.DOTALL));
            SECTION_END_FINDERS.put(section,
                    Pattern.compile("(={2,})\\s*" + section + "\\s*\\1\\W*.*?\n\n",
                            Pattern.CASE_INSENSITIVE + Pattern.DOTALL));
        }
        SECTION_FINDERS = Collections.unmodifiableMap(SECTION_FINDERS);
        SECTION_END_FINDERS = Collections.unmodifiableMap(SECTION_END_FINDERS);
    }
	public static String stripSection(String markup, String sectionName) {
		
		Pattern p = SECTION_FINDERS.get(sectionName);
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {				
			sb.append(markup.substring(lastIndex, m.start())) ;
			sb.append(m.group(2)) ;
			lastIndex = m.end() ;	
		}
		
		sb.append(markup.substring(lastIndex)) ;
		markup = sb.toString() ;
		
		//if this was the last section in the doc, then it won't be discarded because we can't tell where it ends.
		//best we can do is delete the title and the paragraph below it.
		
		p = SECTION_END_FINDERS.get(sectionName);
		m = p.matcher(markup) ;
		
		sb = new StringBuffer() ;
		lastIndex = 0 ;
		
		while (m.find()) {		
			sb.append(markup.substring(lastIndex, m.start())) ;
			lastIndex = m.end()-2 ;	
		}
		
		sb.append(markup.substring(lastIndex)) ;	
		return sb.toString() ;
	}

	/**
	 * Strips all templates from the given markup; anything like {{this}}. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripTemplates(String markup) {
		
		Vector<Integer> templateStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\{\\{|\\}\\})") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("{{"))
				templateStack.add(m.start()) ;
			else {
				if (!templateStack.isEmpty()) {
					int templateStart = templateStack.lastElement() ;
					templateStack.remove(templateStack.size()-1) ;
					
					if (templateStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, templateStart)) ;
						
						//TODO: here is where we would resolve a template, instead of just removing it.
						//sb.append(stripTemplate(markup.substring(templateStart+2, m.start()))) ;
						
						//we have the whole template, with other templates nested inside					
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (!templateStack.isEmpty())
			System.err.println("MarkupStripper | Warning: templates were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ;
	}
	
	/*
	private static String stripTemplate(String markup) {
		//TODO: ideally we would have all the templates summarized, so here we could looking up the template and resolve it to html. For now we just get rid of all templates.
		
		return "" ;
	}*/
	
	/**
	 * Strips all tables from the given markup; anything like {|this|}. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripTables(String markup) {
		
		Vector<Integer> tableStack = new Vector<Integer>() ; 
		
		Pattern p = Pattern.compile("(\\{\\||\\|\\})") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			
			String tag = markup.substring(m.start(), m.end()) ;
			
			if (tag.equals("{|"))
				tableStack.add(m.start()) ;
			else {
				if (!tableStack.isEmpty()) {
					int templateStart = tableStack.lastElement() ;
					tableStack.remove(tableStack.size()-1) ;
					
					if (tableStack.isEmpty()) {
						sb.append(markup.substring(lastIndex, templateStart)) ;
						
						//we have the whole table, with other tables nested inside					
						lastIndex = m.end() ;
					}
				}
			}
		}
		
		if (!tableStack.isEmpty())
			System.err.println("MarkupStripper | Warning: tables were not well formed, so we cannot guarantee that they were stripped out correctly. ") ;
		
		sb.append(markup.substring(lastIndex)) ;		
		return sb.toString() ;
	}
	
	
	/**
	 * Strips all <ref> tags from the given markup; both those that provide links to footnotes, and the footnotes themselves.
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
    static Pattern STRIP_REFS[] = {
            Pattern.compile("<ref\\\\>"),
            Pattern.compile("(?s)<ref>(.*?)</ref>"),
            Pattern.compile("(?s)<ref\\s(.*?)>(.*?)</ref>"),
    };
	public static String stripRefs(String markup) {
        for (Pattern p : STRIP_REFS) {
            markup = p.matcher(markup).replaceAll("");
        }
		return markup;
	}
	
	/**
	 * Strips all html tags and comments from the given markup. Text found between tags is not removed.
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripHTML(String markup) {
		
		String strippedMarkup = markup.replaceAll("(?s)\\<\\!\\-\\-(.*?)\\-\\-\\>","") ;	//strip comments
		
		strippedMarkup = stripRefs(strippedMarkup) ;
		strippedMarkup = strippedMarkup.replaceAll("<(.*?)>", "") ;	// remove remaining tags ;	
		
		return strippedMarkup ;
	}
	
	
	/**
	 * Strips all links to external web pages; anything like [this] that starts with "http" or "www". 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped text
	 */
	public static String stripExternalLinks(String markup) {
		
		String strippedMarkup = markup.replaceAll("\\[(http|www)(.*?)\\]", "") ;
		return strippedMarkup ;
	}
	
	/**
	 * Strips all wiki formatting, the stuff that makes text bold, italicised, intented, listed, or made into headers. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripFormatting(String markup) {
		
		String strippedMarkup = markup.replaceAll("'{2,}", "") ;       //remove all bold and italic markup ;
		strippedMarkup = strippedMarkup.replaceAll("={2,}","") ;	   //remove all header markup
		strippedMarkup = strippedMarkup.replaceAll("\n:+", "\n") ;	   //remove indents.
		strippedMarkup = strippedMarkup.replaceAll("\n(\\*+)\\W*", "\n") ; //remove list markers.
		
		
		
		return strippedMarkup ;
	}
	
	
	
	/**
	 * Removes anything at the start of the markup that is indented. Normally this indicates notes that the author
	 * should have used a template for, such as a "For other uses, see ****" note.
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripIndentedStart(String markup) {
		
		Pattern p = Pattern.compile("(.*?)\n", Pattern.DOTALL) ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int newStart = 0 ;
		
		while (m.find()) {
			//System.out.println(" - \"" + m.group() + "\"\n\n") ;
			
			if (m.group().matches("(?s)([\\s\\W]*)([\\:\\*]+)(.*)")||m.group().matches("\\W*"))
				newStart = m.end() ;
			else
				break ;
		}
		
		sb.append(markup.substring(newStart)) ;		
		return sb.toString() ;
	}
	
	
	/**
	 * Collapses consecutive newlines into at most two newlines. 
	 * This is provided because stripping out templates and tables often leaves large gaps in the text.  
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripExcessNewlines(String markup) {
		
		String strippedMarkup = markup.replaceAll("\n{3,}", "\n\n") ;		
		return strippedMarkup ;
	}	
	
	/**
	 * Removes all ordered and unordered list items.
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripListItems(String markup) {
		
		String strippedMarkup = markup.replaceAll("\n\\s*[\\#\\*]+\\s*(.*?)\n", "\n") ;		
		return strippedMarkup ;
	}	
	
	
	/**
	 * Removes all brackets that have nothing in them but space. This is a hack, a symptom of not dealing with templates very well.
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripOrphanedBrackets(String markup) {
		
		String strippedMarkup = markup.replaceAll("\\([\\W]*?\\)", "") ;		
		return strippedMarkup ;
	}
	
	/**
	 * Removes special "magic word" (???) syntax, such as __NOTOC__
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripMagicWords(String markup) {
		
		String strippedMarkup = markup.replaceAll("\\_\\_(\\p{Upper}+\\_\\_)", "") ;		
		return strippedMarkup ;
	}
	
	/**
	 * Removes all section headers. 
	 * 
	 * @param markup the text to be stripped
	 * @return the stripped markup
	 */
	public static String stripHeadings(String markup) {
		Pattern p = Pattern.compile("(={2,})([^=]+)(\\1)") ;
		Matcher m = p.matcher(markup) ;
		
		StringBuffer sb = new StringBuffer() ;
		int lastIndex = 0 ;
		
		while (m.find()) {
			sb.append(markup.substring(lastIndex, m.start())) ;
			lastIndex = m.end() ;		
		}
		
		sb.append(markup.substring(lastIndex)) ;
		return sb.toString() ;		
	}
}