MSNBCDataset.java example

Explorer

gerbil-master
- src
  - main
    - java
      - org
        aksw
        gerbil
        Experimenter.java
        annotator
        A2KBAnnotator.java
        Annotator.java
        AnnotatorConfiguration.java
        AnnotatorConfigurationImpl.java
        C2KBAnnotator.java
        D2KBAnnotator.java
        EntityRecognizer.java
        EntityTyper.java
        OKETask1Annotator.java
        OKETask2Annotator.java
        RT2KBAnnotator.java
        SingletonAnnotatorConfigImpl.java
        decorator
        AbstractAnnotatorDecorator.java
        AnnotatorDecorator.java
        ErrorCounter.java
        ErrorCountingAnnotatorDecorator.java
        SingleInstanceSecuringAnnotatorDecorator.java
        TimeMeasurer.java
        TimeMeasuringAnnotatorDecorator.java
        http
        AbstractHttpBasedAnnotator.java
        impl
        AbstractAnnotator.java
        agdistis
        AgdistisAnnotator.java
        aida
        AidaAnnotator.java
        babelfy
        BabelfyAnnotator.java
        bat
        BatFrameworkAnnotatorWrapper.java
        fox
        FOXAnnotator.java
        fred
        FredAnnotator.java
        instance
        InstanceListBasedAnnotator.java
        nerd
        NERDAnnotator.java
        nif
        NIFBasedAnnotatorWebservice.java
        spotlight
        SpotlightAnnotator.java
        SpotlightClient.java
        tagme
        TagMeAnnotator.java
        wat
        WATAnnotator.java
        wikiminer
        WikipediaMinerAnnotator.java
        xlisa
        XLisaAnnotator.java
        bat
        annotator
        AgdistisAnnotator.java
        BabelfyAnnotator.java
        ErrorCounter.java
        ErrorCountingAnnotatorDecorator.java
        FOXAnnotator.java
        NERDAnnotator.java
        TimeMeasuringAnnotatorDecorator.java
        WATAnnotator.java
        converter
        DBpediaToWikiId.java
        config
        GerbilConfiguration.java
        database
        AbstractExperimentDAO.java
        ExperimentDAO.java
        ExperimentDAOImpl.java
        ExperimentTaskResultRowMapper.java
        IntDoublePair.java
        IntDoublePairRowMapper.java
        IntegerRowMapper.java
        ResultNameToIdMapping.java
        StringArrayRowMapper.java
        StringRowMapper.java
        dataid
        DataIDGenerator.java
        DataIDUtils.java
        dataset
        AbstractDatasetConfiguration.java
        Dataset.java
        DatasetConfiguration.java
        DatasetConfigurationImpl.java
        InitializableDataset.java
        RdfModelContainingDataset.java
        SingletonDatasetConfigImpl.java
        check
        EntityChecker.java
        EntityCheckerManager.java
        impl
        EntityCheckerManagerImpl.java
        FileBasedCachingEntityCheckerManager.java
        HttpBasedEntityChecker.java
        InMemoryCachingEntityCheckerManager.java
        index
        IndexBasedEntityChecker.java
        Indexer.java
        datahub
        DatahubNIFConfig.java
        DatahubNIFLoader.java
        model
        Dataset.java
        Extra.java
        Group.java
        Organization.java
        Resource.java
        Tag.java
        impl
        AbstractDataset.java
        aida
        AIDACoNLLDataset.java
        bat
        BatFrameworkDatasetWrapper.java
        derczysnki
        DerczynskiDataset.java
        erd
        ERDDataset.java
        ERDDataset2.java
        ERDTrec.java
        gerdaq
        GERDAQDataset.java
        iitb
        IITBDataset.java
        IITB_Annotation.java
        IITB_XMLHandler.java
        IITB_XMLParser.java
        micro
        Microposts2013Dataset.java
        Microposts2014Dataset.java
        Microposts2015Dataset.java
        Microposts2016Dataset.java
        msnbc
        MSNBCDataset.java
        MSNBC_NamedEntity.java
        MSNBC_Result.java
        MSNBC_XMLHandler.java
        MSNBC_XMLParser.java
        nif
        AbstractNIFDataset.java
        FileBasedNIFDataset.java
        NIFFileDatasetConfig.java
        ritter
        RitterDataset.java
        senseval
        SensevalDataset.java
        SensevalSAXHandler.java
        umbc
        UMBCDataset.java
        wsdm
        WSDMDataset.java
        datatypes
        AbstractAdapterConfiguration.java
        AdapterConfiguration.java
        Describable.java
        ErrorTypes.java
        ExperimentTaskConfiguration.java
        ExperimentTaskResult.java
        ExperimentTaskState.java
        ExperimentType.java
        TypeExtractionResult.java
        marking
        ClassifiedAnnotation.java
        ClassifiedMarking.java
        ClassifiedMarkingFactory.java
        ClassifiedMeaning.java
        ClassifiedNamedEntity.java
        ClassifiedScoredNamedEntity.java
        ClassifiedSpanMeaning.java
        MarkingClasses.java
        MeaningsContainingMarking.java
        evaluate
        AbstractEvaluatorDecorator.java
        AbstractTypeTransformingEvaluatorDecorator.java
        DoubleEvaluationResult.java
        EvaluationResult.java
        EvaluationResultContainer.java
        Evaluator.java
        EvaluatorDecorator.java
        EvaluatorFactory.java
        IntEvaluationResult.java
        SubTaskEvaluator.java
        SubTaskResult.java
        TypeTransformingEvaluatorDecorator.java
        impl
        ClassConsideringFMeasureCalculator.java
        ClassifyingEvaluatorDecorator.java
        ConfidenceBasedFMeasureCalculator.java
        ConfidenceScoreEvaluatorDecorator.java
        DoubleResultComparator.java
        EmptyEvaluationAvoidingEvaluatorDecorator.java
        FMeasureCalculator.java
        GSInKBClassifyingEvaluatorDecorator.java
        HierarchicalFMeasureCalculator.java
        InKBClassBasedFMeasureCalculator.java
        SimpleTypeTransformingEvaluatorDecorator.java
        SpanMergingEvaluatorDecorator.java
        SubTaskAverageCalculator.java
        filter
        MarkingFilteringEvaluatorDecorator.java
        SearcherBasedNotMatchingMarkingFilter.java
        exceptions
        GerbilException.java
        execute
        AnnotatorOutputWriter.java
        DocumentInformationReducer.java
        ExperimentTask.java
        http
        AbstractHttpRequestEmitter.java
        HttpManagement.java
        HttpRequestEmitter.java
        InterruptingObserver.java
        ObservedHttpRequest.java
        matching
        ClassifiedEvaluationCounts.java
        EvaluationCounts.java
        Matching.java
        MatchingsCounter.java
        MatchingsSearcher.java
        MatchingsSearcherFactory.java
        impl
        AbstractMeaningMatchingsSearcher.java
        ClassifiedMeaningMatchingsSearcher.java
        ClassifierBasedMeaningMatchingsSearcher.java
        CompoundMatchingsSearcher.java
        EqualsBasedMatchingsSearcher.java
        HierarchicalMatchingsCounter.java
        MatchingsCounterImpl.java
        StrongSpanMatchingsSearcher.java
        WeakSpanMatchingsSearcher.java
        clas
        ClassConsideringMatchingsCounter.java
        EmergingEntityMeaningClassifier.java
        MarkingClassifier.java
        UriBasedMeaningClassifier.java
        scored
        ScoredEvaluationCounts.java
        ScoredEvaluationCountsArray.java
        ScoredMatchingsCounter.java
        ScoredMatchingsCounterImpl.java
        semantic
        kb
        AbstractWhiteListBasedUriKBClassifier.java
        ExactWhiteListBasedUriKBClassifier.java
        SimpleWhiteListBasedUriKBClassifier.java
        UriKBClassifier.java
        WhiteListBasedUriKBClassifier.java
        sameas
        SameAsRetriever.java
        SameAsRetrieverDecorator.java
        SameAsRetrieverUtils.java
        SingleUriSameAsRetriever.java
        impl
        AbstractSameAsRetrieverDecorator.java
        CrawlingSameAsRetrieverDecorator.java
        DomainBasedSameAsRetrieverManager.java
        ErrorFixingSameAsRetriever.java
        MultipleSameAsRetriever.java
        SimpleDomainExtractor.java
        UriEncodingHandlingSameAsRetriever.java
        UriFilteringSameAsRetrieverDecorator.java
        cache
        FileBasedCachingSameAsRetriever.java
        InMemoryCachingSameAsRetriever.java
        http
        HTTPBasedSameAsRetriever.java
        index
        IndexBasedSameAsRetriever.java
        model
        AbstractRDFModelBasedSameAsRetriever.java
        DatasetBasedSameAsRetriever.java
        RDFModelBasedSameAsRetriever.java
        wiki
        WikiDbPediaBridgingSameAsRetriever.java
        WikipediaApiBasedSingleUriSameAsRetriever.java
        WikipediaXMLParser.java
        index
        Indexer.java
        LuceneConstants.java
        Searcher.java
        document
        DocumentBuilder.java
        subclass
        ClassHierarchyLoader.java
        ClassNode.java
        ClassNodeFactory.java
        ClassSet.java
        ClassifiedClassNode.java
        ClassifyingClassNodeFactory.java
        SimpleClassNode.java
        SimpleClassNodeFactory.java
        SimpleClassSet.java
        SimpleSubClassInferencer.java
        SimpleSubClassInferencerFactory.java
        SubClassInferencer.java
        vocabs
        CUBE.java
        DBO.java
        GERBIL.java
        tools
        AnnotatorAnalyzer.java
        DBpediaEntityCheckIndexTool.java
        DataDumpTool.java
        DataMigrationTool.java
        DatasetAnalyzer.java
        DatasetWikiIdExporter.java
        InitialIndexTool.java
        NIFDatasetLoadingTest.java
        UriExport.java
        transfer
        FileMeta.java
        UploadFileContainer.java
        utils
        ClosePermitionGranter.java
        ConsoleLogger.java
        DatasetMetaData.java
        DatasetMetaDataMapping.java
        ExpTaskConfigComparator.java
        ExperimentTypeComparator.java
        IDCreator.java
        PearsonsSampleCorrelationCoefficient.java
        SingletonWikipediaApi.java
        WikipediaHelper.java
        bat
        BAT2NIF_TranslationHelper.java
        NIF2BAT_TranslationHelper.java
        filter
        AbstractMarkingFilter.java
        ConfidenceScoreBasedMarkingFilter.java
        MarkingClassBasedMarkingFilter.java
        MarkingFilter.java
        TypeBasedMarkingFilter.java
        web
        ExperimentOverviewController.java
        ExperimentTaskStateHelper.java
        FileUploadController.java
        MainController.java
        NIFWSTestingController.java
        StateReportingController.java
        VocabularyController.java
        config
        AdapterList.java
        AdapterManager.java
        AnnotatorsConfig.java
        DatabaseConfig.java
        DatasetsConfig.java
        RootConfig.java
        WebMvcConfig.java
        check
        AnnotatorChecker.java
        Checker.java
        DirectoryChecker.java
        FileChecker.java
  - test
    - java
      - org
        aksw
        gerbil
        DataHubIOTest.java
        OKEChallengeNIFTest.java
        SimpleSingleD2KBRun.java
        SingleRunTest.java
        annotator
        TestAnnotatorConfiguration.java
        decorator
        ErrorCountingAnnotatorDecoratorTest.java
        http
        HttpBasedAnnotatorTest.java
        WaitingDocumentReturningServerMock.java
        database
        ExperimentDAOImplJUnitTest.java
        SimpleLoggingDAO4Debugging.java
        SimpleLoggingResultStoringDAO4Debugging.java
        dataset
        TestDataset.java
        check
        EntityCheckerManagerImplTest.java
        FileBasedCachingEntityCheckerManagerImplTest.java
        HttpBasedEntityCheckerTest.java
        InMemoryCachingEntityCheckerManagerImplTest.java
        index
        IndexBasedEntityCheckerTest.java
        impl
        FilteringWhileLoadingTest.java
        aida
        AIDACoNLLDatasetTest.java
        derczynski
        DerczynskiDatasetTest.java
        erd
        ERDDatasetTest.java
        gerdaq
        GERDAQDatasetTest.java
        micro
        Microposts2013DatasetMentionSearchTest.java
        Microposts2014DatasetMentionSearchTest.java
        Microposts2015DatasetMentionSearchTest.java
        Microposts2016DatasetMentionSearchTest.java
        msnbc
        MSNBCDatasetTest.java
        nif
        OKEChallengeTask1DatasetTest.java
        ritter
        RitterDatasetTest.java
        senseval
        SensevalDatasetTest.java
        umbc
        UMBCDatasetTest.java
        wsdm
        WSDM2012DatasetMentionSearchTest.java
        evaluate
        impl
        AbstractClassifyingEvaluatorDecoratorTest.java
        ConfidenceScoreEvaluatorDecoratorTest.java
        EEClassifyingEvaluatorDecoratorTest.java
        GSInKBClassifyingEvaluatorDecoratorTest.java
        GSInKBClassifyingFMeasureCalculatorTest.java
        HierarchicalFMeasureCalculatorTest.java
        InKBClassBasedFMeasureCalculatorTest.java
        InKBClassifyingEvaluatorDecoratorTest.java
        InKBClassifyingFMeasureCalculatorTest.java
        SpanMergingEvaluatorDecoratorTest.java
        execute
        A2KBTest.java
        AbstractExperimentTaskTest.java
        C2KBTest.java
        D2KBTest.java
        EntityRecognitionTest.java
        FileBasedA2KBTest.java
        GoldStdEvalTest.java
        OKEChallengeTask1EETest.java
        OKEChallengeTask1ETTest.java
        OKEChallengeTask1RT2KBTest.java
        OKEChallengeTask1Test.java
        OKEChallengeTask2Test.java
        SimpleExperimentTaskTest.java
        matching
        impl
        AbstractMatchingsCounterTest.java
        CompoundMatchingsSearcherTest.java
        CompoundMatchingsSearcherTest2.java
        HierarchicalMatchingsCounterTest.java
        HierarchicalMatchingsCounterTest2.java
        MatchingTestExample.java
        MeaningMatchingsSearcherTest.java
        StrongSpanMatchingTest.java
        WeakSpanMatchingTest.java
        scored
        ScoredEvaluationCountsArrayCreationTest.java
        ScoredMatchingsCounterImplTest.java
        semantic
        kb
        SimpleSubClassInferencerTest.java
        WhiteListBasedUriKBClassifierTest.java
        sameas
        HTTPBasedSameAsRetrieverTest.java
        NotSameAsTest.java
        SameAsRetrievalTest.java
        impl
        ErrorFixingSameAsRetrieverTest.java
        SimpleDomainExtractorTest.java
        UriEncodingHandlingSameAsRetrieverTest.java
        cache
        FileBasedCachingSameAsRetrieverTest.java
        wiki
        WikiDbPediaBridgingSameAsRetrieverTest.java
        WikipediaApiBasedSingleUriSameAsRetrieverTest.java
        WikipediaXMLParserRedirectTest.java
        index
        IndexerTest.java
        test
        EntityCheckerManagerSingleton4Tests.java
        SameAsRetrieverSingleton4Tests.java
        utils
        ExperimentTypeComparatorTest.java
        IDCreatorTest.java
        SingletonWikipediaApiTest.java
        filter
        TypeBasedMarkingFilterTest.java
        web
        config
        MultiAnnotatorHandlingTest.java
        check
        CheckerTest.java

/**
 * This file is part of General Entity Annotator Benchmark.
 *
 * General Entity Annotator Benchmark is free software: you can redistribute it and/or modify
 * it under the terms of the GNU Lesser General Public License as published by
 * the Free Software Foundation, either version 3 of the License, or
 * (at your option) any later version.
 *
 * General Entity Annotator Benchmark is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public License
 * along with General Entity Annotator Benchmark.  If not, see <http://www.gnu.org/licenses/>.
 */
package org.aksw.gerbil.dataset.impl.msnbc;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Comparator;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Set;

import org.aksw.gerbil.dataset.InitializableDataset;
import org.aksw.gerbil.dataset.impl.AbstractDataset;
import org.aksw.gerbil.datatypes.ErrorTypes;
import org.aksw.gerbil.exceptions.GerbilException;
import org.aksw.gerbil.transfer.nif.Document;
import org.aksw.gerbil.transfer.nif.Marking;
import org.aksw.gerbil.transfer.nif.Span;
import org.aksw.gerbil.transfer.nif.data.DocumentImpl;
import org.aksw.gerbil.transfer.nif.data.NamedEntity;
import org.apache.commons.io.FileUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class MSNBCDataset extends AbstractDataset implements InitializableDataset, Comparator<Span> {

    private static final Logger LOGGER = LoggerFactory.getLogger(MSNBCDataset.class);

    protected List<Document> documents;
    protected String textsDirectory;
    protected String annotationsDirectory;

    public MSNBCDataset(String textsDirectory, String annotationsDirectory) throws GerbilException {
        this.textsDirectory = textsDirectory;
        this.annotationsDirectory = annotationsDirectory;
    }

    @Override
    public int size() {
        return documents.size();
    }

    @Override
    public List<Document> getInstances() {
        return documents;
    }

    @Override
    public void init() throws GerbilException {
        this.documents = loadDocuments(new File(textsDirectory), new File(annotationsDirectory));
    }

    protected List<Document> loadDocuments(File textDir, File annoDir) throws GerbilException {
        if ((!textDir.exists()) || (!textDir.isDirectory())) {
            throw new GerbilException(
                    "The given text directory (" + textDir.getAbsolutePath() + ") is not existing or not a directory.",
                    ErrorTypes.DATASET_LOADING_ERROR);
        }
        String textDirPath = textDir.getAbsolutePath();
        if (!textDirPath.endsWith(File.separator)) {
            textDirPath = textDirPath + File.separator;
        }
        if ((!annoDir.exists()) || (!annoDir.isDirectory())) {
            throw new GerbilException("The given annotation directory (" + annoDir.getAbsolutePath()
                    + ") is not existing or not a directory.", ErrorTypes.DATASET_LOADING_ERROR);
        }
        MSNBC_XMLParser parser = new MSNBC_XMLParser();
        MSNBC_Result parsedResult;
        String text;
        List<Document> documents = new ArrayList<Document>();
        for (File annoFile : annoDir.listFiles()) {
            // parse the annotation file
            try {
                parsedResult = parser.parseAnnotationsFile(annoFile);
            } catch (Exception e) {
                throw new GerbilException(
                        "Couldn't parse given annotation file (\"" + annoFile.getAbsolutePath() + "\".", e,
                        ErrorTypes.DATASET_LOADING_ERROR);
            }
            if (parsedResult.getTextFileName() == null) {
                throw new GerbilException("The parsed annotation file (\"" + annoFile.getAbsolutePath()
                        + "\" did not define a text file name.", ErrorTypes.DATASET_LOADING_ERROR);
            }
            // read the text file
            try {
                text = FileUtils.readFileToString(new File(textDirPath + parsedResult.getTextFileName()));
            } catch (IOException e) {
                throw new GerbilException(
                        "Couldn't read text file \"" + textDirPath + parsedResult.getTextFileName()
                                + "\" mentioned in the annotations file \"" + annoFile.getAbsolutePath() + "\".",
                        e, ErrorTypes.DATASET_LOADING_ERROR);
            }
            // create document
            documents.add(createDocument(parsedResult.getTextFileName(), text, parsedResult));
        }
        return documents;
    }

    protected Document createDocument(String fileName, String text, MSNBC_Result parsedResult) {
        String documentUri = generateDocumentUri(fileName);
        List<Marking> markings = new ArrayList<Marking>(parsedResult.getMarkings().size());
        String retrievedSurfaceForm;
        for (MSNBC_NamedEntity ne : parsedResult.getMarkings()) {
            retrievedSurfaceForm = text.substring(ne.getStartPosition(), ne.getStartPosition() + ne.getLength());
            if (!retrievedSurfaceForm.equals(ne.getSurfaceForm())) {
                LOGGER.warn("In document " + documentUri + ", the expected surface form of the named entity " + ne
                        + " does not fit the surface form derived from the text \"" + retrievedSurfaceForm + "\".");
            }
            addDBpediaUris(ne.getUris());
            markings.add(ne.toNamedEntity());
        }
        Document document = new DocumentImpl(text, documentUri, markings);
        mergeSubNamedEntity(document);
        return document;
    }

    /**
     * Merge {@link NamedEntity}s that are sub spans of another named entity and
     * that have the same URIs.
     * 
     * @param document
     */
    private void mergeSubNamedEntity(Document document) {
        List<NamedEntity> spanList = document.getMarkings(NamedEntity.class);
        NamedEntity nes[] = spanList.toArray(new NamedEntity[spanList.size()]);
        Arrays.sort(nes, this);
        Set<Marking> markingsToRemove = new HashSet<Marking>();
        boolean uriOverlapping;
        Iterator<String> uriIterator;
        for (int i = 0; i < nes.length; ++i) {
            uriOverlapping = false;
            for (int j = i + 1; (j < nes.length) && (!uriOverlapping); ++j) {
                // if nes[i] is a "sub span" of nes[j]
                if ((nes[i].getStartPosition() >= nes[j].getStartPosition()) && ((nes[i].getStartPosition()
                        + nes[i].getLength()) <= (nes[j].getStartPosition() + nes[j].getLength()))) {
                    uriOverlapping = false;
                    uriIterator = nes[i].getUris().iterator();
                    while ((!uriOverlapping) && (uriIterator.hasNext())) {
                        uriOverlapping = nes[j].containsUri(uriIterator.next());
                    }
                    if (uriOverlapping) {
                        nes[j].getUris().addAll(nes[j].getUris());
                        markingsToRemove.add(nes[i]);
                    } else {
                        LOGGER.debug("There are two overlapping named entities with different URI sets. {}, {}", nes[i],
                                nes[j]);
                    }
                }
            }
        }
        document.getMarkings().removeAll(markingsToRemove);
    }

    protected String generateDocumentUri(String fileName) {
        StringBuilder builder = new StringBuilder();
        builder.append("http://");
        builder.append(name);
        builder.append('/');
        builder.append(fileName);
        return builder.toString();
    }

    /**
     * Adds DBpedia URIs by transforming Wikipeda URIs.
     * 
     * @param uris
     */
    protected static void addDBpediaUris(Set<String> uris) {
        List<String> dbpediaUris = new ArrayList<String>(uris.size());
        for (String uri : uris) {
            if (uri.contains("en.wikipedia.org/wiki")) {
                dbpediaUris.add(uri.replace("en.wikipedia.org/wiki", "dbpedia.org/resource"));
            } else {
                dbpediaUris.add(uri.replace("wikipedia.org/wiki", "dbpedia.org/resource"));
            }
        }
        uris.addAll(dbpediaUris);
    }

    @Override
    public int compare(Span s1, Span s2) {
        // sort them based on their length
        int diff = s1.getLength() - s2.getLength();
        if (diff == 0) {
            return 0;
        } else if (diff < 0) {
            return -1;
        } else {
            return 1;
        }
    }
}