TextExtractor.java example

Explorer

xwiki-clams-core-master
- curriki-old
  - gelcplugins
    - src
      - test
        cactus
        org
        gelc
        xwiki
        plugins
        assets
        cactus
        AssetManagerPluginTest.java
        java
        org
        gelc
        xwiki
        plugins
        assets
        AssetManagerPluginTest.java
        framework
        FrameworkManagerPluginTest.java
        mime
        MimeTypePluginTest.java
- plugins
  - asset
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        asset
        Asset.java
        AssetException.java
        AssetManager.java
        CollectionSpace.java
        Constants.java
        CurrikiDocument.java
        DefaultAssetManager.java
        Util.java
        attachment
        ArchiveAsset.java
        ArchiveAssetManager.java
        AttachmentAsset.java
        AttachmentAssetManager.java
        AudioAsset.java
        AudioAssetManager.java
        DocumentAsset.java
        DocumentAssetManager.java
        ImageAsset.java
        ImageAssetManager.java
        InteractiveAsset.java
        InteractiveAssetManager.java
        composite
        CollectionCompositeAsset.java
        CompositeAsset.java
        CompositeAssetManager.java
        FolderCompositeAsset.java
        RootCollectionCompositeAsset.java
        external
        ExternalAsset.java
        ExternalAssetManager.java
        VideoAsset.java
        VideoAssetManager.java
        other
        InvalidAsset.java
        ProtectedAsset.java
        UnknownAsset.java
        text
        TextAsset.java
        TextAssetManager.java
  - curriki
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        curriki
        CurrikiException.java
        CurrikiPlugin.java
        CurrikiPluginApi.java
  - currikiactivitystream
    - src
      - main
        java
        org
        curriki
        plugin
        activitystream
        impl
        CurrikiActivityStream.java
        plugin
        CurrikiActivityStreamPlugin.java
        CurrikiActivityStreamPluginApi.java
        DocumentationActivityEvent.java
        MemberActivityEvent.java
        MessageActivityEvent.java
        ResourceActivityEvent.java
  - currikispacemanager
    - src
      - main
        java
        org
        curriki
        plugin
        spacemanager
        impl
        CurrikiSpace.java
        CurrikiSpaceManager.java
        CurrikiSpaceManagerExtension.java
        plugin
        CurrikiSpaceManagerPluginApi.java
  - framework
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        framework
        CSVImportFilterImpl.java
        DefaultImportFilterImpl.java
        Framework.java
        FrameworkConstant.java
        FrameworkItem.java
        FrameworkManagerPlugin.java
        FrameworkManagerPluginAPI.java
        ImportFilter.java
  - licence
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        licence
        Licence.java
        LicenceManagerConstant.java
        LicenceManagerPlugin.java
        LicenceManagerPluginAPI.java
  - lucene
    - src
      - main
        java
        com
        xpn
        xwiki
        plugin
        lucene
        AbstractXWikiRunnable.java
        AttachmentData.java
        DocumentData.java
        IndexData.java
        IndexFields.java
        IndexRebuilder.java
        IndexUpdater.java
        LucenePlugin.java
        LucenePluginApi.java
        ObjectData.java
        SearchResult.java
        SearchResults.java
        TextExtractor.java
        XWikiDocumentQueue.java
        textextraction
        MSExcelTextExtractor.java
        MSPowerPointTextExtractor.java
        MSWordTextExtractor.java
        MimetypeTextExtractor.java
        OpenOfficeTextExtractor.java
        PDFTextExtractor.java
        PlainTextExtractor.java
        XmlTextExtractor.java
        xmlutil
        XmlEncodingDetector.java
        org
        curriki
        xwiki
        plugin
        lucene
        NoStopWordsAnalyzer.java
  - metadata
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        metadata
        MetaDataFrameworkPlugin.java
        MetaDataFrameworkPluginAPI.java
  - mimetype
    - src
      - main
        java
        org
        curriki
        xwiki
        plugin
        mimetype
        MimeTypeConstant.java
        MimeTypePlugin.java
        MimeTypePluginAPI.java
  - servlet
    - src
      - main
        java
        org
        curriki
        xwiki
        servlet
        BaseServlet.java
        RestletServlet.java
        restlet
        resource
        BaseResource.java
        DefaultResource.java
        assets
        AssetManagerResource.java
        AssetResource.java
        AssetsResource.java
        ExternalResource.java
        ExternalsResource.java
        MetadataResource.java
        NominateResource.java
        PartnerResource.java
        PublishedResource.java
        SubassetResource.java
        SubassetsResource.java
        TextassetResource.java
        TextassetsResource.java
        UnnominateResource.java
        VideoResource.java
        VideosResource.java
        groups
        GroupCollectionsResource.java
        metadata
        FieldResource.java
        FieldsResource.java
        users
        UserCollectionsResource.java
        UserGroupsResource.java
        UserResource.java
        router
        AssetsRouter.java
        BaseRouter.java
        GroupsRouter.java
        MetadataRouter.java
        ServiceRouter.java
        UsersRouter.java
  - spacemanager
    - src
      - main
        java
        com
        xpn
        xwiki
        plugin
        spacemanager
        api
        Space.java
        SpaceManager.java
        SpaceManagerException.java
        SpaceManagerExtension.java
        SpaceManagers.java
        SpaceUserProfile.java
        impl
        SpaceImpl.java
        SpaceManagerExtensionImpl.java
        SpaceManagerImpl.java
        SpaceUserProfileImpl.java
        plugin
        SpaceApi.java
        SpaceManagerPluginApi.java
- tools
  - appservmonitoring
    - src
      - main
        java
        org
        curriki
        tools
        monitor
        MonitorAllSources.java
        MonitorPageLoadTime.java
        MonitorWebRenderer.java
        MonitoringConstants.java
  - loadtest
    - src
      - main
        java
        org
        curriki
        tools
        loadtest
        Checker.java
        TestClusteringWorksOnTitles.java
        XWikiHttpClient.java
  - loganalyzer
    - src
      - main
        java
        org
        curriki
        tools
        loganalyzer
        LogAnalysisCursor.java
        LogAnalyzer.java
        LogCollector.java
        TestTailer.java
      - test
        java
        UAParserTest.java
        org
        curriki
        tools
        loganalyzer
        MaximizingLogAnalysisCursor.java
        MultipleParallelConsolesTest.java
        ParseAFewTest.java
        TestParseFilenames.java
  - misctools
    - src
      - main
        java
        UploadToWiki.java
        iContactMassiveUpdater.java
        org
        curriki
        tools
        tests
        TryAnOpenIDRequestAtGoogle.java

/*
 * See the NOTICE file distributed with this work for additional
 * information regarding copyright ownership.
 *
 * This is free software; you can redistribute it and/or modify it
 * under the terms of the GNU Lesser General Public License as
 * published by the Free Software Foundation; either version 2.1 of
 * the License, or (at your option) any later version.
 *
 * This software is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with this software; if not, write to the Free
 * Software Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA
 * 02110-1301 USA, or see the FSF site: http://www.fsf.org.
 */
package com.xpn.xwiki.plugin.lucene;

import java.util.HashMap;
import java.util.Map;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;

import com.xpn.xwiki.plugin.lucene.textextraction.MSExcelTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.MSPowerPointTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.MSWordTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.MimetypeTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.PDFTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.PlainTextExtractor;
import com.xpn.xwiki.plugin.lucene.textextraction.XmlTextExtractor;

/**
 * Extraction of text from various binary formats. Extraction itself is done by the textExtractor
 * classes in Packages below <code>org.outerj.daisy</code> taken from the <a
 * href="http://new.cocoondev.org/daisy">Daisy project </a>.
 * 
 * @version $Id: $
 */
public class TextExtractor
{
    private static final Log LOG = LogFactory.getLog(TextExtractor.class);

    static final Map<String, MimetypeTextExtractor> textExtractors = new HashMap<String, MimetypeTextExtractor>();

    static {
        // TODO: make text extractors more pluggable by moving this into a config file.
        final XmlTextExtractor xmlTextExtractor = new XmlTextExtractor();
        textExtractors.put("application/xhtml+xml", xmlTextExtractor);
        textExtractors.put("text/xml", xmlTextExtractor);
        textExtractors.put("text/plain", new PlainTextExtractor());
        textExtractors.put("application/pdf", new PDFTextExtractor());
        // textExtractors.put ("application/vnd.sun.xml.writer", new OpenOfficeTextExtractor ());
        textExtractors.put("application/msword", new MSWordTextExtractor());
        textExtractors.put("application/ms-word", new MSWordTextExtractor());
        textExtractors.put("application/vnd.msword", new MSWordTextExtractor());
        textExtractors.put("application/vnd.ms-word", new MSWordTextExtractor());
        textExtractors.put("application/vnd.ms-powerpoint", new MSPowerPointTextExtractor());
        textExtractors.put("application/ms-powerpoint", new MSPowerPointTextExtractor());
        textExtractors.put("application/ms-excel", new MSExcelTextExtractor());
        textExtractors.put("application/vnd.ms-excel", new MSExcelTextExtractor());
    }

    /**
     * @param content
     * @param mimetype
     * @return
     */
    public static String getText(byte[] content, String mimetype)
    {
        final MimetypeTextExtractor extractor =
            (MimetypeTextExtractor) textExtractors.get(mimetype);
        if (extractor != null) {
            try {
                return extractor.getText(content);
            } catch (Exception e) {
                LOG.error("error getting text for mimetype " + mimetype, e);
                e.printStackTrace();
            }
        } else {
            LOG.info("no text extractor for mimetype " + mimetype);
        }
        return null;
    }
}