ConfigurableSnowballAnalyzer.java example

Explorer

and-bible-master
- ReadingPlanCreator
  - src
    - org
      - andbible
        util
        readingplan
        AddDayNumbers.java
        CompressBookNames.java
        ConvertToOSISRefs.java
        RemoveEmptyLines.java
        RemoveLineStart.java
        Start.java
        convert
        ToOSIS.java
- and-bible
  - app
    - src
      - main
        java
        net
        bible
        android
        BibleApplication.java
        SharedConstants.java
        activity
        StartupActivity.java
        common
        resource
        AndroidResourceProvider.java
        ResourceProvider.java
        control
        ApplicationComponent.java
        ApplicationModule.java
        ApplicationScope.java
        BibleContentManager.java
        PassageChangeMediator.java
        WarmUp.java
        backup
        BackupControl.java
        bookmark
        BookmarkControl.java
        BookmarkCreationDateComparator.java
        BookmarkDtoBibleOrderComparator.java
        BookmarkSortOrder.java
        BookmarkStyle.java
        comparetranslations
        CompareTranslationsControl.java
        TranslationDto.java
        document
        DocumentControl.java
        download
        DocumentDownloadProgressCache.java
        DocumentStatus.java
        DownloadControl.java
        DownloadQueue.java
        RelevantLanguageSorter.java
        email
        Emailer.java
        EmailerImpl.java
        event
        ABEventBus.java
        EventManager.java
        apptobackground
        AppToBackgroundEvent.java
        documentdownload
        DocumentDownloadEvent.java
        passage
        BeforeCurrentPageChangeEvent.java
        CurrentVerseChangedEvent.java
        PassageChangeStartedEvent.java
        PassageChangedEvent.java
        PreBeforeCurrentPageChangeEvent.java
        phonecall
        PhoneCallMonitor.java
        PhoneCallStarted.java
        touch
        ShowContextMenuEvent.java
        window
        CurrentWindowChangedEvent.java
        NumberOfWindowsChangedEvent.java
        ScrollSecondaryWindowEvent.java
        UpdateSecondaryWindowEvent.java
        WindowEvent.java
        WindowSizeChangedEvent.java
        footnoteandref
        FootnoteAndRefControl.java
        NoteDetailCreator.java
        link
        LinkControl.java
        UriAnalyzer.java
        mynote
        MyNoteControl.java
        MyNoteCreationDateComparator.java
        MyNoteDAO.java
        MyNoteDtoBibleOrderComparator.java
        MyNoteSortOrder.java
        navigation
        BibleBookAlphabeticalComparator.java
        BibleBookSortOrder.java
        DocumentBibleBooks.java
        DocumentBibleBooksFactory.java
        NavigationControl.java
        page
        CachedKeyPage.java
        CurrentBiblePage.java
        CurrentBibleVerse.java
        CurrentCommentaryPage.java
        CurrentDictionaryPage.java
        CurrentGeneralBookPage.java
        CurrentMapPage.java
        CurrentMyNotePage.java
        CurrentPage.java
        CurrentPageBase.java
        CurrentPageManager.java
        PageControl.java
        PageTiltScrollControl.java
        PageTiltScrollControlFactory.java
        UpdateTextTask.java
        VersePage.java
        window
        ActiveWindowPageManagerProvider.java
        LinksWindow.java
        Window.java
        WindowControl.java
        WindowLayout.java
        WindowRepository.java
        WindowSync.java
        readingplan
        HistoricReadingStatus.java
        ReadingPlanControl.java
        ReadingStatus.java
        report
        ErrorReportControl.java
        search
        SearchControl.java
        SearchResultsDto.java
        speak
        NumPagesToSpeakDefinition.java
        SpeakControl.java
        versification
        BibleTraverser.java
        ConvertibleVerse.java
        ConvertibleVerseRange.java
        Scripture.java
        VersificationConverter.java
        VersificationMappingInitializer.java
        sort
        CompatibleVersificationChooser.java
        ConvertibleVerseRangeComparator.java
        ConvertibleVerseRangeUser.java
        VersificationPrioritiser.java
        view
        activity
        ActivityComponent.java
        ActivityScope.java
        MainBibleActivityComponent.java
        MainBibleActivityModule.java
        MainBibleActivityScope.java
        StartupActivity.java
        base
        ActivityBase.java
        AndBibleActivity.java
        Callback.java
        CurrentActivityHolder.java
        CustomTitlebarActivityBase.java
        Dialogs.java
        DocumentSelectionBase.java
        DocumentView.java
        IntentHelper.java
        ListActionModeHelper.java
        ListActivityBase.java
        ProgressActivityBase.java
        SharedActivityState.java
        actionbar
        ActionBarManager.java
        DefaultActionBarManager.java
        QuickActionButton.java
        QuickDocumentChangeToolbarButton.java
        Title.java
        ToggleActionBarButton.java
        bookmark
        BookmarkItemAdapter.java
        BookmarkLabelItemAdapter.java
        BookmarkLabels.java
        BookmarkStyleAdapter.java
        Bookmarks.java
        LabelDialogs.java
        ManageLabelItemAdapter.java
        ManageLabels.java
        comparetranslations
        CompareTranslations.java
        ItemAdapter.java
        download
        DocumentDownloadItemAdapter.java
        DocumentDownloadListItem.java
        Download.java
        DownloadStatus.java
        FirstDownload.java
        ProgressStatus.java
        footnoteandref
        FootnoteAndRefActivity.java
        ItemAdapter.java
        help
        Help.java
        installzip
        InstallZip.java
        mynote
        MyNoteEditTextView.java
        MyNoteItemAdapter.java
        MyNoteViewBuilder.java
        MyNotes.java
        navigation
        ChooseDictionaryWord.java
        ChooseDocument.java
        DocumentItemAdapter.java
        GridChoosePassageBook.java
        GridChoosePassageChapter.java
        GridChoosePassageVerse.java
        History.java
        biblebookactionbar
        BibleBookActionBarManager.java
        ScriptureToggleActionBarButton.java
        SortActionBarButton.java
        genbookmap
        ChooseGeneralBookKey.java
        ChooseKeyBase.java
        ChooseMapKey.java
        KeyItemAdapter.java
        page
        BibleGestureListener.java
        BibleJavascriptInterface.java
        BibleKeyHandler.java
        BibleView.java
        BibleViewFactory.java
        BibleViewGestureListener.java
        MainBibleActivity.java
        MenuCommandHandler.java
        VerseCalculator.java
        VerseNoRange.java
        actionbar
        BibleActionBarButton.java
        BibleActionBarManager.java
        CommentaryActionBarButton.java
        DictionaryActionBarButton.java
        HomeTitle.java
        StrongsActionBarButton.java
        actionmode
        VerseActionModeMediator.java
        VerseMenuCommandHandler.java
        screen
        DocumentViewManager.java
        DocumentWebViewBuilder.java
        PageTiltScroller.java
        Separator.java
        WindowMenuCommandHandler.java
        readingplan
        DailyReading.java
        DailyReadingItemAdapter.java
        DailyReadingList.java
        ReadingPlanItemAdapter.java
        ReadingPlanSelectorList.java
        actionbar
        ReadingPlanActionBarManager.java
        ReadingPlanBibleActionBarButton.java
        ReadingPlanCommentaryActionBarButton.java
        ReadingPlanDictionaryActionBarButton.java
        ReadingPlanPauseActionBarButton.java
        ReadingPlanQuickDocumentChangeButton.java
        ReadingPlanStopActionBarButton.java
        ReadingPlanTitle.java
        search
        Search.java
        SearchIndex.java
        SearchIndexProgressStatus.java
        SearchItemAdapter.java
        SearchResults.java
        searchresultsactionbar
        ScriptureToggleActionBarButton.java
        SearchResultsActionBarManager.java
        settings
        SettingsActivity.java
        speak
        Speak.java
        actionbarbuttons
        SpeakActionBarButton.java
        SpeakActionBarButtonBase.java
        SpeakStopActionBarButton.java
        util
        BookmarkColourListPrefWrapperAdapter.java
        BookmarkColourPreference.java
        Hourglass.java
        SeekBarPreference.java
        TextSizePreference.java
        Threadutils.java
        TouchDelegateView.java
        TouchOwner.java
        UiUtils.java
        buttongrid
        ButtonGrid.java
        LayoutDesigner.java
        OnButtonGridActionListener.java
        locale
        LegacyLocaleChanger.java
        LocaleChanger.java
        LocaleChangerFactory.java
        LocaleHelper.java
        NougatPlusLocaleChanger.java
        swipe
        SwipeGestureEventHandler.java
        SwipeGestureListener.java
        widget
        BookmarkStyleAdapterHelper.java
        ListPrefWrapperAdapter.java
        TwoLineListItem.java
        service
        common
        ABStringUtils.java
        AndException.java
        AndRuntimeException.java
        CommonUtils.java
        Constants.java
        FileManager.java
        Logger.java
        ParseException.java
        TestUtils.java
        TitleSplitter.java
        css
        CssControl.java
        db
        CommonDatabaseHelper.java
        SQLHelper.java
        bookmark
        BookmarkDBAdapter.java
        BookmarkDatabaseDefinition.java
        BookmarkDto.java
        LabelDto.java
        mynote
        MyNoteDBAdapter.java
        MyNoteDatabaseDefinition.java
        MyNoteDto.java
        device
        LightSensor.java
        ProgressNotificationManager.java
        ScreenSettings.java
        ScreenTimeoutSettings.java
        speak
        SpeakTextProvider.java
        SpeakTiming.java
        TTSLanguageSupport.java
        TextToSpeechServiceManager.java
        event
        SpeakEvent.java
        SpeakEventListener.java
        SpeakEventManager.java
        download
        AndBibleRepo.java
        BetaRepo.java
        CrosswireRepo.java
        DownloadManager.java
        EBibleRepo.java
        FakeSwordBookFactory.java
        GenericFileDownloader.java
        IBTRepo.java
        IndexDownloader.java
        RepoBase.java
        RepoBookDeduplicator.java
        RepoFactory.java
        XiphosRepo.java
        font
        FontControl.java
        format
        HtmlMessageFormatter.java
        Note.java
        OSISInputStream.java
        OSISVerseTidy.java
        osistohtml
        HtmlTextWriter.java
        OSISUtil2.java
        OsisToHtmlParameters.java
        osishandlers
        OsisSaxHandler.java
        OsisToCanonicalTextSaxHandler.java
        OsisToHtmlSaxHandler.java
        OsisToSpeakTextSaxHandler.java
        preprocessor
        HebrewCharacterPreprocessor.java
        TextPreprocessor.java
        strongs
        StrongsHandler.java
        StrongsLinkCreator.java
        StrongsUtil.java
        taghandler
        BookmarkMarker.java
        DivHandler.java
        DivineNameHandler.java
        FigureHandler.java
        HiHandler.java
        LHandler.java
        LbHandler.java
        LgHandler.java
        ListHandler.java
        ListItemHandler.java
        MilestoneHandler.java
        MyNoteMarker.java
        NoopHandler.java
        NoteHandler.java
        OsisTagHandler.java
        PHandler.java
        QHandler.java
        ReferenceHandler.java
        TableCellHandler.java
        TableHandler.java
        TableRowHandler.java
        TagHandlerHelper.java
        TitleHandler.java
        TransChangeHandler.java
        VerseHandler.java
        tei
        OrthHandler.java
        PronHandler.java
        RefHandler.java
        TEIUtil.java
        usermarks
        BookmarkFormatSupport.java
        MyNoteFormatSupport.java
        history
        HistoryItem.java
        HistoryItemBase.java
        HistoryManager.java
        HistoryTraversal.java
        HistoryTraversalFactory.java
        IntentHistoryItem.java
        KeyHistoryItem.java
        readingplan
        OneDaysReadingsDto.java
        PassageReader.java
        ReadingPlanDao.java
        ReadingPlanInfoDto.java
        sword
        AcceptableBookTypeFilter.java
        DocumentParseMethod.java
        SwordContentFacade.java
        SwordDocumentFacade.java
        SwordEnvironmentInitialisation.java
        index
        AndroidIndexPolicy.java
        IndexCreator.java
      - test
        java
        net
        bible
        android
        TestBibleApplication.java
        control
        bookmark
        BookmarkControlTest.java
        BookmarkDtoBibleOrderComparatorTest.java
        download
        DocumentDownloadProgressCacheTest.java
        RelevantLanguageSorterTest.java
        event
        EventManagerStub.java
        mynote
        MyNoteDtoBibleOrderComparatorTest.java
        navigation
        DocumentBibleBooksFactoryTest.java
        DocumentBibleBooksTest.java
        page
        CurrentBibleVerseTest.java
        window
        WindowControlTest.java
        WindowRepositoryTest.java
        WindowSynchronisationTest.java
        WindowTest.java
        report
        EmailerStub.java
        ErrorReportControlTest.java
        versification
        BibleTraverserTest.java
        ConvertibleVerseRangeTest.java
        TestData.java
        VersificationConverterTest.java
        sort
        ConvertibleVerseRangeComparatorTest.java
        VersificationPrioritiserTest.java
        view
        activity
        page
        VerseNoRangeTest.java
        actionmode
        VerseActionModeMediatorTest.java
        service
        common
        CommonUtilsTest.java
        css
        CssControlTest.java
        download
        RepoBookDeduplicatorTest.java
        format
        OSISInputStreamTest.java
        osistohtml
        HtmlTextWriterTest.java
        osishandlers
        OsisToCanonicalTextSaxHandlerTest.java
        OsisToSpeakTextSaxHandlerTest.java
        strongs
        StrongsHandlerTest.java
        StrongsLinkCreatorTest.java
        taghandler
        BookmarkMarkerTest.java
        DivHandlerTest.java
        HiHandlerTest.java
        LHandlerTest.java
        ListHandlerTest.java
        MilestoneHandlerTest.java
        NoteHandlerTest.java
        QHandlerTest.java
        ReferenceHandlerTest.java
        TableHandlerTest.java
        TitleHandlerTest.java
        VerseHandlerTest.java
        readingplan
        PassageReaderTest.java
        sword
        SwordContentFacadeTest.java
        SwordDocumentFacadeTest.java
        test
        PassageTestData.java
        TestEnvironmentFlag.java
        robolectric
        MyRobolectricTestRunner.java
- jsword-tweaks
  - bakup
  - experiments
    - xiphosdownload
      - HttpSwordInstaller.java
  - src
    - main
      - java
        jsword
        org
        crosswire
        jsword
        book
        install
        sword
        AndBibleHttpSwordInstaller.java
        AndBibleHttpSwordInstallerFactory.java
        index
        lucene
        analysis
        Mmseg4jChineseLuceneAnalyzer.java
    - util
      - java
        net
        andbible
        util
        MJDIndexAll.java
        Test.java

/**
 * Distribution License:
 * JSword is free software; you can redistribute it and/or modify it under
 * the terms of the GNU Lesser General Public License, version 2.1 as published by
 * the Free Software Foundation. This program is distributed in the hope
 * that it will be useful, but WITHOUT ANY WARRANTY; without even the
 * implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
 * See the GNU Lesser General Public License for more details.
 *
 * The License is available on the internet at:
 *       http://www.gnu.org/copyleft/lgpl.html
 * or by writing to:
 *      Free Software Foundation, Inc.
 *      59 Temple Place - Suite 330
 *      Boston, MA 02111-1307, USA
 *
 * Copyright: 2007
 *     The copyright to this program is held by it's authors.
 *
 * ID: $Id:  $
 */
package org.crosswire.jsword.index.lucene.analysis;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import java.util.regex.Pattern;

import org.apache.lucene.analysis.LowerCaseTokenizer;
import org.apache.lucene.analysis.PorterStemFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.de.GermanAnalyzer;
import org.apache.lucene.analysis.fr.FrenchAnalyzer;
import org.apache.lucene.analysis.nl.DutchAnalyzer;
import org.apache.lucene.analysis.snowball.SnowballFilter;
import org.apache.lucene.util.Version;
import org.crosswire.jsword.book.Book;

/**
 * An Analyzer whose {@link TokenStream} is built from a
 * {@link LowerCaseTokenizer} filtered with {@link SnowballFilter} (optional)
 * and {@link StopFilter} (optional) Default behavior: Stemming is done, Stop
 * words not removed A snowball stemmer is configured according to the language
 * of the Book. Currently it takes following stemmer names (available stemmers
 * in lucene snowball package net.sf.snowball.ext)
 * 
 * <pre>
 *     Danish
 *     Dutch
 *     English
 *     Finnish
 *     French
 *     German2
 *     German
 *     Italian
 *     Kp
 *     Lovins
 *     Norwegian
 *     Porter
 *     Portuguese
 *     Russian
 *     Spanish
 *     Swedish
 * </pre>
 * 
 * This list is expected to expand, as and when Snowball project support more
 * languages
 * 
 * @see gnu.lgpl.License for license details.<br>
 *      The copyright to this program is held by it's authors.
 * @author sijo cherian [sijocherian at yahoo dot com]
 */
public class ConfigurableSnowballAnalyzer extends AbstractBookAnalyzer {
    public ConfigurableSnowballAnalyzer() {
    }

    /**
     * Filters {@link LowerCaseTokenizer} with {@link StopFilter} if enabled and
     * {@link SnowballFilter}.
     */
    @Override
    public final TokenStream tokenStream(String fieldName, Reader reader) {
        TokenStream result = new LowerCaseTokenizer(reader);
        if (doStopWords && stopSet != null) {
            result = new StopFilter(false, result, stopSet);
        }

        // Configure Snowball filter based on language/stemmerName
        if (doStemming) {
            result = new SnowballFilter(result, stemmerName);
        }

        return result;
    }

    /* (non-Javadoc)
     * @see org.apache.lucene.analysis.Analyzer#reusableTokenStream(java.lang.String, java.io.Reader)
     */
    @Override
    public TokenStream reusableTokenStream(String fieldName, Reader reader) throws IOException {
        SavedStreams streams = (SavedStreams) getPreviousTokenStream();
        if (streams == null) {
            streams = new SavedStreams(new LowerCaseTokenizer(reader));
            if (doStopWords && stopSet != null) {
                streams.setResult(new StopFilter(StopFilter.getEnablePositionIncrementsVersionDefault(matchVersion), streams.getResult(), stopSet));
            }

            if (doStemming) {
                streams.setResult(new PorterStemFilter(streams.getResult()));
            }

            setPreviousTokenStream(streams);
        } else {
            streams.getSource().reset(reader);
        }
        return streams.getResult();
    }

    @Override
    public void setBook(Book newBook) {
        book = newBook;
        stemmerName = null;
        if (book != null) {
            // stemmer name are same as language name, in most cases
            pickStemmer(book.getLanguage().getCode());
        }
    }

    /**
     * Given the name of a stemmer, use that one.
     * 
     * @param languageCode
     */
    public void pickStemmer(String languageCode) {
        if (languageCode != null) {
            // Check for allowed stemmers
            if (languageCodeToStemmerLanguageNameMap.containsKey(languageCode)) {
                stemmerName = languageCodeToStemmerLanguageNameMap.get(languageCode);
            } else {
                throw new IllegalArgumentException("SnowballAnalyzer configured for unavailable stemmer " + stemmerName);
            } 

            // Initialize the default stop words
            if (defaultStopWordMap.containsKey(languageCode)) {
                stopSet = defaultStopWordMap.get(languageCode);
            }
        }
    }

    /**
     * The name of the stemmer to use.
     */
    private String stemmerName;

    private static Map<String, String> languageCodeToStemmerLanguageNameMap = new HashMap<String, String>();
    static {
    	languageCodeToStemmerLanguageNameMap.put("da", "Danish");
    	languageCodeToStemmerLanguageNameMap.put("nl", "Dutch");
    	languageCodeToStemmerLanguageNameMap.put("en", "English");
    	languageCodeToStemmerLanguageNameMap.put("fi", "Finnish");
    	languageCodeToStemmerLanguageNameMap.put("fr", "French");
    	languageCodeToStemmerLanguageNameMap.put("de", "German");
    	languageCodeToStemmerLanguageNameMap.put("it", "Italian");
    	languageCodeToStemmerLanguageNameMap.put("no", "Norwegian");
    	languageCodeToStemmerLanguageNameMap.put("pt", "Portuguese");
    	languageCodeToStemmerLanguageNameMap.put("ru", "Russian");
    	languageCodeToStemmerLanguageNameMap.put("es", "Spanish");
    	languageCodeToStemmerLanguageNameMap.put("sv", "Swedish");
    }

    // Maps StemmerName > String array of standard stop words
    private static HashMap<String, Set<?>> defaultStopWordMap = new HashMap<String, Set<?>>();
    static {
        defaultStopWordMap.put("fr", FrenchAnalyzer.getDefaultStopSet());
        defaultStopWordMap.put("de", GermanAnalyzer.getDefaultStopSet());
        defaultStopWordMap.put("nl", DutchAnalyzer.getDefaultStopSet());
        defaultStopWordMap.put("en", StopAnalyzer.ENGLISH_STOP_WORDS_SET);
    }

    private final Version matchVersion = Version.LUCENE_29;
}