ReverseIndexer.java example

Explorer

androidbible-master
- ATree
  - src
    - main
      - java
        yuku
        atree
        BaseMutableTreeNode.java
        BaseTreeListener.java
        MutableTreeNode.java
        TreeAdapter.java
        TreeCommons.java
        TreeEvent.java
        TreeListener.java
        TreeNode.java
        TreeNodeIconType.java
        TreePath.java
        nodes
        BaseFileTreeNode.java
- Afw
  - src
    - main
      - java
        yuku
        afw
        App.java
        D.java
        V.java
        storage
        InternalDb.java
        InternalDbHelper.java
        Preferences.java
        widget
        EasyAdapter.java
- Alkitab
  - src
- AlkitabConverter
  - src
    - main
      - java
        android
        os
        Parcel.java
        Parcelable.java
        yuku
        alkitabconverter
        Cek7BitFileTeks.java
        CekKebenaranMenjorok.java
        KonvertIsi.java
        KonvertPerikop.java
        OsisBookNames.java
        bdb
        BdbProses.java
        col
        ColProses.java
        CuvColProses.java
        daily_verse
        DailyVerseProses.java
        internal_common
        InternalCommon.java
        ReverseIndexer.java
        reading_plan
        RpaConverter.java
        unboundbible
        UnboundBibleReader.java
        usfx_common
        UsfxToYet.java
        util
        CountingOutputStream.java
        DesktopShiftTb.java
        DesktopVerseFinder.java
        DesktopVerseParser.java
        FootnoteDb.java
        FormatXml.java
        Hitungan31102.java
        IntArrayList.java
        KjvUtils.java
        Patch.java
        Rec.java
        RecUtil.java
        TextDb.java
        Tmp.java
        Usfm2Usfx.java
        UsfmBookName.java
        XrefDb.java
        yes1
        RandomOutputStream.java
        Yes1File.java
        yes_common
        Yes1Common.java
        Yes2Common.java
        yet
        YetFileInput.java
        YetFileOutput.java
- AlkitabConverterProcesses
  - src
    - yuku
      - alkitabconverter
        af_1953
        Proses1.java
        bbc_toba
        TobaBdbProses.java
        de_luther1912
        Proses1.java
        el_byzantine
        Proses1.java
        el_textusreceptus
        Proses1.java
        el_tischendorf
        Proses1.java
        el_whubs4
        Proses1.java
        en_asv
        Proses1.java
        en_bbe
        Proses1.java
        en_kjv_thml
        KjvBdbProses.java
        ProcessToInternal.java
        Proses.java
        Proses2.java
        en_kjv_yet
        ProcessToInternal.java
        en_nkjv
        Proses1.java
        en_web
        Proses1.java
        en_ylt
        Proses1.java
        es_reinavalera1909
        Proses1.java
        hu_karoli
        Proses1.java
        in_bis
        BisBdbProses.java
        BisPerikop0Proses.java
        in_ilt
        Proses2.java
        in_tb_2
        Proses1.java
        in_tb_usfm
        Proses1.java
        Proses2.java
        Proses3.java
        in_tsi_usfm
        Proses1.java
        Proses2.java
        ja_kougo
        Proses1.java
        ko_krv
        Proses1.java
        no_dnb1930
        Proses1.java
        paratest
        Proses1.java
        pl_gdanska1632
        Proses1.java
        pl_nbg
        Proses1.java
        pl_ubg
        Proses1.java
        ro_cornilescu
        Proses1.java
        ro_ortodoxa
        Proses1.java
        sq_kk
        Proses1.java
        thewordbatch
        TheWordBatchConverter.java
        tl_angbiblia1905
        Proses1.java
        unboundbatch
        UnboundBatchConverter.java
        zh_ckjv
        BareToYet.java
- AlkitabConverterTest
  - src
    - yuku
      - alkitabconverter
        util
        DesktopVerseParserTest.java
- AlkitabFeedback
  - src
    - main
      - java
        com
        example
        android
        wizardpager
        MainActivity.java
        wizard
        model
        AbstractWizardModel.java
        BranchPage.java
        CustomerInfoPage.java
        ModelCallbacks.java
        MultipleFixedChoicePage.java
        Page.java
        PageList.java
        PageTreeNode.java
        ReviewItem.java
        SingleFixedChoicePage.java
        TextareaPage.java
        ui
        CustomerInfoFragment.java
        MultipleChoiceFragment.java
        PageFragmentCallbacks.java
        ReviewFragment.java
        SingleChoiceFragment.java
        StepPagerStrip.java
        TextareaFragment.java
        yuku
        alkitabfeedback
        AlkitabFeedbackModel.java
        FeedbackSender.java
        kirimfidbek
        CrashReporter.java
- AlkitabIntegration
  - src
    - main
      - java
        yuku
        alkitabintegration
        AlkitabIntegrationUtil.java
        ConnectionResult.java
        display
        Launcher.java
        provider
        VerseProvider.java
- AlkitabIntegrationDemo
  - src
    - yuku
      - alkitabintegration
        demo
        MainActivity.java
- AlkitabIntegrationTest
  - src
    - yuku
      - alkitabintegration
        test
        LauncherTest.java
        VerseProviderTest.java
- AlkitabIo
  - src
    - main
      - java
        yuku
        alkitab
        io
        BibleReader.java
        OptionalGzipInputStream.java
        Utf8Decoder.java
    - test
      - java
        yuku
        alkitab
        io
        OptionalGzipInputStreamTest.java
- AlkitabModel
  - src
    - main
      - java
        yuku
        alkitab
        model
        Book.java
        FootnoteEntry.java
        InternalBook.java
        Label.java
        Marker.java
        Marker_Label.java
        PericopeBlock.java
        PericopeIndex.java
        ProgressMark.java
        ProgressMarkHistory.java
        SingleChapterVerses.java
        SongInfo.java
        Version.java
        XrefEntry.java
        util
        Gid.java
        util
        Ari.java
        IntArrayList.java
- AlkitabYes2
  - src
    - main
      - java
        yuku
        alkitab
        yes2
        Yes2Reader.java
        Yes2Writer.java
        compress
        SnappyInputStream.java
        SnappyOutputStream.java
        io
        MemoryRandomOutputStream.java
        RandomAccessFileRandomInputStream.java
        RandomAccessFileRandomOutputStream.java
        RandomInputStream.java
        RandomOutputStream.java
        Yes2VerseTextDecoder.java
        model
        PericopeData.java
        SectionIndex.java
        VerseBytes.java
        Yes2Book.java
        Yes2PericopeBlock.java
        section
        BooksInfoSection.java
        FootnotesSection.java
        PericopesSection.java
        TextSection.java
        VersionInfoSection.java
        XrefsSection.java
        base
        SectionContent.java
- AmbilWarna
  - src
    - main
      - java
        yuku
        ambilwarna
        AmbilWarnaDialog.java
        AmbilWarnaSquare.java
        widget
        AmbilWarnaPrefWidgetView.java
        AmbilWarnaPreference.java
- BiblePlus
  - src
    - main
      - java
        com
        compactbyte
        android
        bible
        PDBFileStream.java
        bibleplus
        reader
        BiblePlusPDB.java
        BookInfo.java
        PDBAccess.java
        PDBDataStream.java
        PDBHeader.java
        PDBRecord.java
        Util.java
- BintexReader
  - src
    - main
      - java
        yuku
        bintex
        BintexReader.java
        ValueMap.java
- BintexWriter
  - src
    - main
      - java
        yuku
        bintex
        BintexWriter.java
- DragSortListView
  - src
    - main
      - java
        com
        mobeta
        android
        dslv
        DragSortController.java
        DragSortCursorAdapter.java
        DragSortItemView.java
        DragSortListView.java
        ResourceDragSortCursorAdapter.java
        SimpleDragSortCursorAdapter.java
        SimpleFloatViewManager.java
- FlowLayout
  - src
    - main
      - java
        yuku
        devoxx
        flowlayout
        FlowLayout.java
- ImportedDesktopVerseUtil
  - src
    - main
      - java
        yuku
        alkitabconverter
        util
        DesktopVerseFinder.java
        DesktopVerseParser.java
- KpriModel
  - src
    - main
      - java
        yuku
        kpri
        model
        Lyric.java
        Song.java
        Verse.java
        VerseKind.java
- RpaToRpb
  - src
    - yuku
      - readingplanconverter
        RpaInput.java
        RpaToRpb.java
- RpbTester
  - src
    - RpbTester.java
- Snappy
  - src
    - main
      - java
        de
        jarnbjo
        jsnappy
        Buffer.java
        FormatViolationException.java
        IntIterator.java
        IntListHashMap.java
        MapBasedCompressor.java
        SnappyCompressor.java
        SnappyDecompressor.java
        TableBasedCompressor.java
        yuku
        snappy
        codec
        Snappy.java
        SnappyImplJava.java
        SnappyImplNative.java
- YetToYes2
  - src
    - main
      - java
        yuku
        alkitabconverter
        yet
        YetToYes2.java
- extensions
  - example-imagesharer
    - app
      - src
        androidTest
        java
        yuku
        shareverseimage
        ApplicationTest.java
        main
        java
        yuku
        alkitab
        imagesharer
        MultipleVersesFormattedActivity.java
        MultipleVersesPlainActivity.java
        alkitab.imagesharer
        MainActivity.java
        ShareVerseActivity.java

package yuku.alkitabconverter.internal_common;

import java.io.File;
import java.io.FileOutputStream;
import java.nio.charset.Charset;
import java.text.Normalizer;
import java.util.Comparator;
import java.util.Map;
import java.util.Set;
import java.util.TreeMap;
import java.util.TreeSet;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import yuku.alkitabconverter.util.Rec;
import yuku.alkitabconverter.util.TextDb;
import yuku.bintex.BintexWriter;

public class ReverseIndexer {
	public static final String TAG = ReverseIndexer.class.getSimpleName();

	public final static Charset ascii = Charset.forName("ascii");
	public final static Charset utf8 = Charset.forName("utf8");

	public static void createReverseIndex(File outDir, String prefix, TextDb teksDb) {
		Pattern p_word = Pattern.compile("[A-Za-z]+(?:[-'][A-Za-z]+)*");

		Map<String, Set<Integer>> map = new TreeMap<>(new Comparator<String>() {
			@Override public int compare(String o1, String o2) {
				int lenc = o1.length() - o2.length();
				if (lenc == 0) {
					return o1.compareTo(o2);
				} else {
					return lenc;
				}
			}
		});
		
		{
			int lid = 0;
			for (Rec rec: teksDb.toRecList()) {
				lid++;
				
				String text = Normalizer.normalize(rec.text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
				text = text.toLowerCase();
				Matcher m = p_word.matcher(text);
				while (m.find()) {
					String word = m.group();
					Set<Integer> locations = map.get(word);
					if (locations == null) {
						locations = new TreeSet<>();
						map.put(word, locations);
					}
					locations.add(lid);
				}
			}
			System.out.println("Last lid = " + lid);
		}
		
		int maxwordlen = 0;
		for (Map.Entry<String, Set<Integer>> e: map.entrySet()) {
			String word = e.getKey();
			System.out.println("word " + word + " lids=" + e.getValue());
			if (word.length() > maxwordlen) maxwordlen = word.length();
		}
		
		System.out.println("Number of words: " + map.size());
		System.out.println("Longest word: " + maxwordlen);
		
		int stat_lid_absolute = 0;
		int stat_lid_delta = 0;
		
		try {
			BintexWriter bw = new BintexWriter(new FileOutputStream(new File(outDir, String.format("%s_revindex_bt.bt", prefix))));

			// :: int word_count
			bw.writeInt(map.size());
			
			// split based on word length
			for (int i = 1; i <= maxwordlen; i++) {
				Map<String, Set<Integer>> lenmap = new TreeMap<>();
				for (Map.Entry<String, Set<Integer>> e: map.entrySet()) {
					String word = e.getKey();
					if (i == word.length()) {
						lenmap.put(word, e.getValue());
					}
				}
				
				int cnt = lenmap.size();
				System.out.println("Words with length " + i + ": " + cnt);
				
				if (cnt != 0) {
					// :: uint8 word_len
					// :: int word_by_len_count
					bw.writeUint8(i);
					bw.writeInt(cnt);
					
					for (Map.Entry<String, Set<Integer>> e: lenmap.entrySet()) {
						String word = e.getKey();
						Set<Integer> lids = e.getValue();
						
						// :: byte[word_len] word
						// :: uint16 lid_count
						bw.writeRaw(word.getBytes(ascii));
						bw.writeUint16(lids.size());
						
						int last_lid = 0;
						for (int lid: lids) {
							int delta = lid - last_lid;
							if (delta <= 0x7f) {
								bw.writeUint8(delta);
								stat_lid_delta++;
							} else {
								bw.writeChar((char) (0x8000 | lid));
								stat_lid_absolute++;
							}
							
							last_lid = lid;
						}
					}
				}
			}
			
			bw.close();
			
			System.out.println("Lid written using delta = " + stat_lid_delta);
			System.out.println("Lid written using absolute = " + stat_lid_absolute);
			
		} catch (Exception e) {
			throw new RuntimeException(e);
		}
	}			
}