LuceneIndexBuilder.java example

Explorer

GeneDB-master
- Jogra
  - src
    - org
      - genedb
        jogra
        controller
        ImageFormBean.java
        ImageUtils.java
        domain
        BasicGene.java
        ExpressionZoneEditor.java
        FeatureCvTerm.java
        Gene.java
        GeneDBMessage.java
        Term.java
        drawing
        ApplicationClosingEvent.java
        ApplicationMode.java
        BaseForm.java
        ExtensionFileFilter.java
        ImagePanel.java
        Jogra.java
        JograBusiness.java
        JograBusinessImpl.java
        JograLogin.java
        JograLoginService.java
        JograPlugin.java
        JograProgressBar.java
        OpenWindowEvent.java
        Pair.java
        SplashWindow.java
        plugins
        ButtonChangeDocumentListener.java
        CCFrame.java
        CCPanel.java
        ConflictComponentFactory.java
        CvEditor.java
        GeneEditor.java
        GeneList.java
        GeneView.java
        GeneViewModel.java
        GeneViewTest.java
        GoFrame.java
        GoPanel.java
        NameNotePanel.java
        Notes.java
        OrganismEditor.java
        OrganismPanel.java
        OrganismTree.java
        TermRationaliser.java
        services
        BasicGeneService.java
        DatabaseLogin.java
        ExtendedOrganism.java
        ExtendedOrganismManager.java
        FilteringJList.java
        GeneService.java
        LockAndNotificationService.java
        LockStatus.java
        Message.java
        MessageService.java
        MethodResult.java
        NamedVector.java
        RationaliserJList.java
        RationaliserResult.java
        SqlGeneService.java
        SqlTermService.java
        TermService.java
- ng
  - src
    - org
      - genedb
        anttasks
        Password.java
        aop
        HazelcastAspect.java
        db
        adhoc
        PanGenomeManager.java
        PhylonodeManager.java
        Query.java
        analyzers
        AllNamesAnalyzer.java
        AlphaNumericAnalyzer.java
        AlphaNumericTokenizer.java
        audit
        ChangeSet.java
        ChangeTracker.java
        HibernateChangeSet.java
        HibernateChangeTracker.java
        dao
        AuditDao.java
        BaseDao.java
        CvDao.java
        GeneralDao.java
        OrganismDao.java
        PhylogenyDao.java
        PubDao.java
        SequenceDao.java
        domain
        hibernateImpls
        BasicGeneServiceImpl.java
        GeneServiceImpl.java
        LockAndNotificationServiceImpl.java
        MessageServiceImpl.java
        ProductServiceImpl.java
        luceneImpls
        BasicGeneServiceImpl.java
        misc
        GeneDBMessage.java
        GeneListReservations.java
        Message.java
        MethodResult.java
        SemanticLog.java
        objects
        BasicGene.java
        Chromosome.java
        CompoundLocatedFeature.java
        DatabasePolypeptideRegion.java
        Exon.java
        ExtendedOrganism.java
        ExtendedOrganismManager.java
        Gap.java
        Gene.java
        InterProHit.java
        LocatedFeature.java
        PolypeptideRegion.java
        PolypeptideRegionGroup.java
        Product.java
        SimplePolypeptideRegion.java
        SimpleRegionGroup.java
        Transcript.java
        TranscriptComponent.java
        UTR.java
        services
        BasicGeneService.java
        GeneService.java
        LockAndNotificationService.java
        LockStatus.java
        MessageService.java
        ProductService.java
        fixup
        FixResidues.java
        TypeCodes.java
        helpers
        LocationBridge.java
        NameLookup.java
        loading
        AGPLoader.java
        EmblFile.java
        EmblLoader.java
        EmblLocation.java
        FastaFile.java
        FastaLoader.java
        FeatureTable.java
        FeatureUtils.java
        FileProcessor.java
        GoEvidenceCode.java
        GoInstance.java
        LoadAGP.java
        LoadEmbl.java
        LoadFasta.java
        LoadOrthologues.java
        LoadPileups.java
        LoadSNPs.java
        LoadVulgar.java
        LoggingDataSource.java
        ParsingException.java
        RfamLoader.java
        Similarity.java
        SkipRetryAbort.java
        SynonymManager.java
        VulgarLoader.java
        auxiliary
        AddFeatureProperty.java
        Clear.java
        ClearDGPI.java
        ClearDomains.java
        ClearHTH.java
        ClearOPIReferences.java
        ClearPlasmoAP.java
        ClearRfam.java
        ClearSignalP.java
        ClearTMHMM.java
        ClonedGenomicInsertLoader.java
        DGPILoader.java
        DeleteRedundantGOTerms.java
        DomainFile.java
        DomainLoader.java
        GOALoader.java
        HTHLoader.java
        Load.java
        Loader.java
        LocationLoader.java
        OPIReferenceLoader.java
        PhosphopeptideLoader.java
        PlasmoAPLoader.java
        RenameFeature.java
        RfamLoader.java
        SignalPLoader.java
        SystemPropertyOverridingDataSource.java
        TMHMMLoader.java
        taxon
        TaxonNameType.java
        TaxonNode.java
        TaxonNodeArrayPropertyEditor.java
        TaxonNodeList.java
        TaxonNodeListFormatter.java
        TaxonNodeManager.java
        TaxonUtils.java
        io
        xstream
        MultiMapConvertor.java
        query
        AbstractQuery.java
        BasicQueryI.java
        Detailer.java
        NumberedQueryI.java
        Param.java
        QueryConstants.java
        QueryI.java
        QueryPlaceHolder.java
        QueryStringParser.java
        Result.java
        ResultCompatibility.java
        SimpleListResult.java
        StorageMethod.java
        bool
        BooleanOp.java
        BooleanQuery.java
        BooleanQueryNode.java
        compatability
        AlwaysTrueResultDataSetCompatibility.java
        IdentityResultCompatibility.java
        NullResultCompatibility.java
        ResultCompatibilityChain.java
        custom
        GenesByURI.java
        generation
        QueryAnnotationProcessor.java
        history
        History.java
        SimpleHistory.java
        hql
        HqlQueryTemplate.java
        jdbc
        JdbcQuery.java
        JdbcQueryTemplate.java
        params
        AbstractParam.java
        BooleanParam.java
        FloatParam.java
        IntParam.java
        ListConstraint.java
        SimpleListConstraintDelegate.java
        StringParam.java
        StringParamFromList.java
        parsing
        BasicQueryStringParser.java
        sql
        DataSourceAware.java
        SimpleJdbcTemplateAware.java
        SqlListConstraintDelegate.java
        SqlQuery.java
        querying
        core
        BooleanQuery.java
        BooleanQueryMode.java
        CachedParamDetails.java
        CopyOfLuceneQueryModsNotCompleted.java
        HqlQuery.java
        HtmlFormDetails.java
        LuceneIndex.java
        LuceneIndexFactory.java
        LuceneQuery.java
        NumericQueryVisibility.java
        PagedQuery.java
        Parameter.java
        Query.java
        QueryBeanGenerator.java
        QueryClass.java
        QueryDetails.java
        QueryException.java
        QueryFactory.java
        QueryParam.java
        QueryTemplate.java
        QueryUtils.java
        QueryVisibility.java
        history
        HistoryItem.java
        HistoryManager.java
        HistoryType.java
        QueryHistoryItem.java
        parsing
        ExprLexer.java
        ExprParser.java
        QueryLineParser.java
        tmpquery
        AdvancedQuery.java
        AdvancedSearchCategory.java
        AnnotationStatusQuery.java
        BrowseCategory.java
        ChangedGeneFeaturesQuery.java
        ControlledCurationQuery.java
        CurationQuery.java
        DateAndTypeQuery.java
        DateCountQuery.java
        DateQuery.java
        DbxrefQuery.java
        EcQuery.java
        GeneDetail.java
        GeneLocationQuery.java
        GeneSummary.java
        GeneSummaryMotif.java
        GeneTypeQuery.java
        GenesByDbQuery.java
        GoQuery.java
        IdsToGeneDetailQuery.java
        IdsToGeneSummaryQuery.java
        MotifQuery.java
        NameProductQuery.java
        OrganismHqlQuery.java
        OrganismLuceneQuery.java
        PfamQuery.java
        ProductQuery.java
        ProteinLengthQuery.java
        ProteinMassQuery.java
        ProteinMatchClusterOrthologueQuery.java
        ProteinNumTMQuery.java
        ProteinTargetingSeqQuery.java
        QuickSearchQuery.java
        SimpleNameQuery.java
        SuggestQuery.java
        TaxonQuery.java
        TopLevelFeaturesQuery.java
        smallapps
        WebImageGenerator.java
        util
        ColorUtils.java
        Counters.java
        DumpObject.java
        FontFactoryBean.java
        FontSize.java
        GeneDBFormattingConversionServiceFactoryBean.java
        IterableArray.java
        MD5Util.java
        MutableInteger.java
        Pair.java
        SequenceUtils.java
        SynchronizedTwoKeyMap.java
        TranslationException.java
        Translator.java
        Triplet.java
        TwoKeyMap.java
        web
        applications
        motifsearch
        FastaEntry.java
        FastaLoader.java
        filters
        UriSessionIdFilter.java
        gui
        AllocatedCompoundFeature.java
        ArtemisColours.java
        BdbDiagramCache.java
        ContextMapDiagram.java
        ContextMapWindowController.java
        ContextMapWindowServlet.java
        DiagramCache.java
        DiagramLayout.java
        ImageCreationException.java
        ImageMapSummary.java
        InitHeadlessToolkitServlet.java
        MakeTransparentPixel.java
        ProteinMapDiagram.java
        RenderedContextMap.java
        RenderedDiagram.java
        RenderedDiagramFactory.java
        RenderedProteinMap.java
        TrackedDiagram.java
        UnmodifiableBitSet.java
        filters
        ComboFeatureFilter.java
        NamedStrandedFeatureFilter.java
        RNAFilter.java
        menu
        CompositeMenu.java
        Menu.java
        SimpleMenu.java
        mvc
        controller
        AnnotationChangesRssController.java
        AnnotationChangesRssViewer.java
        ArtemisLaunchController.java
        BaseController.java
        BasketController.java
        BrowseBean.java
        BrowseBeanName.java
        BrowseCategoryController.java
        BrowseTermController.java
        ClassicCompatabilityController.java
        CommonUrlController.java
        ComplexQueryController.java
        ContextMapController.java
        DbController.java
        DbLinkRedirectController.java
        DbXRefListener.java
        FastaFile.java
        FeatureSequenceController.java
        FeedbackController.java
        GeneDBSessionListener.java
        GeneDBWebUtils.java
        GeneSection.java
        GeneUtils.java
        GmodRestControllerV1.java
        GoAssociationUtils.java
        GoLookup.java
        HazelCastServletContextListener.java
        HistoryController.java
        HistoryManagerFactory.java
        HomepageController.java
        HtmlUtils.java
        HttpSessionHistoryManager.java
        HttpSessionHistoryManagerFactory.java
        IdListController.java
        ImageController.java
        Message.java
        MiscPageController.java
        ModelBuilder.java
        NameLookup.java
        NamedFeatureController.java
        NewsItem.java
        NumberNameConverter.java
        OrganismChooserController.java
        OrganismTypeEditor.java
        OrthologsController.java
        PfamLookup.java
        QueryForm.java
        RegionCommand.java
        RestController.java
        ResultBean.java
        ResultCacheSessionListener.java
        ResultHit.java
        Results.java
        ResultsHolder.java
        RootController.java
        SearchHit.java
        SequenceDestination.java
        SequenceDistributorController.java
        SequenceType.java
        Strand.java
        TaxonManagerListener.java
        TracerController.java
        TranscriptFeatureController.java
        WebConstants.java
        WsQueryController.java
        analysis
        MotifSearchController.java
        MotifSearcher.java
        cgview
        CachedFile.java
        CachedFileFactory.java
        download
        AbstractGeneDBFormController.java
        BaseCachingController.java
        DownloadBean.java
        DownloadController.java
        DownloadProcess.java
        DownloadProcessUtil.java
        FeatureDTOAdaptor.java
        FormatBase.java
        FormatCSV.java
        FormatExcel.java
        FormatFASTA.java
        FormatHTML.java
        GeneDetailFieldValueExctractor.java
        OutputContent.java
        OutputDestination.java
        OutputFormat.java
        OutputManager.java
        OutputOption.java
        QueryController.java
        QueryListController.java
        QuickSearchQueryController.java
        ResultEntry.java
        ResultsController.java
        ResultsNavigatorController.java
        SequenceType.java
        WebUtils.java
        model
        AnnotationChangesRssContent.java
        BerkeleyMapFactory.java
        BmfComparison.java
        CacheDBHelper.java
        CacheSynchroniser.java
        ConfigurableGeneDBSessionFactoryBean.java
        DTOFactory.java
        DbXRefDTO.java
        DtoDb.java
        FeatureCvTermDTO.java
        FeatureDTO.java
        GeneDTO.java
        IndexSynchroniser.java
        IndexUpdater.java
        LuceneIndexBuilder.java
        LuceneIndicesComparison.java
        MembraneStructureComponentDTO.java
        MergeBerkeleyIndices.java
        MergeLuceneIndices.java
        PeriodicUpdater.java
        PolypeptideDTO.java
        PopulateCaches.java
        PopulateLuceneDictionary.java
        PopulateLuceneIndices.java
        ResultsCacheFactory.java
        SmallPopulateLuceneIndices.java
        TranscriptDTO.java
        TranscriptDTOAnalyzer.java
        TranscriptDTOAnalyzer2.java
        TranscriptDTOFactory.java
        load
        AbstractTranscriptLoader.java
        ClusterIdAndOrthologueNamesMapper.java
        DbxRefMapper.java
        FeatureCVTermPropMapper.java
        FeatureCvtermMapper.java
        FeatureMapper.java
        FeaturePropMapper.java
        FeatureRelationshipMapper.java
        FeatureTypeMapper.java
        GeneMapper.java
        OrganismMapper.java
        PolypeptideMapper.java
        PolypeptidePropertiesHelper.java
        PubNameMapper.java
        SynonymTypeMapper.java
        TimerHelper.java
        TopLevelFeatureMapper.java
        TranscriptFeatureCVTermLoader.java
        TranscriptFeaturePropLoader.java
        TranscriptLoader.java
        TranscriptMapper.java
        TranscriptRegionMapper.java
        TranscriptUpdater.java
        simple
        SimpleFeature.java
        SimpleFeatureMapper.java
        SimpleGene.java
        SimpleGeneMapper.java
        SimplePolypeptide.java
        SimplePolypeptideMapper.java
        SimpleTopLevelFeatureMapper.java
        SimpleTranscript.java
        SimpleTranscriptLoader.java
        SimpleTranscriptMapper.java
        types
        DBXRefType.java
        DtoObjectArrayField.java
        DtoStringArrayField.java
        FeatureCVTPropType.java
        FeatureCvtermType.java
        FeaturePropType.java
        PepRegionGroupType.java
        PeptidePropertiesType.java
        SynonymType.java
        TranscriptRegionType.java
        view
        FileCheckingFreemarkerViewResolver.java
        FileCheckingInternalResourceViewResolver.java
        PrefixViewResolver.java
        ServiceView.java
        UriSuffixServiceViewResolver.java
        tags
        bool
        QueryTreeWalker.java
        db
        AbstractHomepageTag.java
        BreadcrumbTag.java
        DbNameTag.java
        DbXRefLinkTag.java
        DisplayPhylogeny.java
        DisplaySimilarity.java
        FilteredPropertyLoopTag.java
        HomepageSelectTag.java
        HomepageTreeTag.java
        HyperlinkDbsInText.java
        ListStringTag.java
        OrganismNameTag.java
        PhylonodeHomePageListTag.java
        PropertyFilterTag.java
        QuickSearchMessageTag.java
        QuickSearchTaxonomicGraphTag.java
        SimpleSelectTag.java
        TableWrapper.java
        TaxonNameTag.java
        misc
        DebugTag.java
        DisplayDateTag.java
        FormatSequenceTag.java
        HistoryTag.java
        ListItemsTag.java
        SystematicNameFormatTag.java
        UrlTag.java
        utils
        DownloadUtils.java
        Gff3Utils.java
        Grep.java
      - gmod
        schema
        bulk
        AbstractIterator.java
        BulkProcessor.java
        DataIntegrityViolation.java
        DatabaseException.java
        ProcessingException.java
        TranscriptHandler.java
        TranscriptInfo.java
        cfg
        ChadoAnnotationConfiguration.java
        ChadoAnnotationException.java
        ChadoAnnotationSettingsFactory.java
        ChadoSessionFactoryBean.java
        FeatureType.java
        FeatureTypeUtils.java
        FilteringSessionFactory.java
        OrganismHeirachy.java
        feature
        AbstractExon.java
        AbstractGene.java
        AminoAcid.java
        ApicoplastChromosome.java
        BACEnd.java
        Centromere.java
        Chromosome.java
        CloneInsert.java
        ClonedGenomicInsert.java
        ConjugativeTransposon.java
        Contig.java
        CytoplasmicRegion.java
        DNATransposon.java
        Deletion.java
        DinucleotideRepeatMicrosatelliteFeature.java
        DirectRepeatRegion.java
        EST.java
        ESTMatch.java
        Exon.java
        ExtramembraneRegion.java
        FivePrimeUTR.java
        GPIAnchorCleavageSite.java
        Gap.java
        Gene.java
        GenomicIsland.java
        HelixTurnHelix.java
        Insertion.java
        IntegratedMobileGeneticElement.java
        IntegratedPlasmid.java
        IntramembraneRegion.java
        Intron.java
        InvertedRepeatRegion.java
        Junction.java
        LinearDoubleStrandedDNAChromosome.java
        LongTerminalRepeat.java
        MRNA.java
        Match.java
        MatchPart.java
        MembraneStructure.java
        MembraneStructureComponent.java
        Microsatellite.java
        MitochondrialChromosome.java
        MobileGeneticElement.java
        ModifiedAminoAcidFeature.java
        NcRNA.java
        NonCytoplasmicRegion.java
        NucleotideMatch.java
        PCRProduct.java
        Plasmid.java
        PolycistronicTranscript.java
        Polypeptide.java
        PolypeptideDomain.java
        PolypeptideMotif.java
        PolypeptideRegion.java
        PolypeptideStructuralMotif.java
        PrimaryTranscript.java
        ProductiveTranscript.java
        Promoter.java
        Prophage.java
        ProteinMatch.java
        Pseudogene.java
        PseudogenicExon.java
        PseudogenicTranscript.java
        RNApol_I_Promoter.java
        RRNA.java
        Read.java
        Reagent.java
        Region.java
        Remark.java
        RepeatRegion.java
        RepeatUnit.java
        SECISElement.java
        SNP.java
        ScRNA.java
        SequenceAlteration.java
        SequenceDifference.java
        SequenceVariant.java
        SignalPeptide.java
        SnRNA.java
        SnoRNA.java
        SpliceSite.java
        SplicedLeaderRNA.java
        Supercontig.java
        TRNA.java
        TandemRepeat.java
        TetraNucleotideRepeatMicrosatelliteFeature.java
        ThreePrimeUTR.java
        TopLevelFeature.java
        Transcript.java
        TranscriptRegion.java
        TransmembraneRegion.java
        TransposableElement.java
        TrinucleotideRepeatMicrosatelliteFeature.java
        UORF.java
        UTR.java
        mapped
        Analysis.java
        AnalysisFeature.java
        AnalysisProp.java
        Cv.java
        CvTerm.java
        CvTermDbXRef.java
        CvTermPath.java
        CvTermProp.java
        CvTermRelationship.java
        CvTermSynonym.java
        Db.java
        DbXRef.java
        DbXRefProp.java
        Feature.java
        FeatureCvTerm.java
        FeatureCvTermDbXRef.java
        FeatureCvTermProp.java
        FeatureCvTermPub.java
        FeatureDbXRef.java
        FeatureLoc.java
        FeatureLocPub.java
        FeatureProp.java
        FeaturePropPub.java
        FeaturePub.java
        FeatureRelationship.java
        FeatureRelationshipProp.java
        FeatureRelationshipPropPub.java
        FeatureRelationshipPub.java
        FeatureSynonym.java
        HasPubsAndDbXRefs.java
        Organism.java
        OrganismDbXRef.java
        OrganismProp.java
        Phylonode.java
        PhylonodeDbXRef.java
        PhylonodeOrganism.java
        PhylonodeProp.java
        PhylonodePub.java
        PhylonodeRelationship.java
        Phylotree.java
        PhylotreePub.java
        Project.java
        Pub.java
        PubAuthor.java
        PubDbXRef.java
        PubProp.java
        PubRelationship.java
        Synonym.java
        utils
        CollectionUtils.java
        CompoundLocation.java
        CountedName.java
        CvTermUtils.java
        GeneNameOrganism.java
        LocationUtils.java
        ObjectManager.java
        PeptideProperties.java
        Rankable.java
        RankableUtils.java
        SimilarityI.java
        SingleLocation.java
        Strand.java
        StrandedLocation.java
        propinterface
        PropertyI.java
  - test
    - org
      - genedb
        db
        audit
        HibernateChangeTrackerTest.java
        MockChangeSetImpl.java
        MockChangeTrackerImpl.java
        dao
        PhylogenyDaoTest.java
        domain
        test
        BasicGeneHelper.java
        MockBasicGeneService.java
        loading
        EmblFileTest.java
        EmblLoaderBergheiTest.java
        EmblLoaderMansoniTest.java
        EmblLoaderReloadTest.java
        EmblLoaderSyntheticTest.java
        EmblLoaderTestHelper.java
        EmblLocationTest.java
        FastaFileTest.java
        FastaLoaderTest.java
        FeatureTester.java
        OrthologueLoaderClusteredTest.java
        OrthologueLoaderImplicitClusterTest.java
        OrthologueLoaderUnclusteredTest.java
        OrthologueTester.java
        TestLogger.java
        auxiliary
        DomainLoaderTest.java
        HTHLoaderTest.java
        RfamLoaderTest.java
        test
        tools
        BuildTestDatabase.java
        querying
        tmpquery
        HibernateTest.java
        MockProteinLengthQuery.java
        ProteinLengthQueryTest.java
        QuickSearchQueryTest.java
        SimpleNameQueryTest.java
        util
        CountersTest.java
        IterableArrayTest.java
        web
        gui
        ContextMapDiagramTest.java
        DiagramLayoutTest.java
        mvc
        controller
        download
        DownloadTest.java
        model
        CacheSynchTestDelegate.java
        TestAbstractUpdater.java
      - gmod
        schema
        mapped
        MockChromosome.java
        MockTranscript.java
        test
        HibernateTest.java

package org.genedb.web.mvc.model;

import org.genedb.db.analyzers.AllNamesAnalyzer;
import org.gmod.schema.utils.CvTermUtils;
import org.apache.log4j.Logger;
import org.apache.log4j.PropertyConfigurator;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;

import java.io.File;
import java.io.IOException;
import java.io.StringReader;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

/**
 * Builds Lucene indices from the Chado database. This is an experiment to
 * see how far we can improve on the performance of {@link PopulateLuceneIndices}
 * by using direct JDBC and Lucene calls, rather than using Hibernate and
 * Hibernate Search.
 *
 * @author rh11
 *
 */
public class LuceneIndexBuilder {
    private static final Logger logger = Logger.getLogger(LuceneIndexBuilder.class);

    private static final String TRANSCRIPT_INDEX_NAME = "transcript";

    public static void main(String[] args)
        throws IOException, ClassNotFoundException, SQLException, ProcessingException
    {
    	
    	PropertyConfigurator.configure("resources/classpath/log4j.index.properties");
    	
        String jdbcConnectionString = args[0];
        String databaseUser = args[1];
        String indexDirectory = args[2];
        String organismCommonName = args[3];

        String databasePassword = new String(System.console().readPassword(
            "Password for %s@%s: ",
            databaseUser, jdbcConnectionString));

        Class.forName("org.postgresql.Driver");
        Connection conn = DriverManager.getConnection(
            jdbcConnectionString, databaseUser, databasePassword);
        conn.setAutoCommit(false); // Autocommit must be off to use cursors
        //configureLog4j();

        LuceneIndexBuilder luceneIndexBuilder = new LuceneIndexBuilder(new File(indexDirectory));

        // There doesn't seem to be anything to be gained by changing this,
        // so the option is disabled. The default of 100 offers a good tradeoff.
        //
        // if (args.length > 4) {
        //     luceneIndexBuilder.fetchSize = Integer.parseInt(args[4]);
        // }

        luceneIndexBuilder.addOrganism(conn, organismCommonName);
    }

//    private static void configureLog4j() {
//        String log4jprops = "/log4j.lucene.properties";
//        URL url = LuceneIndexBuilder.class.getResource(log4jprops);
//        System.out.printf("Configuring Log4J from '%s'\n", url);
//        PropertyConfigurator.configure(url);
//    }

    private File indexDirectory;
    // Defaults for new index directories
    private Analyzer analyzer = new StandardAnalyzer(); // Is this an appropriate analyzer?
    private IndexWriter.MaxFieldLength maxFieldLength = IndexWriter.MaxFieldLength.LIMITED;

    private IndexWriter getIndexWriter(String name)
        throws CorruptIndexException, LockObtainFailedException, IOException
    {
        Directory directory = FSDirectory.getDirectory(new File(indexDirectory, name));
        return new IndexWriter(directory, analyzer, maxFieldLength);
    }

    private Connection conn;
    private int fetchSize = 100;
    private IndexWriter featureIndexWriter;
    public LuceneIndexBuilder(File indexDirectory) {
        this.indexDirectory = indexDirectory;
    }

    public void addOrganism(Connection conn, String commonName)
        throws CorruptIndexException, LockObtainFailedException, IOException, SQLException, ProcessingException
    {
        this.conn = conn;
        this.featureIndexWriter = getIndexWriter(TRANSCRIPT_INDEX_NAME);
        try {
            addGenes(commonName);
        } finally {
            this.featureIndexWriter.close();
            this.featureIndexWriter = null;
        }
    }

    private Set<Integer> typeIds(String... accessions) throws SQLException {
        Set<Integer> typeIds = new HashSet<Integer>();

        StringBuilder questionMarks = new StringBuilder();
        for (int i=0; i < accessions.length; i++) {
            if (questionMarks.length() > 0) {
                questionMarks.append(", ");
            }
            questionMarks.append("?");
        }

        CvTermUtils.checkCvTermPath(conn);

        String sql =
            "select cvtermpath.subject_id"+
            " from cvtermpath" +
            " join cvterm type on cvtermpath.type_id = type.cvterm_id"+
            " join cvterm object on cvtermpath.object_id = object.cvterm_id"+
            " join dbxref object_dbxref on object.dbxref_id = object_dbxref.dbxref_id"+
            " join cv object_cv on object.cv_id = object_cv.cv_id"+
            " where lower(type.name) = 'is_a'"+
            " and object_cv.name = 'sequence'"+
            " and object_dbxref.accession in (" + questionMarks + ")";

        logger.debug("SQL: " + sql);
        PreparedStatement st = conn.prepareStatement(sql);
        try {
            for (int i=0; i < accessions.length; i++) {
                st.setString(1 + i, accessions[i]);
            }
            ResultSet rs = st.executeQuery();
            while (rs.next()) {
                typeIds.add(rs.getInt("subject_id"));
            }
        } finally {
            try {
                st.close();
            } catch (SQLException e) {
                logger.error("Error during close()", e);
            }
        }

        return typeIds;
    }

    private interface ResultSetProcessor {
        public void process(GeneInfo geneInfo) throws Exception;
        public void noResults() throws Exception;
    }
    @SuppressWarnings("serial")
	private class ProcessingException extends Exception {
        public ProcessingException(String message, Throwable cause) {
            super(message, cause);
        }
    }

    private class GeneInfo {
        int featureId;
        String uniqueName;
        String name;
        boolean isAnalysis;

        int fmin;
        int fmax;
        int strand;
        int srcFeatureId;
        String srcFeatureUniqueName;
        int srcFeatureSeqLen;
        List<String> synonyms = new ArrayList<String>();

        int organismId;
        String organismCommonName;
        String organismAbbreviation;
        String organismGenus;
        String organismSpecies;
        int cvTermId;
        String cvTermName;

        public GeneInfo(ResultSet rs) throws SQLException {
            featureId = rs.getInt("feature_id");
            uniqueName = rs.getString("uniquename");
            name = rs.getString("name");
            isAnalysis = rs.getBoolean("is_analysis");

            fmin = rs.getInt("fmin");
            fmax = rs.getInt("fmax");
            strand = rs.getShort("strand");
            srcFeatureId = rs.getInt("srcfeature_id");
            srcFeatureUniqueName = rs.getString("srcfeature_uniquename");
            srcFeatureSeqLen = rs.getInt("srcfeature_seqlen");

            String synonym = rs.getString("synonym");
            if (synonym != null) {
                synonyms.add(synonym);
            }

            organismId = rs.getInt("organism_id");
            organismCommonName = rs.getString("organism_common_name");
            organismAbbreviation = rs.getString("organism_abbreviation");
            organismGenus = rs.getString("organism_genus");
            organismSpecies = rs.getString("organism_species");

            cvTermId = rs.getInt("type_cvterm_id");
            cvTermName = rs.getString("type_name");
        }
    }

    int serialNumber;

    private void processFeatures(String organismCommonName,
            Collection<Integer> typeIds, ResultSetProcessor processor)
        throws SQLException, ProcessingException
    {
        if (typeIds.isEmpty()) {
            throw new IllegalArgumentException("typeIds is empty");
        }
        StringBuilder typeIdsCommaSeparated = new StringBuilder();
        for(int typeId: typeIds) {
            if (typeIdsCommaSeparated.length() > 0) {
                typeIdsCommaSeparated.append(", ");
            }
            typeIdsCommaSeparated.append(typeId);
        }

        String sql =
            "select feature.feature_id"+
            "     , feature.uniquename"+
            "     , feature.name"+
            "     , feature.is_analysis"+
            "     , featureloc.fmin"+
            "     , featureloc.fmax"+
            "     , featureloc.strand"+
            "     , srcfeature.feature_id as srcfeature_id"+
            "     , srcfeature.uniquename as srcfeature_uniquename"+
            "     , srcfeature.seqlen as srcfeature_seqlen"+
            "     , synonym_sub.name as synonym"+
            "     , organism.organism_id"+
            "     , organism.genus as organism_genus"+
            "     , organism.species as organism_species"+
            "     , organism.common_name as organism_common_name"+
            "     , organism.abbreviation as organism_abbreviation"+
            "     , type.cvterm_id as type_cvterm_id"+
            "     , type.name as type_name"+
            " from feature"+
            " join featureloc on feature.feature_id = featureloc.feature_id"+
            " join feature srcfeature on featureloc.srcfeature_id = srcfeature.feature_id"+
            " left join (" +
            "   select feature_synonym.feature_id, synonym.name" +
            "   from feature_synonym join synonym on feature_synonym.synonym_id = synonym.synonym_id" +
            " ) synonym_sub on feature.feature_id = synonym_sub.feature_id"+
            " join organism on feature.organism_id = organism.organism_id"+
            " join cvterm type on feature.type_id = type.cvterm_id"+
            " where feature.type_id in (" + typeIdsCommaSeparated + ")"+
            " and featureloc.locgroup = 0 and featureloc.rank = 0"+
            " and not feature.is_obsolete"+
            " and feature.organism_id = ("+
            "   select organism_id from organism where common_name = ?" +
            " )";
        logger.debug("SQL: " + sql);
        PreparedStatement st = conn.prepareStatement(sql);
        st.setFetchSize(fetchSize);
        serialNumber = 1;

        try {
            st.setString(1, organismCommonName);
            ResultSet rs = st.executeQuery();
            int previousFeatureId = -1;
            GeneInfo geneInfo = null;

            while (rs.next()) {
                int thisFeatureId = rs.getInt("feature_id");
                if (thisFeatureId == previousFeatureId) {
                    geneInfo.synonyms.add(rs.getString("synonym"));
                } else {
                    if (previousFeatureId > 0) {
                        processFeature(processor, geneInfo);
                    }
                    geneInfo = new GeneInfo(rs);
                    previousFeatureId = thisFeatureId;
                }
            }
            if (previousFeatureId > 0) {
                processFeature(processor, geneInfo);
            }
        } finally {
            try {
                st.close();
            } catch (SQLException e) {
                logger.error("Error during close()", e);
            }
        }
    }

    /**
     * @param processor
     * @param rs
     * @param n
     * @param geneInfo
     * @throws ProcessingException
     * @throws SQLException
     */
    private void processFeature(ResultSetProcessor processor, GeneInfo geneInfo)
            throws ProcessingException, SQLException {
        try {
            if (logger.isTraceEnabled()) {
                logger.trace(String.format("[%d] Processing gene '%s'",
                    serialNumber++, geneInfo.uniqueName));
            }
            processor.process(geneInfo);
        } catch (Exception e) {
            throw new ProcessingException(
                String.format("Error processing feature '%s' (ID=%d)",
                    geneInfo.uniqueName, geneInfo.featureId), e);
        }
    }

    Set<Integer> processedGeneIds;
    private void addGenes(final String commonName)
        throws CorruptIndexException, IOException, SQLException, ProcessingException
    {
        Set<Integer> geneTypeIds = typeIds("0000704", "0000336");
        processedGeneIds = new HashSet<Integer>();
        processFeatures(commonName, geneTypeIds, new ResultSetProcessor() {

            @Override
            public void process(GeneInfo geneInfo)
            throws SQLException, CorruptIndexException, IOException {
                if (processedGeneIds.contains(geneInfo.featureId)) {
                    logger.error(String.format("Gene '%s' (ID=%d) already processed"));
                    return;
                }
                processedGeneIds.add(geneInfo.featureId);
                Document doc = documentForGene(geneInfo);
                featureIndexWriter.addDocument(doc);
            }

            @Override
            public void noResults() {
                logger.error(String.format("No genes found for '%s' - check spelling", commonName));
            }

        });
        featureIndexWriter.close();
    }

    private static Analyzer allNamesAnalyzer = new AllNamesAnalyzer();
    private Document documentForGene(GeneInfo geneInfo) {
        Document doc = new Document();

        StringBuilder synonymsAsTabSeparatedString = new StringBuilder();
        for (String synonym: geneInfo.synonyms) {
            if (synonymsAsTabSeparatedString.length() > 0) {
                synonymsAsTabSeparatedString.append('\t');
            }
            synonymsAsTabSeparatedString.append(synonym);
        }

        StringBuilder allNames = new StringBuilder();
        if (geneInfo.name != null) {
            allNames.append(geneInfo.name + ' ');
        }
        allNames.append(geneInfo.uniqueName + ' ');
        allNames.append(synonymsAsTabSeparatedString);

        TokenStream allNamesTokenized = allNamesAnalyzer.tokenStream(
            "allNames", new StringReader(allNames.toString()));

        doc.add(new Field("featureId", Integer.toString(geneInfo.featureId),
                Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("uniqueName", geneInfo.uniqueName,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("name", geneInfo.name == null ? "" : geneInfo.name,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("analysis", Boolean.toString(geneInfo.isAnalysis),
            Field.Store.NO, Field.Index.NOT_ANALYZED));

        doc.add(new Field("synonym", synonymsAsTabSeparatedString.toString(),
            Field.Store.YES, Field.Index.ANALYZED));

        doc.add(new Field("allNames", allNamesTokenized));

        doc.add(new Field("start", String.format("%09d", geneInfo.fmin),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("stop", String.format("%09d", geneInfo.fmax),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("strand", Integer.toString(geneInfo.strand),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("chr", geneInfo.srcFeatureUniqueName,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("chrId", Integer.toString(geneInfo.srcFeatureId),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("chrlen", Integer.toString(geneInfo.srcFeatureSeqLen),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("organism.organismId", Integer.toString(geneInfo.organismId),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("organism.commonName", geneInfo.organismCommonName,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("organism.abbreviation", geneInfo.organismAbbreviation,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("organism.genus", geneInfo.organismGenus,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("organism.species", geneInfo.organismSpecies,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("type.cvTermId", Integer.toString(geneInfo.cvTermId),
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        doc.add(new Field("type.name", geneInfo.cvTermName,
            Field.Store.YES, Field.Index.NOT_ANALYZED));

        // protein
        return doc;
    }

}