RfamLoader.java example

Explorer

GeneDB-master
- Jogra
  - src
    - org
      - genedb
        jogra
        controller
        ImageFormBean.java
        ImageUtils.java
        domain
        BasicGene.java
        ExpressionZoneEditor.java
        FeatureCvTerm.java
        Gene.java
        GeneDBMessage.java
        Term.java
        drawing
        ApplicationClosingEvent.java
        ApplicationMode.java
        BaseForm.java
        ExtensionFileFilter.java
        ImagePanel.java
        Jogra.java
        JograBusiness.java
        JograBusinessImpl.java
        JograLogin.java
        JograLoginService.java
        JograPlugin.java
        JograProgressBar.java
        OpenWindowEvent.java
        Pair.java
        SplashWindow.java
        plugins
        ButtonChangeDocumentListener.java
        CCFrame.java
        CCPanel.java
        ConflictComponentFactory.java
        CvEditor.java
        GeneEditor.java
        GeneList.java
        GeneView.java
        GeneViewModel.java
        GeneViewTest.java
        GoFrame.java
        GoPanel.java
        NameNotePanel.java
        Notes.java
        OrganismEditor.java
        OrganismPanel.java
        OrganismTree.java
        TermRationaliser.java
        services
        BasicGeneService.java
        DatabaseLogin.java
        ExtendedOrganism.java
        ExtendedOrganismManager.java
        FilteringJList.java
        GeneService.java
        LockAndNotificationService.java
        LockStatus.java
        Message.java
        MessageService.java
        MethodResult.java
        NamedVector.java
        RationaliserJList.java
        RationaliserResult.java
        SqlGeneService.java
        SqlTermService.java
        TermService.java
- ng
  - src
    - org
      - genedb
        anttasks
        Password.java
        aop
        HazelcastAspect.java
        db
        adhoc
        PanGenomeManager.java
        PhylonodeManager.java
        Query.java
        analyzers
        AllNamesAnalyzer.java
        AlphaNumericAnalyzer.java
        AlphaNumericTokenizer.java
        audit
        ChangeSet.java
        ChangeTracker.java
        HibernateChangeSet.java
        HibernateChangeTracker.java
        dao
        AuditDao.java
        BaseDao.java
        CvDao.java
        GeneralDao.java
        OrganismDao.java
        PhylogenyDao.java
        PubDao.java
        SequenceDao.java
        domain
        hibernateImpls
        BasicGeneServiceImpl.java
        GeneServiceImpl.java
        LockAndNotificationServiceImpl.java
        MessageServiceImpl.java
        ProductServiceImpl.java
        luceneImpls
        BasicGeneServiceImpl.java
        misc
        GeneDBMessage.java
        GeneListReservations.java
        Message.java
        MethodResult.java
        SemanticLog.java
        objects
        BasicGene.java
        Chromosome.java
        CompoundLocatedFeature.java
        DatabasePolypeptideRegion.java
        Exon.java
        ExtendedOrganism.java
        ExtendedOrganismManager.java
        Gap.java
        Gene.java
        InterProHit.java
        LocatedFeature.java
        PolypeptideRegion.java
        PolypeptideRegionGroup.java
        Product.java
        SimplePolypeptideRegion.java
        SimpleRegionGroup.java
        Transcript.java
        TranscriptComponent.java
        UTR.java
        services
        BasicGeneService.java
        GeneService.java
        LockAndNotificationService.java
        LockStatus.java
        MessageService.java
        ProductService.java
        fixup
        FixResidues.java
        TypeCodes.java
        helpers
        LocationBridge.java
        NameLookup.java
        loading
        AGPLoader.java
        EmblFile.java
        EmblLoader.java
        EmblLocation.java
        FastaFile.java
        FastaLoader.java
        FeatureTable.java
        FeatureUtils.java
        FileProcessor.java
        GoEvidenceCode.java
        GoInstance.java
        LoadAGP.java
        LoadEmbl.java
        LoadFasta.java
        LoadOrthologues.java
        LoadPileups.java
        LoadSNPs.java
        LoadVulgar.java
        LoggingDataSource.java
        ParsingException.java
        RfamLoader.java
        Similarity.java
        SkipRetryAbort.java
        SynonymManager.java
        VulgarLoader.java
        auxiliary
        AddFeatureProperty.java
        Clear.java
        ClearDGPI.java
        ClearDomains.java
        ClearHTH.java
        ClearOPIReferences.java
        ClearPlasmoAP.java
        ClearRfam.java
        ClearSignalP.java
        ClearTMHMM.java
        ClonedGenomicInsertLoader.java
        DGPILoader.java
        DeleteRedundantGOTerms.java
        DomainFile.java
        DomainLoader.java
        GOALoader.java
        HTHLoader.java
        Load.java
        Loader.java
        LocationLoader.java
        OPIReferenceLoader.java
        PhosphopeptideLoader.java
        PlasmoAPLoader.java
        RenameFeature.java
        RfamLoader.java
        SignalPLoader.java
        SystemPropertyOverridingDataSource.java
        TMHMMLoader.java
        taxon
        TaxonNameType.java
        TaxonNode.java
        TaxonNodeArrayPropertyEditor.java
        TaxonNodeList.java
        TaxonNodeListFormatter.java
        TaxonNodeManager.java
        TaxonUtils.java
        io
        xstream
        MultiMapConvertor.java
        query
        AbstractQuery.java
        BasicQueryI.java
        Detailer.java
        NumberedQueryI.java
        Param.java
        QueryConstants.java
        QueryI.java
        QueryPlaceHolder.java
        QueryStringParser.java
        Result.java
        ResultCompatibility.java
        SimpleListResult.java
        StorageMethod.java
        bool
        BooleanOp.java
        BooleanQuery.java
        BooleanQueryNode.java
        compatability
        AlwaysTrueResultDataSetCompatibility.java
        IdentityResultCompatibility.java
        NullResultCompatibility.java
        ResultCompatibilityChain.java
        custom
        GenesByURI.java
        generation
        QueryAnnotationProcessor.java
        history
        History.java
        SimpleHistory.java
        hql
        HqlQueryTemplate.java
        jdbc
        JdbcQuery.java
        JdbcQueryTemplate.java
        params
        AbstractParam.java
        BooleanParam.java
        FloatParam.java
        IntParam.java
        ListConstraint.java
        SimpleListConstraintDelegate.java
        StringParam.java
        StringParamFromList.java
        parsing
        BasicQueryStringParser.java
        sql
        DataSourceAware.java
        SimpleJdbcTemplateAware.java
        SqlListConstraintDelegate.java
        SqlQuery.java
        querying
        core
        BooleanQuery.java
        BooleanQueryMode.java
        CachedParamDetails.java
        CopyOfLuceneQueryModsNotCompleted.java
        HqlQuery.java
        HtmlFormDetails.java
        LuceneIndex.java
        LuceneIndexFactory.java
        LuceneQuery.java
        NumericQueryVisibility.java
        PagedQuery.java
        Parameter.java
        Query.java
        QueryBeanGenerator.java
        QueryClass.java
        QueryDetails.java
        QueryException.java
        QueryFactory.java
        QueryParam.java
        QueryTemplate.java
        QueryUtils.java
        QueryVisibility.java
        history
        HistoryItem.java
        HistoryManager.java
        HistoryType.java
        QueryHistoryItem.java
        parsing
        ExprLexer.java
        ExprParser.java
        QueryLineParser.java
        tmpquery
        AdvancedQuery.java
        AdvancedSearchCategory.java
        AnnotationStatusQuery.java
        BrowseCategory.java
        ChangedGeneFeaturesQuery.java
        ControlledCurationQuery.java
        CurationQuery.java
        DateAndTypeQuery.java
        DateCountQuery.java
        DateQuery.java
        DbxrefQuery.java
        EcQuery.java
        GeneDetail.java
        GeneLocationQuery.java
        GeneSummary.java
        GeneSummaryMotif.java
        GeneTypeQuery.java
        GenesByDbQuery.java
        GoQuery.java
        IdsToGeneDetailQuery.java
        IdsToGeneSummaryQuery.java
        MotifQuery.java
        NameProductQuery.java
        OrganismHqlQuery.java
        OrganismLuceneQuery.java
        PfamQuery.java
        ProductQuery.java
        ProteinLengthQuery.java
        ProteinMassQuery.java
        ProteinMatchClusterOrthologueQuery.java
        ProteinNumTMQuery.java
        ProteinTargetingSeqQuery.java
        QuickSearchQuery.java
        SimpleNameQuery.java
        SuggestQuery.java
        TaxonQuery.java
        TopLevelFeaturesQuery.java
        smallapps
        WebImageGenerator.java
        util
        ColorUtils.java
        Counters.java
        DumpObject.java
        FontFactoryBean.java
        FontSize.java
        GeneDBFormattingConversionServiceFactoryBean.java
        IterableArray.java
        MD5Util.java
        MutableInteger.java
        Pair.java
        SequenceUtils.java
        SynchronizedTwoKeyMap.java
        TranslationException.java
        Translator.java
        Triplet.java
        TwoKeyMap.java
        web
        applications
        motifsearch
        FastaEntry.java
        FastaLoader.java
        filters
        UriSessionIdFilter.java
        gui
        AllocatedCompoundFeature.java
        ArtemisColours.java
        BdbDiagramCache.java
        ContextMapDiagram.java
        ContextMapWindowController.java
        ContextMapWindowServlet.java
        DiagramCache.java
        DiagramLayout.java
        ImageCreationException.java
        ImageMapSummary.java
        InitHeadlessToolkitServlet.java
        MakeTransparentPixel.java
        ProteinMapDiagram.java
        RenderedContextMap.java
        RenderedDiagram.java
        RenderedDiagramFactory.java
        RenderedProteinMap.java
        TrackedDiagram.java
        UnmodifiableBitSet.java
        filters
        ComboFeatureFilter.java
        NamedStrandedFeatureFilter.java
        RNAFilter.java
        menu
        CompositeMenu.java
        Menu.java
        SimpleMenu.java
        mvc
        controller
        AnnotationChangesRssController.java
        AnnotationChangesRssViewer.java
        ArtemisLaunchController.java
        BaseController.java
        BasketController.java
        BrowseBean.java
        BrowseBeanName.java
        BrowseCategoryController.java
        BrowseTermController.java
        ClassicCompatabilityController.java
        CommonUrlController.java
        ComplexQueryController.java
        ContextMapController.java
        DbController.java
        DbLinkRedirectController.java
        DbXRefListener.java
        FastaFile.java
        FeatureSequenceController.java
        FeedbackController.java
        GeneDBSessionListener.java
        GeneDBWebUtils.java
        GeneSection.java
        GeneUtils.java
        GmodRestControllerV1.java
        GoAssociationUtils.java
        GoLookup.java
        HazelCastServletContextListener.java
        HistoryController.java
        HistoryManagerFactory.java
        HomepageController.java
        HtmlUtils.java
        HttpSessionHistoryManager.java
        HttpSessionHistoryManagerFactory.java
        IdListController.java
        ImageController.java
        Message.java
        MiscPageController.java
        ModelBuilder.java
        NameLookup.java
        NamedFeatureController.java
        NewsItem.java
        NumberNameConverter.java
        OrganismChooserController.java
        OrganismTypeEditor.java
        OrthologsController.java
        PfamLookup.java
        QueryForm.java
        RegionCommand.java
        RestController.java
        ResultBean.java
        ResultCacheSessionListener.java
        ResultHit.java
        Results.java
        ResultsHolder.java
        RootController.java
        SearchHit.java
        SequenceDestination.java
        SequenceDistributorController.java
        SequenceType.java
        Strand.java
        TaxonManagerListener.java
        TracerController.java
        TranscriptFeatureController.java
        WebConstants.java
        WsQueryController.java
        analysis
        MotifSearchController.java
        MotifSearcher.java
        cgview
        CachedFile.java
        CachedFileFactory.java
        download
        AbstractGeneDBFormController.java
        BaseCachingController.java
        DownloadBean.java
        DownloadController.java
        DownloadProcess.java
        DownloadProcessUtil.java
        FeatureDTOAdaptor.java
        FormatBase.java
        FormatCSV.java
        FormatExcel.java
        FormatFASTA.java
        FormatHTML.java
        GeneDetailFieldValueExctractor.java
        OutputContent.java
        OutputDestination.java
        OutputFormat.java
        OutputManager.java
        OutputOption.java
        QueryController.java
        QueryListController.java
        QuickSearchQueryController.java
        ResultEntry.java
        ResultsController.java
        ResultsNavigatorController.java
        SequenceType.java
        WebUtils.java
        model
        AnnotationChangesRssContent.java
        BerkeleyMapFactory.java
        BmfComparison.java
        CacheDBHelper.java
        CacheSynchroniser.java
        ConfigurableGeneDBSessionFactoryBean.java
        DTOFactory.java
        DbXRefDTO.java
        DtoDb.java
        FeatureCvTermDTO.java
        FeatureDTO.java
        GeneDTO.java
        IndexSynchroniser.java
        IndexUpdater.java
        LuceneIndexBuilder.java
        LuceneIndicesComparison.java
        MembraneStructureComponentDTO.java
        MergeBerkeleyIndices.java
        MergeLuceneIndices.java
        PeriodicUpdater.java
        PolypeptideDTO.java
        PopulateCaches.java
        PopulateLuceneDictionary.java
        PopulateLuceneIndices.java
        ResultsCacheFactory.java
        SmallPopulateLuceneIndices.java
        TranscriptDTO.java
        TranscriptDTOAnalyzer.java
        TranscriptDTOAnalyzer2.java
        TranscriptDTOFactory.java
        load
        AbstractTranscriptLoader.java
        ClusterIdAndOrthologueNamesMapper.java
        DbxRefMapper.java
        FeatureCVTermPropMapper.java
        FeatureCvtermMapper.java
        FeatureMapper.java
        FeaturePropMapper.java
        FeatureRelationshipMapper.java
        FeatureTypeMapper.java
        GeneMapper.java
        OrganismMapper.java
        PolypeptideMapper.java
        PolypeptidePropertiesHelper.java
        PubNameMapper.java
        SynonymTypeMapper.java
        TimerHelper.java
        TopLevelFeatureMapper.java
        TranscriptFeatureCVTermLoader.java
        TranscriptFeaturePropLoader.java
        TranscriptLoader.java
        TranscriptMapper.java
        TranscriptRegionMapper.java
        TranscriptUpdater.java
        simple
        SimpleFeature.java
        SimpleFeatureMapper.java
        SimpleGene.java
        SimpleGeneMapper.java
        SimplePolypeptide.java
        SimplePolypeptideMapper.java
        SimpleTopLevelFeatureMapper.java
        SimpleTranscript.java
        SimpleTranscriptLoader.java
        SimpleTranscriptMapper.java
        types
        DBXRefType.java
        DtoObjectArrayField.java
        DtoStringArrayField.java
        FeatureCVTPropType.java
        FeatureCvtermType.java
        FeaturePropType.java
        PepRegionGroupType.java
        PeptidePropertiesType.java
        SynonymType.java
        TranscriptRegionType.java
        view
        FileCheckingFreemarkerViewResolver.java
        FileCheckingInternalResourceViewResolver.java
        PrefixViewResolver.java
        ServiceView.java
        UriSuffixServiceViewResolver.java
        tags
        bool
        QueryTreeWalker.java
        db
        AbstractHomepageTag.java
        BreadcrumbTag.java
        DbNameTag.java
        DbXRefLinkTag.java
        DisplayPhylogeny.java
        DisplaySimilarity.java
        FilteredPropertyLoopTag.java
        HomepageSelectTag.java
        HomepageTreeTag.java
        HyperlinkDbsInText.java
        ListStringTag.java
        OrganismNameTag.java
        PhylonodeHomePageListTag.java
        PropertyFilterTag.java
        QuickSearchMessageTag.java
        QuickSearchTaxonomicGraphTag.java
        SimpleSelectTag.java
        TableWrapper.java
        TaxonNameTag.java
        misc
        DebugTag.java
        DisplayDateTag.java
        FormatSequenceTag.java
        HistoryTag.java
        ListItemsTag.java
        SystematicNameFormatTag.java
        UrlTag.java
        utils
        DownloadUtils.java
        Gff3Utils.java
        Grep.java
      - gmod
        schema
        bulk
        AbstractIterator.java
        BulkProcessor.java
        DataIntegrityViolation.java
        DatabaseException.java
        ProcessingException.java
        TranscriptHandler.java
        TranscriptInfo.java
        cfg
        ChadoAnnotationConfiguration.java
        ChadoAnnotationException.java
        ChadoAnnotationSettingsFactory.java
        ChadoSessionFactoryBean.java
        FeatureType.java
        FeatureTypeUtils.java
        FilteringSessionFactory.java
        OrganismHeirachy.java
        feature
        AbstractExon.java
        AbstractGene.java
        AminoAcid.java
        ApicoplastChromosome.java
        BACEnd.java
        Centromere.java
        Chromosome.java
        CloneInsert.java
        ClonedGenomicInsert.java
        ConjugativeTransposon.java
        Contig.java
        CytoplasmicRegion.java
        DNATransposon.java
        Deletion.java
        DinucleotideRepeatMicrosatelliteFeature.java
        DirectRepeatRegion.java
        EST.java
        ESTMatch.java
        Exon.java
        ExtramembraneRegion.java
        FivePrimeUTR.java
        GPIAnchorCleavageSite.java
        Gap.java
        Gene.java
        GenomicIsland.java
        HelixTurnHelix.java
        Insertion.java
        IntegratedMobileGeneticElement.java
        IntegratedPlasmid.java
        IntramembraneRegion.java
        Intron.java
        InvertedRepeatRegion.java
        Junction.java
        LinearDoubleStrandedDNAChromosome.java
        LongTerminalRepeat.java
        MRNA.java
        Match.java
        MatchPart.java
        MembraneStructure.java
        MembraneStructureComponent.java
        Microsatellite.java
        MitochondrialChromosome.java
        MobileGeneticElement.java
        ModifiedAminoAcidFeature.java
        NcRNA.java
        NonCytoplasmicRegion.java
        NucleotideMatch.java
        PCRProduct.java
        Plasmid.java
        PolycistronicTranscript.java
        Polypeptide.java
        PolypeptideDomain.java
        PolypeptideMotif.java
        PolypeptideRegion.java
        PolypeptideStructuralMotif.java
        PrimaryTranscript.java
        ProductiveTranscript.java
        Promoter.java
        Prophage.java
        ProteinMatch.java
        Pseudogene.java
        PseudogenicExon.java
        PseudogenicTranscript.java
        RNApol_I_Promoter.java
        RRNA.java
        Read.java
        Reagent.java
        Region.java
        Remark.java
        RepeatRegion.java
        RepeatUnit.java
        SECISElement.java
        SNP.java
        ScRNA.java
        SequenceAlteration.java
        SequenceDifference.java
        SequenceVariant.java
        SignalPeptide.java
        SnRNA.java
        SnoRNA.java
        SpliceSite.java
        SplicedLeaderRNA.java
        Supercontig.java
        TRNA.java
        TandemRepeat.java
        TetraNucleotideRepeatMicrosatelliteFeature.java
        ThreePrimeUTR.java
        TopLevelFeature.java
        Transcript.java
        TranscriptRegion.java
        TransmembraneRegion.java
        TransposableElement.java
        TrinucleotideRepeatMicrosatelliteFeature.java
        UORF.java
        UTR.java
        mapped
        Analysis.java
        AnalysisFeature.java
        AnalysisProp.java
        Cv.java
        CvTerm.java
        CvTermDbXRef.java
        CvTermPath.java
        CvTermProp.java
        CvTermRelationship.java
        CvTermSynonym.java
        Db.java
        DbXRef.java
        DbXRefProp.java
        Feature.java
        FeatureCvTerm.java
        FeatureCvTermDbXRef.java
        FeatureCvTermProp.java
        FeatureCvTermPub.java
        FeatureDbXRef.java
        FeatureLoc.java
        FeatureLocPub.java
        FeatureProp.java
        FeaturePropPub.java
        FeaturePub.java
        FeatureRelationship.java
        FeatureRelationshipProp.java
        FeatureRelationshipPropPub.java
        FeatureRelationshipPub.java
        FeatureSynonym.java
        HasPubsAndDbXRefs.java
        Organism.java
        OrganismDbXRef.java
        OrganismProp.java
        Phylonode.java
        PhylonodeDbXRef.java
        PhylonodeOrganism.java
        PhylonodeProp.java
        PhylonodePub.java
        PhylonodeRelationship.java
        Phylotree.java
        PhylotreePub.java
        Project.java
        Pub.java
        PubAuthor.java
        PubDbXRef.java
        PubProp.java
        PubRelationship.java
        Synonym.java
        utils
        CollectionUtils.java
        CompoundLocation.java
        CountedName.java
        CvTermUtils.java
        GeneNameOrganism.java
        LocationUtils.java
        ObjectManager.java
        PeptideProperties.java
        Rankable.java
        RankableUtils.java
        SimilarityI.java
        SingleLocation.java
        Strand.java
        StrandedLocation.java
        propinterface
        PropertyI.java
  - test
    - org
      - genedb
        db
        audit
        HibernateChangeTrackerTest.java
        MockChangeSetImpl.java
        MockChangeTrackerImpl.java
        dao
        PhylogenyDaoTest.java
        domain
        test
        BasicGeneHelper.java
        MockBasicGeneService.java
        loading
        EmblFileTest.java
        EmblLoaderBergheiTest.java
        EmblLoaderMansoniTest.java
        EmblLoaderReloadTest.java
        EmblLoaderSyntheticTest.java
        EmblLoaderTestHelper.java
        EmblLocationTest.java
        FastaFileTest.java
        FastaLoaderTest.java
        FeatureTester.java
        OrthologueLoaderClusteredTest.java
        OrthologueLoaderImplicitClusterTest.java
        OrthologueLoaderUnclusteredTest.java
        OrthologueTester.java
        TestLogger.java
        auxiliary
        DomainLoaderTest.java
        HTHLoaderTest.java
        RfamLoaderTest.java
        test
        tools
        BuildTestDatabase.java
        querying
        tmpquery
        HibernateTest.java
        MockProteinLengthQuery.java
        ProteinLengthQueryTest.java
        QuickSearchQueryTest.java
        SimpleNameQueryTest.java
        util
        CountersTest.java
        IterableArrayTest.java
        web
        gui
        ContextMapDiagramTest.java
        DiagramLayoutTest.java
        mvc
        controller
        download
        DownloadTest.java
        model
        CacheSynchTestDelegate.java
        TestAbstractUpdater.java
      - gmod
        schema
        mapped
        MockChromosome.java
        MockTranscript.java
        test
        HibernateTest.java

package org.genedb.db.loading;

import org.genedb.db.dao.CvDao;
import org.genedb.db.dao.GeneralDao;
import org.genedb.db.dao.OrganismDao;
import org.genedb.db.dao.PubDao;
import org.genedb.db.dao.SequenceDao;
import org.genedb.db.loading.auxiliary.Loader;

import org.gmod.schema.feature.AbstractGene;
import org.gmod.schema.feature.Chromosome;
import org.gmod.schema.feature.Gene;
import org.gmod.schema.feature.NcRNA;
import org.gmod.schema.feature.SnoRNA;
import org.gmod.schema.feature.Supercontig;
import org.gmod.schema.feature.TRNA;
import org.gmod.schema.feature.TopLevelFeature;
import org.gmod.schema.feature.Transcript;
import org.gmod.schema.mapped.Analysis;
import org.gmod.schema.mapped.AnalysisFeature;
import org.gmod.schema.mapped.DbXRef;
import org.gmod.schema.mapped.FeatureLoc;
import org.gmod.schema.mapped.Organism;
import org.gmod.schema.utils.ObjectManager;

import org.apache.log4j.Logger;
import org.hibernate.Session;
import org.springframework.transaction.annotation.Transactional;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Collections;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Rfam results are stored in text files with 8 columns (as shown below):
 * 
    Neo_chrIa 1249803 1249678   RF00568       1      57     30.00   SNORA26
    Neo_chrIa 1249880 1249736   RF00002       1      60     20.21   5_8S_rRNA
    Neo_chrIa  757311  757240   RF00005       1      59     59.64   tRNA

 * These columns are:
    1.      Chromosome name (TopLevelFeature)
    2.      Start of gene & transcript (fmin relative to chromosome)
    3.      End of gene & transcript (fmax relative to chromosome)
    4.      RNA family (Dbxref of RNA feature)
    5.      Start of Rfam pattern (ignored)
    6.      End of Rfam pattern (ignored)
    7.      Score (Analysis feature of RNA)
    8.      Type of RNA (Type ID in RNA feature corresponding to a Cv term) 
 * 
 * The code below deals with loading Rfam results into a Chado database. We create an abstract gene and a transcript. 
 * The source feature of both the gene and the transcript is the chromosome/supercontig (which in itself is a feature). 
 * The uniquename for a gene is created manually using the chromosomename_rfam_num where num is a 4-digit number (e.g. 0011). 
 * If there is already a gene with that name, there will be an error and it is upto the user to investigate the problem as there shouldn't,
 * in theory, be a gene with that name in the database. The uniquename for the relevant transcript is that gene name with a ':[type]' 
 * added to the end. The type is determined as follows using information in column 8 of the rfam file:
 *          If it's tRNA, then type is tRNA
 *          If it's something beginning SNOR*, then type is snoRNA
 *          For all others, type is ncRNA
 * The Rfam results file has more specific RNA types which will be dbxref's (the accession is the RF000* element in column 4 and 
 * the description is the text in column 8 like 'SNORA26').
 * 
 * Some other notes:
 * - The values in column 2 and 3 are passed as the fmin and fmax values for both the gene & transcript.
 * - The dbxref and analysisfeature objects are added to the transcript (not the gene) as the transcript is the more important (in this 
 * context) of the two.
 * - If, at any point, the toplevelfeature for this is no longer the chromosome the constant 'topLevelFeatureClass' below has to be changed.
 * - Sometimes the min and max values are in the opposite order as the gene is on the opposite strand. When this happens, the fmin and fmax
 * values are set accordingly and strand is set -1 (for featureloc)
 * 
 * SAMPLE USAGE:
 * The ant target needs to be called as follows:
 * 
 *  ant load-rfam -Dconfig=databaseProperties -Dload.analysis.programVersion=2345 -Dfile=rfamResultsFile
 *  
 *  Probably best to use reload-rfam to delete any old rfam results before adding new ones

 * 
 * @author nds
 * 
 * 
 */
public class RfamLoader extends Loader{
    //Constants
    private static final Logger logger = Logger.getLogger(RfamLoader.class);
    private final String DBNAME = "RFAM";
    private Class<? extends TopLevelFeature> topLevelFeatureClass = Chromosome.class; //Change whenever it is decided that chromosome is no longer the sourcefeature for the gene & transcript
    
    // Configurable parameters
    private Organism organism;
    private String geneName = ""; //Is there a correct gene name?
    private int geneNumber = 0; // This will be incremented accordingly and used to create a unique gene name
    private Analysis analysis; 
    private String analysisProgramVersion;
          
    @Override
    protected Set<String> getOptionNames() {
        Set<String> options = new HashSet<String>();
        Collections.addAll(options, "rfam-version");
        return options;
    }
    
    @Override
    protected boolean processOption(String optionName, String optionValue) {
       if (optionName.equals("rfam-version")) {
            analysisProgramVersion = optionValue;
            return true;
        }
        return false;
    }

    /**
     * Reads the Rfam file and parses the lines in the file
     *   
     * @param InputStream, Session
     * @throws IOError if a data problem is discovered
     */
    @Override
    public void doLoad(InputStream inputStream, Session session) throws IOException{
        // Add analysis 
        analysis = new Analysis();
        analysis.setProgram("rfam");
        analysis.setProgramVersion(analysisProgramVersion);
        sequenceDao.persist(analysis);
       
        RfamFile file = new RfamFile(inputStream);

        int n=1;
        for (RfamHit hit: file.hits()) {
            logger.info(String.format("[%d/%d] Processing rfam result for chromosome %s (%d-%d) %d", n++, file.hits().size(), hit.getChromosomeName(), hit.getGeneMin(), hit.getGeneMax(), hit.getStrand()));
            loadHit(hit);
            /*
             * If the session isn't cleared out every so often, it starts to get pretty slow after a 
             * while if we're loading a large file.
             */
            if (n % 50 == 1) {
                logger.info("Clearing session");
                session.clear();
            }
        }
    }
    
    /**
     * Processes each Rfam 'hit' (corresponding to a valid row in the Rfam results file)
     * 
     * @param Rfamhit
     * 
     */

    /*TODO: Remove @supress and hard-coded Chromosome type & make more generic  */
    @SuppressWarnings("unchecked") 
    private void loadHit(RfamHit hit)  {
        /* Get chromosome (source feature) and thereby, organism */
        Chromosome chromosome = sequenceDao.getFeatureByUniqueName(hit.getChromosomeName(), Chromosome.class);
        if(chromosome!=null){
            organism = chromosome.getOrganism();
        }
        
        /*Construct a unique gene name and then make a new gene. Will throw fatal error if gene with this name exists already - very unlikely.
         * If it does, it's a problem that needs to be solved but not by this bit of java.   
         * Then create relevant featureloc and add to gene*/
        geneNumber++;
        String geneNumberString = Integer.toString(geneNumber);
        while(geneNumberString.length() < 4){
            geneNumberString = "0".concat(geneNumberString);
        }
        String geneUniqueName = (hit.getChromosomeName().concat("_rfam_")).concat(geneNumberString);
               
        Gene gene = AbstractGene.make(Gene.class, organism, geneUniqueName, geneName);
        
              
        FeatureLoc rfamLoc = new FeatureLoc(chromosome, gene, hit.getGeneMin(), hit.getGeneMax(), hit.getStrand(), null); //null for phase - is this ok?
        gene.addFeatureLoc(rfamLoc);
        
        /* Determine transcriptType and construct unique name for the transcript */
        String transcriptType = hit.getRnaType();
        Class transcriptClass; //Check the usage of Class here
        if(transcriptType.length()>3 && (transcriptType.substring(0,3)).equalsIgnoreCase("snor")){ //If first 4 letters are SNOR
            transcriptType = "snoRNA";
            transcriptClass = SnoRNA.class;
        }else if(transcriptType.equalsIgnoreCase("trna")){
            transcriptType = "tRNA";
            transcriptClass = TRNA.class;
        }else{
            transcriptType = "ncRNA"; /* All other types called non-coding RNA. The specific RNA names will be stored as dbxrefs */
            transcriptClass = NcRNA.class;
        }
        
        String transcriptUniqueName = (geneUniqueName.concat(":")).concat(transcriptType);
        
        /*Create the transcript which also creates the corresponding featureloc (sourcefeature=chromosome) */
        Transcript transcript = gene.makeTranscript(transcriptClass, transcriptUniqueName, hit.getGeneMin(), hit.getGeneMax());
                  
        /* Score analysis feature */
        AnalysisFeature analysisFeature = transcript.createAnalysisFeature(analysis, hit.getScore(), null); 
        
        /* Create dbxref (db name = RFAM) */
        DbXRef dbxref = objectManager.getDbXRef(DBNAME, hit.getAccession(), hit.getRnaType());
        transcript.addDbXRef(dbxref);
        
        /* Commit everything to database */
         sequenceDao.persist(gene);
         sequenceDao.persist(analysisFeature);
         /* Might be nice here to have the analysisFeature attached to the transcript and hence you commit the transcript...or the gene */
     
    }
   
   
  
}
    
    /**
     * This class represents an Rfam file. Each line in the file is read and compared to the expected pattern. If the pattern
     * matches, a 'hit' is added to the list of hits.
     * 
     * @author nds
     *
     */
    
    class RfamFile {
        private static final Logger logger = Logger.getLogger(RfamFile.class);
        private List<RfamHit> hits = new ArrayList<RfamHit>();

        public RfamFile(InputStream inputStream) throws IOException {
            BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream));
            String line;
            while (null != (line = reader.readLine())) { //While not end of file
                if(0 < line.length()){
                    StringBuilder sb = new StringBuilder(line);
                    sb.append('\n');
                    logger.trace(sb);
                    parseLine(sb);
                }
            }       
        }

        public Collection<RfamHit> hits() {
            return hits;
        }
        
        private final Pattern LINE_PATTERN = Pattern.compile("(\\S+)\\s+(\\d+)\\s+(\\d+)\\s+(\\S+)\\s+(\\d+)\\s+(\\d+)\\s+(\\S+)\\s+(\\S+)\n"); 
              
        private void parseLine(CharSequence line) {
                
            Matcher matcher = LINE_PATTERN.matcher(line);
            if (matcher.matches()) {
                String  chromosomeName = matcher.group(1);
                int geneMin = Integer.parseInt(matcher.group(2));
                int geneMax = Integer.parseInt(matcher.group(3));
                String accession = matcher.group(4);
                int rnaMin = Integer.parseInt(matcher.group(5));
                int rnaMax = Integer.parseInt(matcher.group(6));
                String score = matcher.group(7);
                String rnaType = matcher.group(8);
                
                short strand = +1; //By default gene assumed to be on +ve strand
                
                if(geneMin > geneMax){ //Switching values since these are in opposite as the gene is on the opposite strand
                    int temp = geneMin;
                    geneMin = geneMax;
                    geneMax = temp;
                    strand = -1;
                }
   
                hits.add(new RfamHit(chromosomeName, geneMin, geneMax, accession, rnaMin, rnaMax, score, rnaType, strand));
              
            }
            else {
                logger.error("Failed to parse line:\n" + line);
                /* Probably should throw a parser error here and proceed only if the option is set to ignore errors */
            }
            
        }
    }

    /**
     *  This class corresponds to a line in the Rfam file
     *  
     */
    class RfamHit {
        
        private String  chromosomeName = null;
        private int geneMin = 0;
        private int geneMax = 0;
        private String accession = null;
        private int rnaMin = 0;
        private int rnaMax = 0;
        private String score = null;
        private String rnaType = null;
        private short strand = 0; 
      
        public RfamHit(String chromosomeName, int geneMin, int geneMax, String accession, int rnaMin, int rnaMax, String score, String rnaType, short strand) {
            this.chromosomeName = chromosomeName;
            this.geneMin = geneMin;
            this.geneMax = geneMax;
            this.accession = accession;
            this.rnaMin = rnaMin;
            this.rnaMax = rnaMax;
            this.score = score;
            this.rnaType = rnaType;
            this.strand = strand;
        }
        
        public String getChromosomeName() {
            return chromosomeName;
        }

        public int getGeneMin() {
            return geneMin;
        }

        public int getGeneMax() {
            return geneMax;
        }

        public String getAccession() {
            return accession;
        }

        public int getRnaMin() {
            return rnaMin;
        }
        
        public int getRnaMax() {
            return rnaMax;
        }

        public String getScore() {
            return score;
        }

        public String getRnaType() {
            return rnaType;
        }
        
        public short getStrand(){
            return strand;
        }

   }