ReferenceTest.java example

Explorer

crawl2-master
- src
  - main
    - java
      - org
        genedb
        crawl
        CrawlErrorType.java
        CrawlException.java
        Tester.java
        annotations
        ListType.java
        ResourceDescription.java
        bam
        BAMConverter.java
        BioDataFileStore.java
        BioDataFileStoreInitializer.java
        Sam.java
        business
        FileUtil.java
        TabixGenerator.java
        TabixReader.java
        TabixReaderInfo.java
        client
        CrawlClient.java
        controller
        BaseController.java
        FeatureController.java
        FeaturesController.java
        OrganismsController.java
        RegionsController.java
        SamController.java
        TermsController.java
        TestingController.java
        VariantController.java
        editor
        DatePropertyEditor.java
        ListSplittingPropertyEditor.java
        dao
        FeatureDAO.java
        FeaturesDAO.java
        OrganismsDAO.java
        RegionsDAO.java
        SamDAO.java
        TermsDAO.java
        VariantDAO.java
        backend
        BaseDAO.java
        FeatureDAO.java
        FeaturesDAO.java
        OrganismsDAO.java
        RegionsDAO.java
        SamDAO.java
        TermsDAO.java
        VariantDAO.java
        proxy
        DAOFactory.java
        DAOInvocationHandler.java
        Proxies.java
        ProxyFeatureMapper.java
        elasticsearch
        Connection.java
        LocalConnection.java
        TransportConnection.java
        index
        IndexBuilder.java
        NonDatabaseDataSourceIndexBuilder.java
        cv
        CvIndexBuilder.java
        das
        DASFileBuilder.java
        DASIndexBuilder.java
        DasFetcher.java
        gff
        FeatureBeanFactory.java
        GFFAnnotatationExtractor.java
        GFFFeature.java
        GFFFileFilter.java
        GFFIndexBuilder.java
        GFFSequenceExtractor.java
        json
        OrganismIndexBuilder.java
        ReferenceIndexBuilder.java
        sql
        CvtermUtil.java
        IncrementalSQLIndexBuilder.java
        SQLIndexer.java
        mappers
        ElasticSearchBaseMapper.java
        ElasticSearchFeatureCvtermMapper.java
        ElasticSearchFeatureMapper.java
        ElasticSearchFeaturesMapper.java
        ElasticSearchOrganismsMapper.java
        ElasticSearchRegionsMapper.java
        ElasticSearchTermsMapper.java
        plugin
        RegexPlugin.java
        RegexQueryParser.java
        hazelcast
        HazelcastMonitor.java
        HazelcastService.java
        json
        JsonDateDeserializer.java
        JsonDateSerializer.java
        JsonIzer.java
        mappers
        AuditMapper.java
        FeatureCvtermMapper.java
        FeatureMapper.java
        FeaturesMapper.java
        MapperUtil.java
        OrganismsMapper.java
        RegionsMapper.java
        TermsMapper.java
        model
        Alignment.java
        AlignmentSequenceAlias.java
        Alignments.java
        Analysis.java
        AnalysisFeature.java
        Argument.java
        BioDataFile.java
        BlastPair.java
        Change.java
        Coordinates.java
        CrawlError.java
        Cv.java
        Cvterm.java
        CvtermProp.java
        CvtermRelationship.java
        Db.java
        Dbxref.java
        Exon.java
        Feature.java
        FeatureCollection.java
        FeatureGenes.java
        FeatureGenesList.java
        FeatureRelationship.java
        Gene.java
        HierarchicalFeature.java
        HierarchicalFeatureList.java
        HierarchyGeneFetchResult.java
        HierarchyRelation.java
        LocatedFeature.java
        LocationBoundaries.java
        MappedCoverage.java
        MappedQuery.java
        MappedQueryRecordElementList.java
        MappedSAMHeader.java
        MappedSAMRecord.java
        MappedSAMRecords.java
        MappedSAMSequence.java
        MappedSAMSequenceList.java
        MappedVCFRecord.java
        MappedVariantBase.java
        Organism.java
        OrganismList.java
        Orthologue.java
        Property.java
        Pub.java
        Reference.java
        RegionsInOrganism.java
        Resource.java
        Sequence.java
        Service.java
        Statistic.java
        Synonym.java
        Transcript.java
        Variant.java
        XMLResponseWrapper.java
        adapter
        AlignmentBlockAdapter.java
        modelling
        FeatureMapperUtil.java
        LocatedFeatureUtil.java
        RegionFeatureBuilder.java
        servlet
        CrawlServletContextListener.java
        view
        BaseView.java
        CrawlMappingExceptionResolver.java
        CrawlViewResolver.java
        JacksonView.java
        XMLView.java
        util
        TranslationException.java
        Translator.java
      - uk
        ac
        sanger
        artemis
        components
        variant
        BCFReaderAdapter.java
        FTPSeekableStream.java
        IntEnumPatternResolver.java
        MyVCFRecord.java
        TabixReaderAdapter.java
        VCFRecordAdapter.java
        VariantFilterOption.java
        VariantFilterOptions.java
        VariantReaderAdapter.java
  - test
    - java
      - org
        genedb
        crawl
        ClientTest.java
        CvTest.java
        DatabaseTest.java
        ElasticTest.java
        FTPTest.java
        GFFFeatureTest.java
        VariantFilterOptionsTest.java
        elasticsearch
        index
        ReferenceTest.java
      - uk
        ac
        sanger
        artemis
        components
        variant
        VariantTest.java

package org.genedb.crawl.elasticsearch.index;

import java.io.BufferedReader;
import java.io.File;
import java.util.ArrayList;
import java.util.EnumSet;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.log4j.Logger;
import org.elasticsearch.action.admin.cluster.health.ClusterHealthStatus;
import org.genedb.crawl.elasticsearch.index.json.ReferenceIndexBuilder;
import org.genedb.crawl.elasticsearch.mappers.ElasticSearchRegionsMapper;
import org.genedb.crawl.model.Alignments;
import org.genedb.crawl.model.Feature;
import org.genedb.crawl.model.LocatedFeature;
import org.genedb.crawl.model.Reference;
import org.genedb.crawl.model.Sequence;

import junit.framework.TestCase;

public class ReferenceTest extends TestCase {
	
	static Logger logger = Logger.getLogger(ReferenceTest.class);
	
	String propFile = "resource-elasticsearch-local.properties";
	String jsonFile = "src/test/resources/alignments-vrtrack.json";
	
	public void test1() throws Exception {
		
		String[] args = new String[] {
			"-pe", propFile,
			"-r" , jsonFile
		};
		
		ReferenceIndexBuilder builder = new ReferenceIndexBuilder();
		builder.prerun(args);
		
		ElasticSearchRegionsMapper regionsMapper = builder.regionsMapper;
		
		regionsMapper.waitForStatus(EnumSet.of(ClusterHealthStatus.GREEN, ClusterHealthStatus.YELLOW));
		
		Alignments store = builder.jsonIzer.fromStringOrFile(jsonFile, Alignments.class);
		
		List<String> includes = new ArrayList<String>();
		includes.add("exon");
		
		Pattern p = Pattern.compile("ID=[^;]+");
		
		
		
		for (Reference r : store.references) {
			logger.info("verifying " + r.organism.common_name);
			String file = r.file;
			BufferedReader buf = builder.getReader(new File(file));
			
			Set<String> ids = new HashSet<String>();
			Map<String,String> idLines = new HashMap<String,String>();
			
			boolean fasta = false;
			
			String line = null;
			int featureCDSLines = 0;
			while ((line=buf.readLine())!=null) {
				
				if (line.startsWith("##sequence-region")) {
					fasta = false;
					continue;
				}
				if (line.startsWith(">")) {
					fasta = true;
					continue;
				}
				
				if ( (!fasta) && (!line.startsWith("#")) && (!line.startsWith(">"))) {
					
					logger.info(line);
					
					Matcher m = p.matcher(line);
					m.find();
					
					
					
					String id = m.group();
					
					id = id.replaceFirst("ID=", "");
					
					if (id.startsWith("\"") && id.endsWith("\"")) {
						id = id.substring(1, id.length() - 1);
					}
					
					logger.info("Found id " + id);
					
					if (ids.contains(id)) {
						logger.warn("already seen " + id + " here " + idLines.get(id));
						logger.warn("now seen " + id + " here " + line);
						continue;
					}
					else if (line.contains("\tCDS\t") ) {
					    
					    ids.add(id);
	                    idLines.put(id, line);
					    
					    featureCDSLines++;
					}
					
				}
			}
			
			
			
			int featureCount = 0;
			
			Set<String> locatedIDs = new HashSet<String>();
			
			List<Feature> regions = regionsMapper.inorganism(r.organism.ID, null, null, null);
			for (Feature region : regions) {
				Sequence sequence = regionsMapper.sequence(region.uniqueName);
				
				//logger.info(String.format("%s %s %s", region.uniqueName, 1, (int) sequence.length));
				List<LocatedFeature> locatedFeatures = regionsMapper.locations(
						region.uniqueName, 1, (int) sequence.length, false, includes);
				//logger.info(locatedFeatures.size());
				
				
				for (LocatedFeature feature : locatedFeatures) {
					locatedIDs.add(feature.uniqueName);
					featureCount++;
				}
				
			}
			
//			boolean allPresentAndAccountedFor = true;
//			
//			for (String id : ids) {
//				if (locatedIDs.contains(id)) {
//					logger.warn("Found id " + id + " in ES.");
//				} else if ((locatedIDs.contains(id))
//				} else {
//					logger.error("Did not find id " + id + " in ES!");
//					logger.error(id + " : " + idLines.get(id));
//					allPresentAndAccountedFor = false;
//				}
//			}
			
			//assertTrue(allPresentAndAccountedFor);
			
			logger.info(ids.size() + " == " + locatedIDs.size());
			
			logger.info(String.format("%s GFF lines %d == %d features in ES %d", file, featureCDSLines, featureCount, r.organism.ID));
			//assertEquals(featureCDSLines, featureCount);
			
		}
		
		builder.closeIndex();
		
	}
	
}