plugins/base2/net.sf.basedb.illumina/trunk/README_SNP

Code
Comments
Other
Rev Date Author Line
627 13 Mar 08 nicklas 1 ----------------------------------------------------------------------
627 13 Mar 08 nicklas 2 {{{
627 13 Mar 08 nicklas 3 Copyright (C) 2008
627 13 Mar 08 nicklas 4
627 13 Mar 08 nicklas 5 This file is part of Illumina plug-in package for BASE.
627 13 Mar 08 nicklas 6 Available at http://baseplugins.thep.lu.se/
627 13 Mar 08 nicklas 7 BASE main site: http://base.thep.lu.se/
627 13 Mar 08 nicklas 8
627 13 Mar 08 nicklas 9 This is free software; you can redistribute it and/or
627 13 Mar 08 nicklas 10 modify it under the terms of the GNU General Public License
940 27 Jan 09 martin 11 as published by the Free Software Foundation; either version 3
627 13 Mar 08 nicklas 12 of the License, or (at your option) any later version.
627 13 Mar 08 nicklas 13
627 13 Mar 08 nicklas 14 The software is distributed in the hope that it will be useful,
627 13 Mar 08 nicklas 15 but WITHOUT ANY WARRANTY; without even the implied warranty of
627 13 Mar 08 nicklas 16 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
627 13 Mar 08 nicklas 17 GNU General Public License for more details.
627 13 Mar 08 nicklas 18
627 13 Mar 08 nicklas 19 You should have received a copy of the GNU General Public License
941 27 Jan 09 martin 20 along with BASE. If not, see <http://www.gnu.org/licenses/>.
627 13 Mar 08 nicklas 21 }}}
627 13 Mar 08 nicklas 22 ----------------------------------------------------------------------
627 13 Mar 08 nicklas 23
627 13 Mar 08 nicklas 24 == Introduction ==
627 13 Mar 08 nicklas 25
627 13 Mar 08 nicklas 26 This file contains only information that is specific to Illumina SNP
627 13 Mar 08 nicklas 27 data. For general information or information about expressions data
627 13 Mar 08 nicklas 28 see the README file.
627 13 Mar 08 nicklas 29
627 13 Mar 08 nicklas 30 == Illumina SNP raw data files files ==
627 13 Mar 08 nicklas 31
629 13 Mar 08 nicklas 32 The SNP raw data files are created from BeadStudio and may contain multiple
629 13 Mar 08 nicklas 33 samples. The file should be saved as a tab-separated text file. The first 
629 13 Mar 08 nicklas 34 line is the header line which contains the column names. Some of the columns
629 13 Mar 08 nicklas 35 are specific for each sample, some are common columns valid for all samples.
629 13 Mar 08 nicklas 36 Sample specific columns are prefixed with the sample name, followed by a dot
629 13 Mar 08 nicklas 37 that is followed by a generic column name. For example, UC199_B.GType, where
629 13 Mar 08 nicklas 38 UC199_B is the sample name and GType is the generic column name. The following
629 13 Mar 08 nicklas 39 table lists the columns that are required by the plug-ins in this package. 
627 13 Mar 08 nicklas 40
629 13 Mar 08 nicklas 41 || '''Column'''   || '''Column type''' || '''Example value''' ||
629 13 Mar 08 nicklas 42 || Address        || Common            || 830575              ||      
629 13 Mar 08 nicklas 43 || GenTrain Score || Common            || 0,8607027           ||
629 13 Mar 08 nicklas 44 || GType          || Sample            || BB                  ||
629 13 Mar 08 nicklas 45 || Log R Ratio    || Sample            || 0,1801754           ||
629 13 Mar 08 nicklas 46 || B Allele Freq  || Sample            || 1                   ||
629 13 Mar 08 nicklas 47
629 13 Mar 08 nicklas 48 If any of those columns are missing, the plug-ins may not function correctly.
629 13 Mar 08 nicklas 49 Additional columns, both common and sample-specific, may be present in the data
629 13 Mar 08 nicklas 50 file. When the import plug-in parses the input file it will split the file into
629 13 Mar 08 nicklas 51 one file for each sample. The new files will include all common columns, and
629 13 Mar 08 nicklas 52 all sample columns for a specific sample. The column headers in the new files 
629 13 Mar 08 nicklas 53 only includes the generic column name, without the sample name prefix.
629 13 Mar 08 nicklas 54
629 13 Mar 08 nicklas 55
627 13 Mar 08 nicklas 56 == Illumina SNP manifest files ==
627 13 Mar 08 nicklas 57
627 13 Mar 08 nicklas 58 The SNP manifest files are comma separted text files, that contains
718 04 Jun 08 jari 59 information about the probes on a specific SNP array, including gene symbol, 
627 13 Mar 08 nicklas 60 probe sequence, and so on. In BASE, the manifest files are used to create 
627 13 Mar 08 nicklas 61 array designs that describe the probe content of a specific SNP Array.
627 13 Mar 08 nicklas 62
627 13 Mar 08 nicklas 63 The manifest files are comma separated text files composed of 2 sections named Heading
627 13 Mar 08 nicklas 64 and Assay. The first section is the Heading section. It is preceeded by a row containing the 
627 13 Mar 08 nicklas 65 text [Heading]. In the Heading section some information is presented including the number 
627 13 Mar 08 nicklas 66 of SNPs described in the file. See below for an example of the Heading section.
627 13 Mar 08 nicklas 67 {{{
627 13 Mar 08 nicklas 68 [Heading]
627 13 Mar 08 nicklas 69 Descriptor File Name(s),HumanCNV370v1_C.bpm
627 13 Mar 08 nicklas 70 Assay Format,Infinium
627 13 Mar 08 nicklas 71 SNP Count,370404
627 13 Mar 08 nicklas 72 }}}
627 13 Mar 08 nicklas 73 Following the Heading section is the Assay section wich is preceeded by a row 
627 13 Mar 08 nicklas 74 containing the text [Assay]. The first row of the Assay section, i.e., the row 
627 13 Mar 08 nicklas 75 after [Assay] contain the header for the Assay section.  
627 13 Mar 08 nicklas 76 See below for an example of Assay header and how information 
627 13 Mar 08 nicklas 77 in the manifest file is mapped to BASE.
627 13 Mar 08 nicklas 78
627 13 Mar 08 nicklas 79 == Mapping reporter/control annotations from SNP manifest files to BASE ==
627 13 Mar 08 nicklas 80
627 13 Mar 08 nicklas 81 The table below shows how the [Assay] section in the manifest file are mapped to 
627 13 Mar 08 nicklas 82 reporter annotations in BASE. Annotations in <brackets> are new annotations
627 13 Mar 08 nicklas 83 defined in the illumina-extended-properties.xml file. Columns marked
627 13 Mar 08 nicklas 84 with - are not mapped to BASE.
627 13 Mar 08 nicklas 85
627 13 Mar 08 nicklas 86 || '''Manifest column''' || '''BASE reporter annotation''' || '''Example value'''       ||
627 13 Mar 08 nicklas 87 || IlmnID                || External ID                    || rs10000010-126_B_F_IFB1153208421:0 ||
627 13 Mar 08 nicklas 88 || Name                  || Name                           || rs10000010                ||
627 13 Mar 08 nicklas 89 || IlmnStrand            || <Ilmn strand>                  || Bot                       ||
627 13 Mar 08 nicklas 90 || SNP                   || <SNP>                          || [T/C]                     ||
627 13 Mar 08 nicklas 91 || AddressA_ID *         || -                              || 900010475                 ||
627 13 Mar 08 nicklas 92 || AlleleA_ProbeSeq      || Sequence                       ||                           ||
627 13 Mar 08 nicklas 93 || AddressB_ID           || -                              ||                           ||
627 13 Mar 08 nicklas 94 || AlleleB_ProbeSeq      || -                              ||                           ||
627 13 Mar 08 nicklas 95 || Chr                   || Chromosome                     || 4                         ||
627 13 Mar 08 nicklas 96 || MapInfo               || <Start position>               || 21227772                  ||
627 13 Mar 08 nicklas 97 || Ploidy                || -                              || 2                         ||
627 13 Mar 08 nicklas 98 || Species               || Species                        || Homo sapiens              ||
627 13 Mar 08 nicklas 99 || CustomerStrand        || -                              || BOT                       ||
627 13 Mar 08 nicklas 100 || IllumicodeSeq         || -                              ||                           ||
627 13 Mar 08 nicklas 101 || TopGenomicSeq         || -                              ||                           ||
627 13 Mar 08 nicklas 102
627 13 Mar 08 nicklas 103
627 13 Mar 08 nicklas 104 * The AddressA_ID is not a reporter annotation. It is used to identify the 
627 13 Mar 08 nicklas 105 probe on an array design. It's value is found in the Address column in the
627 13 Mar 08 nicklas 106 raw data files and is used to find the reporter.
627 13 Mar 08 nicklas 107
627 13 Mar 08 nicklas 108 The column mappings for the [Assay] section can be changed by modifying 
627 13 Mar 08 nicklas 109 the existing import configuration or creating a new configuration. 
627 13 Mar 08 nicklas 110
627 13 Mar 08 nicklas 111 == Getting started ==
627 13 Mar 08 nicklas 112
627 13 Mar 08 nicklas 113  1. Install this package as described by the instructions in the INSTALL file.
627 13 Mar 08 nicklas 114  2. Import reporter annotations. You will need one or more SNP manifest files for this. 
627 13 Mar 08 nicklas 115      * Upload the manifest file(s) to BASE.
627 13 Mar 08 nicklas 116      * Go to the View -> Reporters menu.
627 13 Mar 08 nicklas 117      * Click on the Import button.
627 13 Mar 08 nicklas 118      * Use the auto-detect function or select the Illumina SNP reporter importer plug-in.
627 13 Mar 08 nicklas 119      * Select the manifest file.
627 13 Mar 08 nicklas 120      * Finish the job registration and wait for the plug-in to complete.
627 13 Mar 08 nicklas 121      * Repeat this one time for each manifest file.
627 13 Mar 08 nicklas 122  3. Create array designs. You will need one array design for each SNP manifest file.
627 13 Mar 08 nicklas 123      * Go to the Array LIMS -> Array designs menu.
627 13 Mar 08 nicklas 124      * Click on the New button.
627 13 Mar 08 nicklas 125      * Choose the Illumina/SNP platform.
627 13 Mar 08 nicklas 126      * We recommend that you give the array design the same name as the manifest file.
627 13 Mar 08 nicklas 127      * Switch to the Data files tab and select the manifest file.
627 13 Mar 08 nicklas 128      * Click on Save.
627 13 Mar 08 nicklas 129      * Repeat this for each manifest file.
627 13 Mar 08 nicklas 130  4. Import raw data. You will need a SNP raw data file.
627 13 Mar 08 nicklas 131      * Upload the file to BASE.
627 13 Mar 08 nicklas 132      * Go to the View -> Experiments page and create a new Experiment.
627 13 Mar 08 nicklas 133      * Select the SNP platform for the experiment.
627 13 Mar 08 nicklas 134      * Save the experiment and then click on the newly created experiment in the list.
627 13 Mar 08 nicklas 135      * Click on the Import button.
627 13 Mar 08 nicklas 136      * Use the auto-detect function or select the Illumina SNP raw data importer plug-in.
627 13 Mar 08 nicklas 137      * Select the manifest file.
627 13 Mar 08 nicklas 138      * Select one of the array designs created in step 3.
627 13 Mar 08 nicklas 139      * Finish the job registration and wait for the plug-in to complete.
627 13 Mar 08 nicklas 140      * Repeat this if you have more raw data files.
627 13 Mar 08 nicklas 141  
627 13 Mar 08 nicklas 142 Tip! Steps 1-3 only needs to be done a single time for a BASE installation. If more than
718 04 Jun 08 jari 143 one user is going to use the Illumina package we recommend that the
718 04 Jun 08 jari 144 array designs created, and the associated manifest files,
627 13 Mar 08 nicklas 145 in step 3 are shared to the appropriate users, for example, the Everyone group.
627 13 Mar 08 nicklas 146
629 13 Mar 08 nicklas 147 == Analyzing SNP data ==
629 13 Mar 08 nicklas 148
629 13 Mar 08 nicklas 149 The first step is to create a root bioassayset. To do this:
629 13 Mar 08 nicklas 150
629 13 Mar 08 nicklas 151  1. Goto the "Bioassay sets" tab of your experiment.
629 13 Mar 08 nicklas 152  2. Click on the "New root bioassayset" button.
629 13 Mar 08 nicklas 153  3. This should start the "Illumina SNP root biassayset creator" plug-in.
629 13 Mar 08 nicklas 154  4. You must tell it which raw data sets to use.
629 13 Mar 08 nicklas 155  5. You may also have to specify character set and/or which decimal separator
629 13 Mar 08 nicklas 156     that is used in your data files.
629 13 Mar 08 nicklas 157  6. Finish the job registration and wait for the plug-in to complete.
629 13 Mar 08 nicklas 158  
629 13 Mar 08 nicklas 159 The above procedure creates a root bioassayset which means that data from the files
629 13 Mar 08 nicklas 160 are imported into the database. BASE can only store data as numeric values in a 
629 13 Mar 08 nicklas 161 predetermined number of "channels". The number of channels for SNP data is 3, which
629 13 Mar 08 nicklas 162 means that 3 data columns can be imported. Besides this, the Address column is
629 13 Mar 08 nicklas 163 imported as the 'position' value. This means that plug-ins that are used later in 
629 13 Mar 08 nicklas 164 the analysis have the possibility to extract other columns directly from the data
629 13 Mar 08 nicklas 165 files, simply by finding the row which has the same Address value as the position.
629 13 Mar 08 nicklas 166
629 13 Mar 08 nicklas 167 Note! This position->Address relation is guaranteed to be correct only for 
629 13 Mar 08 nicklas 168 bioassay sets living in the same "data cube" as the root bioassay set. 
629 13 Mar 08 nicklas 169 During the analysis, other plug-ins may decide to create a new "data cube",
629 13 Mar 08 nicklas 170 re-arrange the position numbers and break the mapping. 
629 13 Mar 08 nicklas 171
629 13 Mar 08 nicklas 172 The table below shows how data from the file are imported into the database.
629 13 Mar 08 nicklas 173
629 13 Mar 08 nicklas 174 || '''Column'''   || '''Imported to'''                                 ||
629 13 Mar 08 nicklas 175 || Address        || position                                          ||
629 13 Mar 08 nicklas 176 || GType          || ch(1): AA=1.0, AB=0.0, BB=-1.0, Other values=null ||
629 13 Mar 08 nicklas 177 || Log R Ratio    || ch(2)                                             ||
629 13 Mar 08 nicklas 178 || B Allele Freq  || ch(3)                                             ||
629 13 Mar 08 nicklas 179
629 13 Mar 08 nicklas 180 Tip! The installation program has created 3 formulas: GType=ch(1), 
629 13 Mar 08 nicklas 181 Log R Ratio=ch(2) and B Allele Freq=ch(3). The formulas can be used when 
629 13 Mar 08 nicklas 182 displaying or plotting data instead of the channel numbers. It means no
629 13 Mar 08 nicklas 183 real difference, except that the formula names will be used in column
629 13 Mar 08 nicklas 184 headers, etc. instead of the generic channel numbers.