interproscan_to_excel: export_iprscan_to_Excel/source_files/iprscanToExcel_v20/src/be/cropdesign/iprscan/RawToExcel.java annotate

annotate export_iprscan_to_Excel/source_files/iprscanToExcel_v20/src/be/cropdesign/iprscan/RawToExcel.java @ 0:a9762cd6e2e3 draft default tip

Uploaded

author	basfplant
date	Tue, 05 Mar 2013 04:00:19 -0500
parents
children

rev	line source
0 a9762cd6e2e3 Uploaded basfplant parents: diff changeset	1 package be.cropdesign.iprscan;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	2 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	3 * Converts the .raw output file of the InterProScan program to an Excel file (.xlsx)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	4 * @author: Katrien Bernaerts and Domantas Motiejunas
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	5 * @date: 21/06/2012
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	6 * @affiliation: CropDesign N.V., a BASF Plant Science Company - Technologiepark 3, 9052 Zwijnaarde - Belgium
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	7 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	8 import java.awt.Color;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	9 import java.io.BufferedReader;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	10 import java.io.FileNotFoundException;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	11 import java.io.FileReader;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	12 import java.io.IOException;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	13 import java.util.ArrayList;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	14 import java.util.regex.Matcher;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	15 import java.util.regex.Pattern;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	16
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	17 import org.apache.poi.xssf.usermodel.XSSFCell;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	18 import org.apache.poi.xssf.usermodel.XSSFCellStyle;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	19 import org.apache.poi.xssf.usermodel.XSSFColor;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	20 import org.apache.poi.xssf.usermodel.XSSFDataFormat;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	21 import org.apache.poi.xssf.usermodel.XSSFFont;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	22 import org.apache.poi.xssf.usermodel.XSSFRow;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	23 import org.apache.poi.xssf.usermodel.XSSFSheet;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	24 import org.apache.poi.xssf.usermodel.XSSFWorkbook;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	25
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	26 public class RawToExcel {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	27
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	28 private int colnr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	29 private int maxNr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	30 private int rownr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	31 private int maxNrOfGOTerms;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	32
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	33 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	34 * fields needed to generate Excel
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	35 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	36 private XSSFWorkbook wb;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	37 private XSSFSheet sheet;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	38 private XSSFRow myRow;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	39 private XSSFCell myCell;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	40 private String rawFile;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	41 private boolean interproInfo; // this info is not standard in every .raw file, but can occur
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	42 private boolean GOInfo; // this info is not standard in every .raw file, but can occur
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	43
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	44 private ArrayList<String> titles;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	45
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	46 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	47 * constructor
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	48 * @param wb
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	49 * @param sheet3
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	50 * @param myRow
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	51 * @param myCell
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	52 * @param rawFile
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	53 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	54 public RawToExcel(XSSFWorkbook wb, XSSFSheet sheet3,XSSFRow myRow, XSSFCell myCell, String rawFile){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	55 this.wb = wb;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	56 this.sheet = sheet3;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	57 this.myRow = myRow;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	58 this.myCell = myCell;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	59 this.rawFile = rawFile;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	60 maxNr = 0;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	61 maxNrOfGOTerms = 0;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	62 interproInfo = false;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	63 GOInfo = false;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	64 titles = new ArrayList<String>();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	65 parseRaw();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	66 addHeaderTitles();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	67 formatStyle();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	68 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	69
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	70 /**********************************
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	71 * parsing of the .raw file content
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	72 **********************************/
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	73 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	74 * method to parse the data in the .raw file with a BufferedReader/FileReader. The parsed data
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	75 * are written to Excel using the Apache POI library.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	76 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	77 public void parseRaw() {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	78 BufferedReader reader = null;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	79 try {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	80 reader = new BufferedReader(new FileReader(rawFile));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	81
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	82 String line = reader.readLine();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	83
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	84 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	85 * start with rownr = 1 to write content because an empty row has to be reserved for the titles
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	86 * The title row cannot be filled yet at this point because we first have to determine how many
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	87 * columns are needed, and by consequence, how many titles. The problem is that different .raw files
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	88 * can have a different amount of columns.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	89 * For each line read with the buffered reader, the number of columns is compared to the maxColnr,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	90 * because sometimes not all lines of the same file have the same number of columns, e.g. because the
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	91 * last column is empty. However, if for some rows the last column is empty, a column title is still needed
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	92 * for the other rows. Therefore, the method getMaxColumns(colnr) is called for each line.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	93 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	94 rownr = 1;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	95 while(line != null) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	96 String[] splits = line.split("\t"); // tab delimited file
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	97 myRow = sheet.createRow(rownr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	98 colnr = 0;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	99 for (String string : splits){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	100 myCell = myRow.createCell(colnr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	101 myCell.setCellValue(string);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	102
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	103 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	104 * interProScan info is not present in all raw files. For the creation of the right
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	105 * header titles, it is important to know whether the parsed raw file contained
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	106 * interProScan info
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	107 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	108 if (string.contains("IPR")){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	109 interproInfo = true;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	110 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	111
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	112 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	113 * format the cell content as Integer for the columns protein length (colnr=2),
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	114 * start (colnr=6) or end (colnr=7). To know which input only contains integers,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	115 * a regex is used. If only numbers or spaces are found in the input string,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	116 * and if the input string is not empty, the corresponding Excel cell is
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	117 * formatted as Integer.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	118 * If the cell content is not formatted as number, sorting etc. via the filters
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	119 * in the headers does not work correct.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	120 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	121 if (checkRegex("^([0-9]+\\s)$", string)){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	122 myCell.setCellValue(Integer.parseInt(string));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	123 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	124
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	125 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	126 * create a cell style that formats numbers in scientific notation (exponential)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	127 * for the score column (index 8)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	128 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	129 if (checkRegex("^[-+]?([0-9]\\.?[0-9]+([eE][-+]?[0-9]+))$", string)){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	130 formatExponential(string);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	131 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	132 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	133 * split up the line with GO classification information further such
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	134 * that the splitted line of GO information can be stored in different
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	135 * Excel cells instead of all information concatenated into one cell (like it is
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	136 * in the original .raw file generated by iprscan). First the information
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	137 * in the splitted line is stored in a double array. In a second step (at the end of the
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	138 * current method, the double array content is written to Excel.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	139 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	140 if (string.contains("GO:")){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	141 GOInfo = true;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	142 splitGOTerms(string);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	143 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	144 getMax(colnr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	145 colnr++;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	146 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	147 line = reader.readLine();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	148 rownr++;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	149 myRow = sheet.createRow(rownr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	150 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	151 } catch (FileNotFoundException e) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	152 System.err.println("The .raw file cannot be found.");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	153 } catch (IOException e) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	154 System.err.println("An input/output exception occurred while reading the .raw file.");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	155 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	156 finally {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	157 if (reader != null) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	158 try {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	159 reader.close();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	160 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	161 catch (IOException e){}
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	162 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	163 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	164 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	165
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	166 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	167 * Helper method for parseRaw()
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	168 * Split a string containing GO information. A typical string looks like:
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	169 * "Molecular Function: sequence-specific DNA binding transcription factor activity (GO:0003700), Cellular Component: nucleus (GO:0005634), Biological Process: regulation of transcription, DNA-dependent (GO:0006355), Molecular Function: sequence-specific DNA binding (GO:0043565)"
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	170 * or in more general terms:
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	171 * "Title1: description1 (GO number1), Title2: description2 (GO number2), Title3: description3 (GO number3)"
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	172 * The string should be splitted in three parts: title, description and GO number.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	173 * In fact we are dealing with comma delimited strings, but split may not happen at every comma,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	174 * only when comma is preceded by (
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	175 * Split may for example not happen at the comma in case of "Molecular Function: transferase activity,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	176 * transferring phosphorus-containing groups (GO:0016772)"
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	177 * In order to assure that the splitting occurs at the right place, the comma's at the places where splitting has to
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	178 * occur are replaced by the unique splitting character ;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	179 * @return
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	180 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	181 public void splitGOTerms(String string){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	182 if (string != null &&!string.isEmpty() && !string.trim().isEmpty()){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	183
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	184 String modifiedString = string.replace("),", ");");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	185 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	186 * the modifiedString is splitted at the ;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	187 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	188 String[] splitsClassification = modifiedString.split("; ");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	189 int numberOfGoTerms = splitsClassification.length;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	190 getMaxNrOfGOTerms(numberOfGoTerms);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	191 for (int i = 0; i < splitsClassification.length; i++){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	192 myCell = myRow.createCell(colnr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	193 myCell.setCellValue(splitsClassification[i].substring(0, splitsClassification[i].indexOf(':'))); //title
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	194 colnr++;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	195 myCell = myRow.createCell(colnr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	196 myCell.setCellValue(splitsClassification[i].substring(splitsClassification[i].indexOf('(')+1, splitsClassification[i].indexOf(')'))); // GO term
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	197 colnr++;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	198 myCell = myRow.createCell(colnr);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	199 myCell.setCellValue(splitsClassification[i].substring(splitsClassification[i].indexOf(':')+2, splitsClassification[i].indexOf('('))); // description)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	200 colnr++;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	201 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	202 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	203 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	204
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	205 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	206 * Helper method for parseRaw()
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	207 * Check whether a certain input string (stringToMatch) matches a certain regular expression.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	208 * @param regex
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	209 * @param stringToMatch
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	210 * @return
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	211 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	212 public boolean checkRegex(String regex, String stringToMatch){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	213 Pattern p = Pattern.compile(regex);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	214 Matcher m = p.matcher(stringToMatch);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	215 if(m.matches() && stringToMatch != null &&!stringToMatch.isEmpty() && !stringToMatch.trim().isEmpty()){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	216 return true;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	217 } else {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	218 return false;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	219 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	220 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	221
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	222 /**********************************
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	223 * header titles of the Excel sheet
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	224 *********************************/
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	225 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	226 * the header titles are generated in the first row (index 0) of the spreadsheet
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	227 * All the potential column titles are added to the titles ArrayList. The .raw file always contains
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	228 * some fixed part (standard titles), but can also contain more information (titles which are not
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	229 * required for every .raw file).
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	230 * This last category of headers is only added in case the information occurs in the .raw file.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	231 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	232 public void addHeaderTitles(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	233 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	234 * standard titles
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	235 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	236 titles.add("protein ID");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	237 titles.add("protein crc64");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	238 titles.add("protein length");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	239 titles.add("match dbname");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	240 titles.add("classification id");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	241 titles.add("classification description");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	242 titles.add("start");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	243 titles.add("end");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	244 titles.add("score");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	245 titles.add("status");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	246 titles.add("date");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	247 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	248 * titles which are not required for every .raw file
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	249 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	250 if (interproInfo){ // only if the .raw file contains "IPR" boolean interproInfo becomes true
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	251 titles.add("interpro ID");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	252 titles.add("interpro name");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	253 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	254
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	255 if (GOInfo){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	256 for (int i = 0; i < maxNrOfGOTerms; i++){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	257 titles.add("title");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	258 titles.add("GO number");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	259 titles.add("description");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	260 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	261 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	262
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	263 myRow = sheet.createRow(0);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	264 // show the headers in the table
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	265 for (int i = 0; i < titles.size() ; i ++){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	266 myCell = myRow.createCell(i);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	267 myCell.setCellValue(titles.get(i)); // content of the headercell
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	268 formatHeader(); // color of the headercell
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	269 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	270 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	271
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	272 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	273 * method to find the number of Excel columns needed for the GO terms information (title, description and GO number)n
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	274 * The method looks for the maximal number of columns needed, because sometimes there are
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	275 * rows with no GO information and other rows which have GO information.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	276 * As long as in one Excel sheet there is one row with GO information, the titles for the GO information
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	277 * have to be showed correctly. The method getNrOfGOTerms helps in this task.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	278 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	279 public void getMaxNrOfGOTerms(int nr){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	280 if (nr > maxNrOfGOTerms){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	281 maxNrOfGOTerms = nr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	282 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	283 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	284
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	285
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	286 /*******************************
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	287 * formatting of the Excel sheet
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	288 ******************************/
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	289 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	290 * method to apply all formatting to the Excel tabsheet containing the .raw data
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	291 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	292 public void formatStyle(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	293 setAutoFilters();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	294 autoSizeColumns();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	295 freezeRow();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	296 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	297
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	298 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	299 * make autofilters of the column headers in Excel
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	300 * ref: http://stackoverflow.com/questions/3114220/poi-auto-filter
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	301 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	302 public void setAutoFilters(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	303 if (GOInfo){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	304 /*
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	305 * for some reason, the first empty column contains an autofilter in the case there is
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	306 * GO information. However, only the columns which are not empty should have and autofilter.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	307 * In order to avoid this small bug, the autofilter method was changed
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	308 * slightly: maxNr -1 instead of maxNr
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	309 * method: public XSSFAutoFilter setAutoFilter(CellRangeAddress, range);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	310 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	311 sheet.setAutoFilter(org.apache.poi.ss.util.CellRangeAddress.valueOf("A1:"+ (Character.toString((char)( 65+maxNr-1)))+"1"));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	312 } else {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	313 sheet.setAutoFilter(org.apache.poi.ss.util.CellRangeAddress.valueOf("A1:"+ (Character.toString((char)( 65+maxNr)))+"1"));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	314 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	315 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	316
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	317 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	318 * set the column width automatically to the width of the content
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	319 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	320 public void autoSizeColumns(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	321 for(int column = 0; column < maxNr; column++){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	322 sheet.autoSizeColumn(column);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	323 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	324 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	325
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	326 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	327 * helper method for setAutoFilters() and autoSizeColumns() to find the number
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	328 * of columns present in the tab sheet of the Excel file.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	329 * Sometimes, there are columns which are empty in a certain row, but filled in
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	330 * another row. We always have to cope with the most extreme situation. Therefore,
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	331 * the maximum number of columns is determined.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	332 * @param nr
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	333 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	334 public void getMax(int nr){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	335 if (nr > maxNr){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	336 maxNr = nr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	337 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	338 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	339
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	340 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	341 * give the header cells a blue color and bold formatting
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	342 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	343 public void formatHeader(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	344 XSSFCellStyle style = wb.createCellStyle();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	345 XSSFFont font = wb.createFont();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	346 font.setColor(new XSSFColor(Color.BLUE));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	347 font.setBold(true);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	348 style.setFont(font);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	349 myCell.setCellStyle(style);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	350 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	351
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	352 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	353 * freeze the header row
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	354 * method: public void createFreezePane(int colSplit, int rowSplit, intleftmostColumn, int topRow)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	355 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	356 public void freezeRow(){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	357 sheet.createFreezePane(0, 1, 0, 1);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	358 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	359
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	360 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	361 * create a cell style that formats numbers in scientific notation (exponential)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	362 * for the score column (index 8)
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	363 * Differentiate the text content (NA) from the exponential values via an if ... else
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	364 * because otherwise the formatting as exponential value is not OK.
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	365 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	366 public void formatExponential(String s){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	367 if (s.equals("NA")){
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	368 myCell.setCellValue("NA");
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	369 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	370 else {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	371 XSSFCellStyle cs = wb.createCellStyle();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	372 XSSFDataFormat df = wb.createDataFormat();
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	373 cs.setDataFormat(df.getFormat("0.0E+0"));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	374 myCell.setCellValue(Double.parseDouble(s));
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	375 myCell.setCellStyle(cs);
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	376 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	377 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	378
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	379 /*********************
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	380 * getters and setters
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	381 *********************/
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	382 public void setColnr(int colnr) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	383 this.colnr = colnr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	384 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	385
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	386 public int getColnr() {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	387 return colnr;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	388 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	389
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	390 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	391 * @param nrOfGOTerms the nrOfGOTerms to set
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	392 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	393 public void setNrOfGOTerms(int nrOfGOTerms) {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	394 this.maxNrOfGOTerms = nrOfGOTerms;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	395 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	396
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	397 /**
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	398 * @return the nrOfGOTerms
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	399 */
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	400 public int getNrOfGOTerms() {
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	401 return maxNrOfGOTerms;
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	402 }
a9762cd6e2e3 Uploaded basfplant parents: diff changeset	403 }

Mercurial > repos > basfplant > interproscan_to_excel

annotate export_iprscan_to_Excel/source_files/iprscanToExcel_v20/src/be/cropdesign/iprscan/RawToExcel.java @ 0:a9762cd6e2e3 draft default tip