#include "tokenizer.h"
#include <algorithm>
#include <vector>
#include <string>
#include <cassert>

using std::string;
using std::vector;

namespace {
vector<string> split( const char* str, const char delim ) {
	assert( str );
	vector<string> res;
	while ( *str == delim ) ++str;
	while ( *str ) {
		const char* start = str++;
		while ( *str && *str != delim ) ++str;
		res.push_back( string( start, str ) );
		while ( *str == delim ) ++str;
	}
	return res;
}

class latin1_tokenizer : public indexlib::detail::tokenizer {
	private:
		static const char stop = 46; // .
		static void normalize( char& c ) {
			const char result[] = {
				stop, //  [ 0 ]
				stop, //  [ 1 ]
				stop, //  [ 2 ]
				stop, //  [ 3 ]
				stop, //  [ 4 ]
				stop, //  [ 5 ]
				stop, //  [ 6 ]
				stop, //  [ 7 ]
				stop, // ^H [ 8 ]
				stop, // \t [ 9 ]
				stop, // [ 10 ]
				stop, //  [ 11 ]
				stop, //  [ 12 ]
				stop, //  [ 13 ]
				stop, //  [ 14 ]
				stop, //  [ 15 ]
				stop, //  [ 16 ]
				stop, //  [ 17 ]
				stop, //  [ 18 ]
				stop, //  [ 19 ]
				stop, //  [ 20 ]
				stop, //  [ 21 ]
				stop, //  [ 22 ]
				stop, //  [ 23 ]
				stop, //  [ 24 ]
				stop, //  [ 25 ]
				stop, //  [ 26 ]
				stop, //  [ 27 ]
				stop, //  [ 28 ]
				stop, //  [ 29 ]
				stop, //  [ 30 ]
				stop, //  [ 31 ]
				stop, //  [ 32 ]
				stop, // ! [ 33 ]
				stop, // " [ 34 ]
				stop, // # [ 35 ]
				stop, // $ [ 36 ]
				stop, // % [ 37 ]
				stop, // & [ 38 ]
				stop, // ' [ 39 ]
				stop, // ( [ 40 ]
				stop, // ) [ 41 ]
				stop, // * [ 42 ]
				stop, // + [ 43 ]
				stop, // , [ 44 ]
				stop, // - [ 45 ]
				stop, // . [ 46 ]
				stop, // / [ 47 ]
				'0', // 0 [ 48 ]
				'1', // 1 [ 49 ]
				'2', // 2 [ 50 ]
				'3', // 3 [ 51 ]
				'4', // 4 [ 52 ]
				'5', // 5 [ 53 ]
				'6', // 6 [ 54 ]
				'7', // 7 [ 55 ]
				'8', // 8 [ 56 ]
				'9', // 9 [ 57 ]
				stop, // : [ 58 ]
				stop, // ; [ 59 ]
				stop, // < [ 60 ]
				stop, // = [ 61 ]
				stop, // > [ 62 ]
				stop, // ? [ 63 ]
				stop, // @ [ 64 ]
				'A', // A [ 65 ]
				'B', // B [ 66 ]
				'C', // C [ 67 ]
				'D', // D [ 68 ]
				'E', // E [ 69 ]
				'F', // F [ 70 ]
				'G', // G [ 71 ]
				'H', // H [ 72 ]
				'I', // I [ 73 ]
				'J', // J [ 74 ]
				'K', // K [ 75 ]
				'L', // L [ 76 ]
				'M', // M [ 77 ]
				'N', // N [ 78 ]
				'O', // O [ 79 ]
				'P', // P [ 80 ]
				'Q', // Q [ 81 ]
				'R', // R [ 82 ]
				'S', // S [ 83 ]
				'T', // T [ 84 ]
				'U', // U [ 85 ]
				'V', // V [ 86 ]
				'W', // W [ 87 ]
				'X', // X [ 88 ]
				'Y', // Y [ 89 ]
				'Z', // Z [ 90 ]
				stop, // [ [ 91 ]
				stop, // \ [ 92 ]
				stop, // ] [ 93 ]
				stop, // ^ [ 94 ]
				stop, // _ [ 95 ]
				stop, // ` [ 96 ]
				'A', // a [ 97 ]
				'B', // b [ 98 ]
				'C', // c [ 99 ]
				'D', // d [ 100 ]
				'E', // e [ 101 ]
				'F', // f [ 102 ]
				'G', // g [ 103 ]
				'H', // h [ 104 ]
				'I', // i [ 105 ]
				'J', // j [ 106 ]
				'K', // k [ 107 ]
				'L', // l [ 108 ]
				'M', // m [ 109 ]
				'N', // n [ 110 ]
				'O', // o [ 111 ]
				'P', // p [ 112 ]
				'Q', // q [ 113 ]
				'R', // r [ 114 ]
				'S', // s [ 115 ]
				'T', // t [ 116 ]
				'U', // u [ 117 ]
				'V', // v [ 118 ]
				'W', // w [ 119 ]
				'X', // x [ 120 ]
				'Y', // y [ 121 ]
				'Z', // z [ 122 ]
				stop, // { [ 123 ]
				stop, // | [ 124 ]
				stop, // } [ 125 ]
				stop, // ~ [ 126 ]
				stop, //  [ 127 ]
				stop, // € [ 128 ]
				stop, //  [ 129 ]
				stop, // ‚ [ 130 ]
				stop, // ƒ [ 131 ]
				stop, // „ [ 132 ]
				stop, // … [ 133 ]
				stop, // † [ 134 ]
				stop, // ‡ [ 135 ]
				stop, // ˆ [ 136 ]
				stop, // ‰ [ 137 ]
				stop, // Š [ 138 ]
				stop, // ‹ [ 139 ]
				stop, // Œ [ 140 ]
				stop, //  [ 141 ]
				stop, // Ž [ 142 ]
				stop, //  [ 143 ]
				stop, //  [ 144 ]
				stop, // ‘ [ 145 ]
				stop, // ’ [ 146 ]
				stop, // “ [ 147 ]
				stop, // ” [ 148 ]
				stop, // • [ 149 ]
				stop, // – [ 150 ]
				stop, // — [ 151 ]
				stop, // ˜ [ 152 ]
				stop, // ™ [ 153 ]
				stop, // š [ 154 ]
				stop, // › [ 155 ]
				stop, // œ [ 156 ]
				stop, //  [ 157 ]
				stop, // ž [ 158 ]
				stop, // Ÿ [ 159 ]
				stop, //   [ 160 ]
				stop, // ¡ [ 161 ]
				stop, // ¢ [ 162 ]
				stop, // £ [ 163 ]
				stop, // ¤ [ 164 ]
				stop, // ¥ [ 165 ]
				stop, // ¦ [ 166 ]
				stop, // § [ 167 ]
				stop, // ¨ [ 168 ]
				stop, // © [ 169 ]
				stop, // ª [ 170 ]
				stop, // « [ 171 ]
				stop, // ¬ [ 172 ]
				stop, // ­ [ 173 ]
				stop, // ® [ 174 ]
				stop, // ¯ [ 175 ]
				stop, // ° [ 176 ]
				stop, // ± [ 177 ]
				stop, // ² [ 178 ]
				stop, // ³ [ 179 ]
				stop, // ´ [ 180 ]
				stop, // µ [ 181 ]
				stop, // ¶ [ 182 ]
				stop, // · [ 183 ]
				stop, // ¸ [ 184 ]
				stop, // ¹ [ 185 ]
				stop, // º [ 186 ]
				stop, // » [ 187 ]
				stop, // ¼ [ 188 ]
				stop, // ½ [ 189 ]
				stop, // ¾ [ 190 ]
				stop, // ¿ [ 191 ]
				'A', // À [ 192 ]
				'A', // Á [ 193 ]
				'A', // Â [ 194 ]
				'A', // Ã [ 195 ]
				'A', // Ä [ 196 ]
				'A', // Å [ 197 ]
				'A', // Æ [ 198 ]
				'C', // Ç [ 199 ]
				'E', // È [ 200 ]
				'E', // É [ 201 ]
				'E', // Ê [ 202 ]
				'E', // Ë [ 203 ]
				'I', // Ì [ 204 ]
				'I', // Í [ 205 ]
				'I', // Î [ 206 ]
				'I', // Ï [ 207 ]
				'D', // Ð [ 208 ]
				'N', // Ñ [ 209 ]
				'O', // Ò [ 210 ]
				'O', // Ó [ 211 ]
				'O', // Ô [ 212 ]
				'O', // Õ [ 213 ]
				'O', // Ö [ 214 ]
				'X', // × [ 215 ]
				'O', // Ø [ 216 ]
				'U', // Ù [ 217 ]
				'U', // Ú [ 218 ]
				'U', // Û [ 219 ]
				'U', // Ü [ 220 ]
				'Y', // Ý [ 221 ]
				'T', // Þ [ 222 ]
				'S', // ß [ 223 ]
				'A', // à [ 224 ]
				'A', // á [ 225 ]
				'A', // â [ 226 ]
				'A', // ã [ 227 ]
				'A', // ä [ 228 ]
				'A', // å [ 229 ]
				'A', // æ [ 230 ]
				'C', // ç [ 231 ]
				'E', // è [ 232 ]
				'E', // é [ 233 ]
				'E', // ê [ 234 ]
				'E', // ë [ 235 ]
				'I', // ì [ 236 ]
				'I', // í [ 237 ]
				'I', // î [ 238 ]
				'I', // ï [ 239 ]
				stop, // ð [ 240 ]
				'N', // ñ [ 241 ]
				'O', // ò [ 242 ]
				'O', // ó [ 243 ]
				'O', // ô [ 244 ]
				'O', // õ [ 245 ]
				'O', // ö [ 246 ]
				stop, // ÷ [ 247 ]
				'O', // ø [ 248 ]
				'U', // ù [ 249 ]
				'U', // ú [ 250 ]
				'U', // û [ 251 ]
				'U', // ü [ 252 ]
				'Y', // ý [ 253 ]
				'T', // þ [ 254 ]
				'Y' // ÿ [ 255 ]
			};
			c = result[ static_cast<unsigned char>( c ) ];
		}
		std::vector<std::string> do_string_to_words( const char* str ) {
			string complete = str;
			std::for_each( complete.begin(), complete.end(), normalize );
			return split( complete.c_str(), stop );
		}
};
}


std::auto_ptr<indexlib::detail::tokenizer> indexlib::detail::get_tokenizer( std::string name ) {
	if ( name == "latin-1:european" ) return std::auto_ptr<indexlib::detail::tokenizer>( new latin1_tokenizer );
	return std::auto_ptr<indexlib::detail::tokenizer>( 0 );
}