2005-12-02 Atsushi Enomoto <atsushi@ximian.com>
authorAtsushi Eno <atsushieno@gmail.com>
Fri, 2 Dec 2005 08:28:56 +0000 (08:28 -0000)
committerAtsushi Eno <atsushieno@gmail.com>
Fri, 2 Dec 2005 08:28:56 +0000 (08:28 -0000)
* Makefile : now it has tests.
* CP10079.cs : fixed some encoder/decoder mapping bugs.

* I18N.West.Test.cs : NUnit test for I18N.West encodings.

* box-437.txt box-utf8.txt french-10000.txt french-utf8.txt
  french2-863.txt french2-utf8.txt greek-1253.txt greek-28597.txt
  greek-utf8.txt hungarian-28592.txt hungarian-utf8.txt
  icelandic-10079.txt icelandic-utf8.txt icelandic2-861.txt
  icelandic2-utf8.txt italian-28593.txt italian-utf8.txt
  latin-28605.txt latin-850.txt latin-utf8.txt
  nordic-865.txt nordic-utf8.txt norwegian-1252.txt
  norwegian-utf8.txt polish-1250.txt polish-utf8.txt
  portguese-860.txt portguese-utf8.txt proto-slavic-utf8.txt :
  added text documents for encoding tests.
* czech-utf8.txt esperanto-utf8.txt : (not in use)
* conv.cs : tiny converter program.

svn path=/trunk/mcs/; revision=53828

39 files changed:
mcs/class/I18N/West/CP10079.cs
mcs/class/I18N/West/ChangeLog
mcs/class/I18N/West/I18N.West_test.dll.sources [new file with mode: 0644]
mcs/class/I18N/West/Makefile
mcs/class/I18N/West/Test/ChangeLog [new file with mode: 0644]
mcs/class/I18N/West/Test/I18N.West.Test.cs [new file with mode: 0755]
mcs/class/I18N/West/Test/texts/ChangeLog [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/box-437.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/box-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/conv.cs [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/czech-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/esperanto-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/french-10000.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/french-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/french2-863.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/french2-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/greek-1253.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/greek-28597.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/greek-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/hungarian-28592.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/hungarian-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/icelandic-10079.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/icelandic-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/icelandic2-861.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/icelandic2-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/italian-28593.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/italian-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/latin-28605.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/latin-850.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/latin-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/nordic-865.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/nordic-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/norwegian-1252.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/norwegian-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/polish-1250.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/polish-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/portguese-860.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/portguese-utf8.txt [new file with mode: 0644]
mcs/class/I18N/West/Test/texts/proto-slavic-utf8.txt [new file with mode: 0644]

index 026277e95fe53ccc2e2f19bba43ffc9e69ff520a..83629c6e4320e41ef57481f72ab7a02b1dfccd18 100644 (file)
@@ -66,7 +66,7 @@ public class CP10079 : ByteEncoding
                '\u00E4', '\u00E3', '\u00E5', '\u00E7', '\u00E9', '\u00E8', 
                '\u00EA', '\u00EB', '\u00ED', '\u00EC', '\u00EE', '\u00EF', 
                '\u00F1', '\u00F3', '\u00F2', '\u00F4', '\u00F6', '\u00F5', 
-               '\u00FA', '\u00F9', '\u00FB', '\u00FC', '\u2020', '\u00B0', 
+               '\u00FA', '\u00F9', '\u00FB', '\u00FC', /*'\u2020'*/'\u00DD', '\u00B0', 
                '\u00A2', '\u00A3', '\u00A7', '\u2022', '\u00B6', '\u00DF', 
                '\u00AE', '\u00A9', '\u2122', '\u00B4', '\u00A8', '\u2260', 
                '\u00C6', '\u00D8', '\u221E', '\u00B1', '\u2264', '\u2265', 
@@ -74,10 +74,10 @@ public class CP10079 : ByteEncoding
                '\u222B', '\u00AA', '\u00BA', '\u03A9', '\u00E6', '\u00F8', 
                '\u00BF', '\u00A1', '\u00AC', '\u221A', '\u0192', '\u2248', 
                '\u0394', '\u00AB', '\u00BB', '\u2026', '\u00A0', '\u00C0', 
-               '\u00C3', '\u00D5', '\u0152', '\u0153', '\u2014', '\u2013', 
+               '\u00C3', '\u00D5', '\u0152', '\u0153', /*'\u2014'*/'\u2013', '\u2013', 
                '\u201C', '\u201D', '\u2018', '\u2019', '\u00F7', '\u25C6', 
-               '\u00FF', '\u0178', '\u2044', '\u00A4', '\u0110', '\u0111', 
-               '\u00DE', '\u00FE', '\u2021', '\u00B7', '\u201A', '\u201E', 
+               '\u00FF', '\u0178', '\u2044', '\u00A4', '\u0110', /*\u0111*/'\u00F0', 
+               '\u00DE', '\u00FE', /*'\u2021'*/'\u00FD', '\u00B7', '\u201A', '\u201E', 
                '\u2030', '\u00C2', '\u00CA', '\u00C1', '\u00CB', '\u00C8', 
                '\u00CD', '\u00CE', '\u00CF', '\u00CC', '\u00D3', '\u00D4', 
                '\uE01E', '\u00D2', '\u00DA', '\u00DB', '\u00D9', '\u0131', 
@@ -152,6 +152,7 @@ public class CP10079 : ByteEncoding
                                case 0x00DA: ch = 0xF2; break;
                                case 0x00DB: ch = 0xF3; break;
                                case 0x00DC: ch = 0x86; break;
+                               case 0x00DD: ch = 0xA0; break; /*mono*/
                                case 0x00DF: ch = 0xA7; break;
                                case 0x00E0: ch = 0x88; break;
                                case 0x00E1: ch = 0x87; break;
@@ -169,6 +170,7 @@ public class CP10079 : ByteEncoding
                                case 0x00ED: ch = 0x92; break;
                                case 0x00EE: ch = 0x94; break;
                                case 0x00EF: ch = 0x95; break;
+                               case 0x00F0: ch = 0xDD; break; /*mono*/
                                case 0x00F1: ch = 0x96; break;
                                case 0x00F2: ch = 0x98; break;
                                case 0x00F3: ch = 0x97; break;
@@ -181,6 +183,7 @@ public class CP10079 : ByteEncoding
                                case 0x00FA: ch = 0x9C; break;
                                case 0x00FB: ch = 0x9E; break;
                                case 0x00FC: ch = 0x9F; break;
+                               case 0x00FD: ch = 0xE0; break; /*mono*/
                                case 0x00FE: ch = 0xDF; break;
                                case 0x00FF: ch = 0xD8; break;
                                case 0x0110: ch = 0xDC; break;
@@ -199,7 +202,7 @@ public class CP10079 : ByteEncoding
                                case 0x0394: ch = 0xC6; break;
                                case 0x03A9: ch = 0xBD; break;
                                case 0x03C0: ch = 0xB9; break;
-                               case 0x2013: ch = 0xD1; break;
+                               case 0x2013: ch = /*0xD1*/0xD0; break;
                                case 0x2014: ch = 0xD0; break;
                                case 0x2018: ch = 0xD4; break;
                                case 0x2019: ch = 0xD5; break;
@@ -230,7 +233,8 @@ public class CP10079 : ByteEncoding
 #if NET_2_0
                                        HandleFallback (ref buffer, chars, ref charIndex, ref charCount, bytes, ref byteIndex, ref byteCount);
 #else
-                                       ch = 0x3F;
+throw new Exception (String.Format ("Not expected character {0:X04}", (int) ch));
+//                                     ch = 0x3F;
 #endif
                                        break;
                        }
index 542bc832f58f00af5fb6ae50d32bf5743fea21a4..36f26a7091393a80cba247ea52eb17c0ae4da2c3 100644 (file)
@@ -1,3 +1,8 @@
+2005-12-02  Atsushi Enomoto  <atsushi@ximian.com>
+
+       * Makefile : now it has tests.
+       * CP10079.cs : fixed some encoder/decoder mapping bugs.
+
 2005-12-01  Atsushi Enomoto  <atsushi@ximian.com>
 
        * CP437.cs : forgot to comment out GetBytes(string).
diff --git a/mcs/class/I18N/West/I18N.West_test.dll.sources b/mcs/class/I18N/West/I18N.West_test.dll.sources
new file mode 100644 (file)
index 0000000..b5fadfc
--- /dev/null
@@ -0,0 +1 @@
+I18N.West.Test.cs
index 83ef076109081806d650ba4d094c0aa9afbef187..7f0348d059de1dcbed7e301e4aefa6513af92df6 100644 (file)
@@ -5,7 +5,7 @@ include ../../../build/rules.make
 LIBRARY = I18N.West.dll
 LIBRARY_USE_INTERMEDIATE_FILE = yes
 LOCAL_MCS_FLAGS = /r:$(corlib) /r:I18N.dll /unsafe
-NO_TEST = yes
+#NO_TEST = yes
 
 EXTRA_DISTFILES = $(wildcard *.ucm)
 
diff --git a/mcs/class/I18N/West/Test/ChangeLog b/mcs/class/I18N/West/Test/ChangeLog
new file mode 100644 (file)
index 0000000..a8662d5
--- /dev/null
@@ -0,0 +1,4 @@
+2005-12-02  Atsushi Enomoto  <atsushi@ximian.com>
+
+       * I18N.West.Test.cs : NUnit test for I18N.West encodings.
+
diff --git a/mcs/class/I18N/West/Test/I18N.West.Test.cs b/mcs/class/I18N/West/Test/I18N.West.Test.cs
new file mode 100755 (executable)
index 0000000..74a9e22
--- /dev/null
@@ -0,0 +1,237 @@
+//
+// I18N.West.Test.cs
+//
+// Author:
+//     Atsushi Enomoto  <atsushi@ximian.com>
+//
+// Copyright (C) 2005 Novell, Inc.  http://www.novell.com
+//
+
+using System;
+using System.IO;
+using System.Text;
+using NUnit.Framework;
+
+namespace MonoTests.I18N.West
+{
+       [TestFixture]
+       public class TestWest
+       {
+               void AssertEncode (string utf8file, string decfile, int codepage)
+               {
+                       string decoded = null;
+                       byte [] encoded = null;
+                       using (StreamReader sr = new StreamReader (utf8file,
+                               Encoding.UTF8)) {
+                               decoded = sr.ReadToEnd ();
+                       }
+                       using (FileStream fs = File.OpenRead (decfile)) {
+                               encoded = new byte [fs.Length];
+                               fs.Read (encoded, 0, (int) fs.Length);
+                       }
+                       Encoding enc = Encoding.GetEncoding (codepage);
+                       byte [] actual;
+
+                       // simple string case
+                       actual = enc.GetBytes (decoded);
+                       Assert.AreEqual (encoded, actual,
+                               "GetBytes(string)");
+
+                       // simple char[] case
+                       actual = enc.GetBytes (decoded.ToCharArray (), 0, decoded.Length);
+                       Assert.AreEqual (encoded, actual,
+                               "GetBytes(char[], 0, len)");
+               }
+
+               void AssertDecode (string utf8file, string decfile, int codepage)
+               {
+                       string decoded = null;
+                       byte [] encoded = null;
+                       using (StreamReader sr = new StreamReader (utf8file,
+                               Encoding.UTF8)) {
+                               decoded = sr.ReadToEnd ();
+                       }
+                       using (FileStream fs = File.OpenRead (decfile)) {
+                               encoded = new byte [fs.Length];
+                               fs.Read (encoded, 0, (int) fs.Length);
+                       }
+                       Encoding enc = Encoding.GetEncoding (codepage);
+                       char [] actual;
+
+                       actual = enc.GetChars (encoded, 0, encoded.Length);
+                       Assert.AreEqual (decoded.ToCharArray (), actual,
+                               "GetChars(byte[], 0, len)");
+               }
+
+               [Test]
+               public void CP437_Encode ()
+               {
+                       AssertEncode ("Test/texts/box-utf8.txt", "Test/texts/box-437.txt", 437);
+               }
+
+               [Test]
+               public void CP437_Decode ()
+               {
+                       AssertDecode ("Test/texts/box-utf8.txt", "Test/texts/box-437.txt", 437);
+               }
+
+               [Test]
+               public void CP850_Encode ()
+               {
+                       AssertEncode ("Test/texts/latin-utf8.txt", "Test/texts/latin-850.txt", 850);
+               }
+
+               [Test]
+               public void CP850_Decode ()
+               {
+                       AssertDecode ("Test/texts/latin-utf8.txt", "Test/texts/latin-850.txt", 850);
+               }
+
+               [Test]
+               public void CP860_Encode ()
+               {
+                       AssertEncode ("Test/texts/portguese-utf8.txt", "Test/texts/portguese-860.txt", 860);
+               }
+
+               [Test]
+               public void CP860_Decode ()
+               {
+                       AssertDecode ("Test/texts/portguese-utf8.txt", "Test/texts/portguese-860.txt", 860);
+               }
+
+               [Test]
+               public void CP861_Encode ()
+               {
+                       AssertEncode ("Test/texts/icelandic2-utf8.txt", "Test/texts/icelandic2-861.txt", 861);
+               }
+
+               [Test]
+               public void CP861_Decode ()
+               {
+                       AssertDecode ("Test/texts/icelandic2-utf8.txt", "Test/texts/icelandic2-861.txt", 861);
+               }
+
+               [Test]
+               public void CP863_Encode ()
+               {
+                       AssertEncode ("Test/texts/french2-utf8.txt", "Test/texts/french2-863.txt", 863);
+               }
+
+               [Test]
+               public void CP863_Decode ()
+               {
+                       AssertDecode ("Test/texts/french2-utf8.txt", "Test/texts/french2-863.txt", 863);
+               }
+
+               [Test]
+               public void CP865_Encode ()
+               {
+                       AssertEncode ("Test/texts/nordic-utf8.txt", "Test/texts/nordic-865.txt", 865);
+               }
+
+               [Test]
+               public void CP865_Decode ()
+               {
+                       AssertDecode ("Test/texts/nordic-utf8.txt", "Test/texts/nordic-865.txt", 865);
+               }
+
+               [Test]
+               public void CP1250_Encode ()
+               {
+                       AssertEncode ("Test/texts/polish-utf8.txt", "Test/texts/polish-1250.txt", 1250);
+               }
+
+               [Test]
+               public void CP1250_Decode ()
+               {
+                       AssertDecode ("Test/texts/polish-utf8.txt", "Test/texts/polish-1250.txt", 1250);
+               }
+
+               [Test]
+               public void CP1252_Encode ()
+               {
+                       AssertEncode ("Test/texts/norwegian-utf8.txt", "Test/texts/norwegian-1252.txt", 1252);
+               }
+
+               [Test]
+               public void CP1252_Decode ()
+               {
+                       AssertDecode ("Test/texts/norwegian-utf8.txt", "Test/texts/norwegian-1252.txt", 1252);
+               }
+
+               [Test]
+               public void CP1253_Encode ()
+               {
+                       AssertEncode ("Test/texts/greek-utf8.txt", "Test/texts/greek-1253.txt", 1253);
+               }
+
+               [Test]
+               public void CP1253_Decode ()
+               {
+                       AssertDecode ("Test/texts/greek-utf8.txt", "Test/texts/greek-1253.txt", 1253);
+               }
+
+               [Test]
+               public void CP10000_Encode ()
+               {
+                       AssertEncode ("Test/texts/french-utf8.txt", "Test/texts/french-10000.txt", 10000);
+               }
+
+               [Test]
+               public void CP10000_Decode ()
+               {
+                       AssertDecode ("Test/texts/french-utf8.txt", "Test/texts/french-10000.txt", 10000);
+               }
+
+               [Test]
+               public void CP10079_Encode ()
+               {
+                       AssertEncode ("Test/texts/icelandic-utf8.txt", "Test/texts/icelandic-10079.txt", 10079);
+               }
+
+               [Test]
+               public void CP10079_Decode ()
+               {
+                       AssertDecode ("Test/texts/icelandic-utf8.txt", "Test/texts/icelandic-10079.txt", 10079);
+               }
+
+               [Test]
+               public void CP28592_Encode ()
+               {
+                       AssertEncode ("Test/texts/hungarian-utf8.txt", "Test/texts/hungarian-28592.txt", 28592);
+               }
+
+               [Test]
+               public void CP28592_Decode ()
+               {
+                       AssertDecode ("Test/texts/hungarian-utf8.txt", "Test/texts/hungarian-28592.txt", 28592);
+               }
+
+               // FIXME: Which language is good enough to test 28593 ???
+
+               [Test]
+               public void CP28597_Encode ()
+               {
+                       AssertEncode ("Test/texts/greek-utf8.txt", "Test/texts/greek-28597.txt", 28597);
+               }
+
+               [Test]
+               public void CP28597_Decode ()
+               {
+                       AssertDecode ("Test/texts/greek-utf8.txt", "Test/texts/greek-28597.txt", 28597);
+               }
+
+               // FIXME: Which language is good enough to test 28605 ???
+               [Test]
+               public void CP28605_Encode ()
+               {
+                       AssertEncode ("Test/texts/latin-utf8.txt", "Test/texts/latin-28605.txt", 28605);
+               }
+
+               [Test]
+               public void CP28605_Decode ()
+               {
+                       AssertDecode ("Test/texts/latin-utf8.txt", "Test/texts/latin-28605.txt", 28605);
+               }
+       }
+}
diff --git a/mcs/class/I18N/West/Test/texts/ChangeLog b/mcs/class/I18N/West/Test/texts/ChangeLog
new file mode 100644 (file)
index 0000000..210c8e8
--- /dev/null
@@ -0,0 +1,14 @@
+2005-12-02  Atsushi Enomoto  <atsushi@ximian.com>
+
+       * box-437.txt box-utf8.txt french-10000.txt french-utf8.txt
+         french2-863.txt french2-utf8.txt greek-1253.txt greek-28597.txt
+         greek-utf8.txt hungarian-28592.txt hungarian-utf8.txt
+         icelandic-10079.txt icelandic-utf8.txt icelandic2-861.txt
+         icelandic2-utf8.txt italian-28593.txt italian-utf8.txt
+         latin-28605.txt latin-850.txt latin-utf8.txt
+         nordic-865.txt nordic-utf8.txt norwegian-1252.txt
+         norwegian-utf8.txt polish-1250.txt polish-utf8.txt
+         portguese-860.txt portguese-utf8.txt proto-slavic-utf8.txt :
+         added text documents for encoding tests.
+       * czech-utf8.txt esperanto-utf8.txt : (not in use)
+       * conv.cs : tiny converter program.
diff --git a/mcs/class/I18N/West/Test/texts/box-437.txt b/mcs/class/I18N/West/Test/texts/box-437.txt
new file mode 100644 (file)
index 0000000..021a556
--- /dev/null
@@ -0,0 +1,24 @@
+Box drawing characters
+From Wikipedia, the free encyclopedia.
+Jump to: navigation, search
+
+Box drawing characters are widely used in text user interfaces to draw various frames and boxes. In graphical user interfaces these characters are useless, because it is much simpler to draw lines and rectangles directly with graphical APIs; besides, box drawing characters work only with fixed-width fonts.
+
+(NOTE: removed for testing Mono)
+
+In all MS-DOS codepages box drawing characters are present, but their number is limited to 40:
+
+³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚ
+
+or even to 22:
+
+³´¹º»¼¿ÀÁÂÃÄÅÈÉÊËÌÍÎÙÚ
+
+And for Unix programs, usually only 11 basic characters are available:
+
+³´¿ÀÁÂÃÄÅÙÚ
+
+or, on some terminals, they are not available at all, so they are replaced with such ASCII characters as '-', '|' and '+'.
+Retrieved from "http://en.wikipedia.org/wiki/Box_drawing_characters"
+
+Category: Unicode
diff --git a/mcs/class/I18N/West/Test/texts/box-utf8.txt b/mcs/class/I18N/West/Test/texts/box-utf8.txt
new file mode 100644 (file)
index 0000000..b0f0b07
--- /dev/null
@@ -0,0 +1,24 @@
+Box drawing characters
+From Wikipedia, the free encyclopedia.
+Jump to: navigation, search
+
+Box drawing characters are widely used in text user interfaces to draw various frames and boxes. In graphical user interfaces these characters are useless, because it is much simpler to draw lines and rectangles directly with graphical APIs; besides, box drawing characters work only with fixed-width fonts.
+
+(NOTE: removed for testing Mono)
+
+In all MS-DOS codepages box drawing characters are present, but their number is limited to 40:
+
+│┤╡╢╖╕╣║╗╝╜╛┐└┴┬├─┼╞╟╚╔╩╦╠═╬╧╨╤╥╙╘╒╓╫╪┘┌
+
+or even to 22:
+
+│┤╣║╗╝┐└┴┬├─┼╚╔╩╦╠═╬┘┌
+
+And for Unix programs, usually only 11 basic characters are available:
+
+│┤┐└┴┬├─┼┘┌
+
+or, on some terminals, they are not available at all, so they are replaced with such ASCII characters as '-', '|' and '+'.
+Retrieved from "http://en.wikipedia.org/wiki/Box_drawing_characters"
+
+Category: Unicode
diff --git a/mcs/class/I18N/West/Test/texts/conv.cs b/mcs/class/I18N/West/Test/texts/conv.cs
new file mode 100644 (file)
index 0000000..5786052
--- /dev/null
@@ -0,0 +1,46 @@
+using System;
+using System.IO;
+using System.Text;
+
+public class Test
+{
+       public static void Main (string [] args)
+       {
+               if (args.Length == 2) {
+                       string [] tmp = new string [4];
+                       tmp [0] = args [0] + "-utf8.txt";
+                       tmp [1] = "65001";
+                       tmp [2] = args [1];
+                       tmp [3] = args [0] + "-" + args [1] + ".txt";
+                       args = tmp;
+               }
+               if (args.Length < 4) {
+                       Console.WriteLine ("pass input-file input-encoding output-encoding output-file.");
+                       return;
+               }
+               Run (args);
+       }
+
+       static void Run (string [] args)
+       {
+               string s;
+               using (StreamReader sr = new StreamReader (args [0],
+                       Encoding.GetEncoding (int.Parse (args [1])))) {
+                       s = sr.ReadToEnd ();
+               }
+               using (StreamWriter sw = new StreamWriter (args [3], false,
+                       Encoding.GetEncoding (int.Parse (args [2])))) {
+                       sw.Write (s);
+               }
+               string s2;
+               using (StreamReader sr = new StreamReader (args [3],
+                       Encoding.GetEncoding (int.Parse (args [2])))) {
+                       s2 = sr.ReadToEnd ();
+               }
+               if (s != s2) {
+                       Console.WriteLine ("FAILURE");
+                       File.Delete (args [3]);
+               }
+       }
+}
+
diff --git a/mcs/class/I18N/West/Test/texts/czech-utf8.txt b/mcs/class/I18N/West/Test/texts/czech-utf8.txt
new file mode 100644 (file)
index 0000000..6394b70
--- /dev/null
@@ -0,0 +1,103 @@
+It is copied from Wikipedia, http://cs.wikipedia.org/wiki/%C4%8Ce%C5%A1tina
+Authored under GFDL license: http://cs.wikipedia.org/wiki/Wikipedie:GNU_Free_Documentation_License
+
+Čeština
+Z Wikipedie, otevřené encyklopedie
+Skočit na: Navigace, Hledání
+
+Čeština je západoslovanský jazyk nejvíce příbuzný se slovenštinou, poté polštinou a lužickou srbštinou. Patří tedy mezi slovanské jazyky, do rodiny jazyků indoevropských.
+Čeština (Čeština)
+Rozšíření:         Česko, Slovensko, USA aj.
+Počet mluvčích:     12 miliónů (73. místo)
+Klasifikace:   
+
+    * Indoevropské jazyky
+          o Slovanské jazyky
+                + Západoslovanské jazyky
+
+Písmo:        Latinka
+Postavení
+Úřední jazyk:       Česko, Evropská unie
+Regulátor:    Akademie věd, Ústav pro jazyk český
+Kódy
+ISO 639-1:     cs
+ISO 639-2(B):  cze
+ISO 639-2(T):  ces
+SIL:   CZC
+Wikipedie
+cs.wikipedia.org
+
+Česky mluví zhruba 12 mil. lidi, z toho přes 10 mil. v Česku. V důsledku několika vystěhovaleckých vln v uplynulých 150 letech hovoří česky i desetitisíce emigrantů a jejich potomků, zejména na Slovensku, v USA, Kanadě, Německu, Rakousku, Austrálii, na Ukrajině a v řadě dalších zemí.
+Obsah
+[skrýt]
+
+    * 1 Mluvnice
+          o 1.1 Pády
+    * 2 Písmo
+    * 3 Slovní zásoba
+    * 4 Nářečí
+    * 5 Historie
+
+[editovat]
+
+Mluvnice
+
+Čeština má 7 pádů a tři časy (minulý, budoucí a přítomný). Má jednotné a množné číslo (schod - schody, nůž - nože), ale i pozůstaky duálu (číslovky: dvě, obě a párové části těla - (7.pád) s oběma rukama, s dvěma ženami, s třemi ženami)
+
+Čeština má pomnožná, hromadná a látková podstatná jména:
+
+    * Pomnožná podstatná jména mají tvar množného čísla, ale označují jednu věc (kamna, nůžky, kalhoty).
+    * Hromadná podstatná jména mají tvar jednotného čísla, ale označují větší počet (listí, mládež, slova s příponou -stvo, -ctvo : lidstvo, ptactvo).
+    * Látková podstatná jména mají tvar jednotného čísla a označují látku bez ohledu na množství (voda, sníh, cukr).
+
+[editovat]
+
+Pády
+1.     kdo, co         nominativ
+2.     (bez) koho, čeho       genitiv
+3.     (ke) komu, čemu        dativ
+4.     (vidím) koho, co       akuzativ
+5.     (oslovujeme, voláme)   vokativ
+6.     (o) kom, čem   lokál
+7.     (s) kým, čím         instrumentál
+[editovat]
+
+Písmo
+
+Čeština používá upravenou latinku doplněnou o tyto znaky s diakritikou:
+Á     Č      Ď      É      Ě      Í      Ň      Ó      Ř      Š      Ť      Ú      Ů      Ý      Ž
+á     č      ď      é      ě      í      ň      ó      ř      š      ť      ú      ů      ý      ž
+
+Čeština také používá jednu spřežku, ch. Velká varianta je CH, avšak pokud stojí tato spřežka na místě, kde se píše velké písmeno, potom se velké píše jen první písmeno spřežky: Ch.
+
+Písmena ě a ů se nemohou vyskytnout na začátku slova, protože ě změkčuje předcházející souhlásku a použití ů je podmíněno jistými etymologickými jevy (původní hláska [u:] se píše ú; hláska [u:] vyvinutá z původního [o:] se píše ů).
+[editovat]
+
+Slovní zásoba
+
+Slovní zásoba je původní (původní slova, slova vytvořená odvozením pomocí předpony nebo přípony či jiného složení písmen [počítat - počítač, les - lesní, vědět - dozvědět a mnoho dalších], zkrácená slova, zkratky a slova vytvořená složením dvou nebo více slov) nebo převzatá (z angličtiny, němčiny, ruštiny, řečtiny, latiny, francouzštiny, italštiny, japonštiny a dalších jazyků). Převzatá se dělí na dvě skupiny:
+
+   1. přepsaná do češtiny, např. telefon, televize, rádio
+   2. slova používaná v původním tvaru, případně foneticky přepsaná do latinky, např. ikebana, hardware a další.
+
+[editovat]
+
+Nářečí
+
+Čeština má mnoho nářečí, která jsou si navzájem většinou srozumitelná. Všichni Češi se mezi sebou domluví, protože každý Čech umí spisovnou nebo obecnou češtinu. Někde Češi používají spisovnou a obecnou češtinu dohromady, jinde zase spisovnou češtinu a nářečí či slang.
+
+S Čechy se domluvíte snadno i slovensky. Rozdíly mezi těmito dvěma jazyky jsou ve slovní zásobě menší než rozdíly mezi některými nářečími jiných jazyků. Jako příklad se dává vztah mezi dolnoněmčinou a hornoněmčinou.
+[editovat]
+
+Historie
+
+První česky psanou památkou jsou 2 věty ze zakládací listiny litoměřické kapituly z roku 1057, které jsou však zřetelně mladší, zřejmě až z 12. století. Zní: "Pavel dal jest Ploškovicích zemu. Vlach dal jest Dolas zemu Bogu i svjatemu Scepanu se dvema dušníkoma Bogucos a Sedlatu." Dále se dochovaly glossy z chorální knihy svatojiřské, rovněž z 12. století, od neznámé jeptišky: "Aldík krásen jako anjelík, jenž v blátě se válé. Lector Vituz je krásný kurvy syn."
+
+
+Slovanské jazyky
+Západoslovanské jazyky: čeština | dolnolužičtina | hornolužičtina | kašubština | polabština | polština | slovenština
+Východoslovanské jazyky: běloruština | rusínština | ruština | ukrajinština
+Jihoslovanské jazyky: bosenština | bulharština | chorvatština | makedonština | slovinština | srbština | staroslověnština
+Citováno z „http://cs.wikipedia.org/wiki/%C4%8Ce%C5%A1tina“
+
+Kategorie: Slovanské jazyky | Česko | Čeština
\ No newline at end of file
diff --git a/mcs/class/I18N/West/Test/texts/esperanto-utf8.txt b/mcs/class/I18N/West/Test/texts/esperanto-utf8.txt
new file mode 100644 (file)
index 0000000..74c87c3
--- /dev/null
@@ -0,0 +1,447 @@
+Esperanto
+From Wikipedia, the free encyclopedia.
+Jump to: navigation, search
+Esperanto  
+Flag:  
+Esperanto flag
+Created by:    L.L. Zamenhof   1887 
+Setting and usage:     International auxiliary language
+Total speakers:        Native: approx. 2000;
+Active speakers: est. 100,000 to 3 million, depending on criteria
+(est. 1.6 million at FSI level 3)
+Category (purpose):    constructed language
+ International auxiliary language
+  Esperanto 
+Category (sources):    vocabulary from Romance and Germanic languages; phonology from Slavic languages 
+Regulated by:  Akademio de Esperanto
+Language codes
+ISO 639-1:     eo
+ISO 639-2:     epo
+ISO/DIS 639-3:         epo 
+Note: This page may contain IPA phonetic symbols in Unicode.
+Portal         Esperanto Portal
+
+Esperanto is the most widely spoken constructed international language. The name derives from Doktoro Esperanto, the pseudonym under which L. L. Zamenhof first published the Unua Libro in 1887. Zamenhof's goal was to create an easy and flexible language as a universal second language to foster peace and international understanding.
+
+Although no country has adopted the language officially, it has enjoyed continuous usage by a growing community of several million speakers. Today, Esperanto is employed in world travel, correspondence, cultural exchange, conventions, literature, language instruction, television broadcasting, and radio broadcasting. There are even about a thousand native speakers of the language.
+
+There is evidence that learning Esperanto before another foreign language improves one's ability to learn that language, so much so that it takes less time to learn both than it would to learn just the second.
+Contents
+[hide]
+
+    * 1 History
+    * 2 Linguistic properties
+          o 2.1 Classification
+          o 2.2 Phonology
+                + 2.2.1 Consonants
+                + 2.2.2 Vowels
+          o 2.3 Grammar
+          o 2.4 Vocabulary
+          o 2.5 Writing system
+          o 2.6 Useful phrases
+    * 3 The Esperanto speaker community
+          o 3.1 Geography and demography
+          o 3.2 Culture
+          o 3.3 Goals of the Esperanto movement
+    * 4 Esperanto and education
+    * 5 Criticism and Modifications of Esperanto
+    * 6 See also
+    * 7 References
+    * 8 External links
+          o 8.1 Information on Esperanto
+          o 8.2 Dictionaries
+          o 8.3 Esperanto courses
+          o 8.4 Esperanto organizations
+          o 8.5 News in Esperanto
+          o 8.6 Portal
+          o 8.7 Entertainment
+          o 8.8 Criticism
+
+[edit]
+
+History
+
+    Main article: History of Esperanto
+
+L.L. Zamenhof, creator of Esperanto
+Enlarge
+L.L. Zamenhof, creator of Esperanto
+
+As a recently constructed language, Esperanto's history is short and relatively well-known. It was developed in the late 1870s and early 1880s by Dr. Ludovic Lazarus Zamenhof. After some ten years of development, which Zamenhof spent translating literature into the language as well as writing original prose and verse, the first Esperanto grammar was published in Warsaw in July 1887. The number of speakers grew rapidly over the next few decades, at first primarily in the Russian empire and eastern Europe, then in western Europe and the Americas, China, and Japan. In the early years speakers of Esperanto kept in contact primarily through correspondence and magazines, but in 1905 the first world congress of Esperanto speakers was held in Boulogne-sur-Mer, France. Since then world congresses have been held on five continents, every year except during the two World Wars, and have been attended by up to 6000 people.
+
+Esperanto is part of the state educational curriculum of several countries, but is not an official language of any. There were plans at the beginning of the 20th century to establish Neutral Moresnet as the world's first Esperanto state, and the short-lived artificial island micronation of Rose Island used Esperanto as its official language in 1968. In China, there was talk in some circles after the 1911 Xinhai Revolution about officially replacing Chinese with Esperanto as a means to dramatically bring the country into the twentieth century, although this proved untenable. Esperanto is the working language of several non-profit international organizations such as the Sennacieca Asocio Tutmonda and the United Citizens Alliance, but most others are specifically Esperanto organizations. The largest of these, the World Esperanto Association, has an official consultative relationship with the United Nations and UNESCO. The Oomoto religion encourages the use of Esperanto among their followers. The Bahá'í Faith encourages the use of an auxilliary international language, and sees Esperanto as having great potential in this role.
+[edit]
+
+Linguistic properties
+[edit]
+
+Classification
+
+As a constructed language, Esperanto is not genealogically related to any ethnic language. Esperanto can be described as "a language lexically predominantly romanic, morphologically intensively agglutinant and to a certain degree isolating in character" (Blanke 1985).
+
+The phonology, grammar, vocabulary, and semantics are based on the western Indo-European languages. The phonemic inventory is essentially Slavic, as is much of the semantics, while the vocabulary derives primarily from the Romance languages, with a lesser contribution from Germanic. Pragmatics and other aspects of the language not specified by Zamenhof's original documents were influenced by the native languages of early speakers, primarily Russian, Polish, German, and French.
+
+Typologically, Esperanto has prepositions and a pragmatic word order that by default is Subject Verb Object and Adjective Noun. New words are formed through extensive prefixing and suffixing.
+[edit]
+
+Phonology
+
+    See also Esperanto phonology.
+
+Esperanto has 5 vowels and 23 consonants, of which two are semivowels. It does not have tone. Stress is always on the second-last vowel, unless a final vowel o is elided (which in practice occurs most in poetry). For example, familio (family) is [fa.mi.ˈli.o], but famili’ is [fa.mi.ˈli].
+
+
+[edit]
+
+Consonants
+       Bilabial        Labio-
+dental         Alveolar        Post-
+alveolar       Palatal         Velar   Glottal
+Plosive        p       b               t       d                       k       g        
+Nasal          m                       n                                
+Tap                            ɾ                               
+Fricative              f       v       s       z       ʃ      ʒ              x               h        
+Affricate                      ʦ              ʧ      ʤ                       
+Lateral approximant                            l                                
+Approximant                                            j                
+
+
+The sound /r/ is usually tapped ([ɾ] in the IPA), but may be rolled. The /v/ has a normative pronunciation like an English v, but is frequently somewhere between a v and a w (IPA [ʋ]), depending on the language background of the speaker. A semivowel [u̯] normally occurs only in diphthongs after the vowels /a/ and /e/. Common (if debated) assimilation includes the pronunciation of /nk/ as [ŋk], as in English sink, and /kz/ as [gz], like the x in English example.
+
+A large number of possible consonant clusters can occur, up to three in initial position and four in medial position (for example, in instrui, to teach). Final clusters are uncommon except in foreign names, poetic elision of final o, and a very few basic words such as cent (hundred) and post (after).
+[edit]
+
+Vowels
+
+Esperanto has the five vowels of Spanish and Swahili. There are no long or nasalized vowels.
+       Front   Back
+Close  i       u
+Mid    e       o
+Open   a
+
+There are six falling diphthongs: /ui̯, oi̯, ei̯, ai̯, au̯, eu̯/.
+
+With only five vowels, a good deal of variation is tolerated. For instance, /e/ commonly ranges from [e] (French é) to [ɛ] (French è). The details often depend on the speaker's native language. A glottal stop may occur between adjacent vowels in some people's speech, especially when the two vowels are the same, as in heroo (hero) and praavo (great-grandfather).
+[edit]
+
+Grammar
+
+    For more details on this topic, see Esperanto grammar.
+
+Esperanto words are derived by stringing together prefixes, roots, and suffixes. This is very regular, so that people can create new words as they speak and be understood. Compound words are formed with modifier-first, head-final order, i.e. the same way as in English birdsong vs. songbird.
+
+The different parts of speech are marked by their own suffixes: all nouns end in -o, all adjectives in -a, adverbs in -e, and verbs end in one of six tense and mood suffixes, such as present tense -as.
+
+Plural nouns end in -oj (pronounced "oy"), whereas direct objects end in -on. Plural direct objects end in -ojn (pronounced to rhyme with "coin"). Adjectives agree with their nouns; their endings are plural -aj (pronounced "eye"), direct-object -an, and plural direct-object -ajn (pronounced to rhyme with "fine").
+Noun   Subject         Object
+Singular       -o      -on
+Plural         -oj     -ojn
+       
+Adjective      Subject         Object
+Singular       -a      -an
+Plural         -aj     -ajn
+
+The six verb inflections are three tenses and three moods. They are present tense -as, future tense -os, past tense -is, infinitive mood -i, conditional mood -us, and jussive mood -u. Verbs are not marked for person or number. For instance: kanti - to sing; mi kantas - I sing; mi kantis - I sang; mi kantos - I will sing.
+Verbal Tense   Suffix
+Present        -as (kantas)
+Past   -is (kantis)
+Future         -os (kantos)
+       
+Verbal Mood    Suffix
+Infinitive     -i (kanti)
+Jussive        -u (kantu)
+Conditional    -us (kantus)
+
+Word order is comparatively free: adjectives may precede or follow nouns, and subjects, verbs and objects (marked by the suffix -n) can occur in any order. However, the article la (the) and the demonstratives almost always come before the noun, and a preposition must come before it. Similarly, the negative ne (not) and conjunctions such as kaj (both, and) and ke (that) must precede the phrase or clause they introduce. In copular (A = B) clauses, word order is just as important as it is in English clauses like people are dogs vs. dogs are people.
+[edit]
+
+Vocabulary
+
+    For more details on this topic, see Esperanto vocabulary.
+    See the lists of Esperanto words and Esperanto words from Universala Vortaro at Wiktionary, the free dictionary and Wikipedia's sibling project.
+
+The core vocabulary of Esperanto was defined by Lingvo internacia, published by Zamenhof in 1887. It comprised 900 roots, which could be expanded into the tens of thousands of words with prefixes, suffixes, and compounding. In 1894, Zamenhof published the first Esperanto dictionary, Universala Vortaro, with a larger set of roots. However, the rules of the language allowed speakers to borrow new roots as needed, recommending only that they look for the most international forms, and then derive related meanings from these.
+
+Since then, many words have been borrowed, primarily but not solely from the western European languages. Not all proposed borrowings catch on, but many do, especially technical and scientific terms. Terms for everyday use, on the other hand, are more likely to be derived from existing roots—for example komputilo (a computer) from komputi (to compute) plus the suffix -ilo (tool)—or to be covered by extending the meanings of existing words (for example muso (a mouse), now also means a computer input device, as in English). There are frequent debates among Esperanto speakers about whether a particular borrowing is justified or whether the need can be met by deriving from or extending the meaning of existing words.
+
+In addition to the root words and the rules for combining them, a learner of Esperanto must learn some idiomatic compounds that are not entirely straightforward. For example, eldoni, literally "to give out", is used for "to publish" (a calque of words in several European languages with the same derivation), and vortaro, literally "a collection of words", means "a glossary" or "a dictionary". Such forms are modeled after usage in the ethnic European languages, and speakers of other languages may find them illogical. Fossilized derivations inherited from Esperanto's source languages may be similarly obscure, such as the opaque connection the root word centralo "power station" has with centro "center". Compounds with -um- are overtly arbitrary, and must be learned individually, as -um- has no defined meaning. It turns dekstren "to the right" into dekstrumen "clockwise", and komuna "common/shared" into komunumo "community", for example.
+
+Nevertheless, there are not nearly as many truly idiomatic or slang words in Esperanto as in ethnic languages, as these tend to make international communication difficult, working against Esperanto's main goal.
+[edit]
+
+Writing system
+
+    For more details on this topic, see Esperanto orthography.
+
+Esperanto is written with a modified version of the Latin alphabet, including six letters with diacritics: ĉ, ĝ, ĥ, ĵ, ŝ and ŭ (that is, c, g, h, j, s circumflex, and u breve). The alphabet does not include the letters q, w, x, y except in unassimilated foreign names.
+
+The 28-letter alphabet is:
+a b c ĉ d e f g ĝ h ĥ i j ĵ k l m n o p r s ŝ t u ŭ v z
+
+All letters are pronounced approximately as their lower-case equivalents in the IPA, with the exception of c and the accented letters:
+Letter         Pronunciation
+c      [ʦ]
+ĉ     [ʧ]
+ĝ     [ʤ]
+ĥ     [x]
+ĵ     [ʒ]
+ŝ     [ʃ]
+(as aŭ, eŭ)  [u̯]
+
+Two ASCII-compatible writing conventions are in use. These substitute digraphs for the accented letters. The original "h-convention" (ch, gh, hh, jh, sh, u) is based on English 'ch' and 'sh', while a more recent "x-convention" (cx, gx, hx, jx, sx, ux) is useful for alphabetic word sorting on a computer (cx comes correctly after cu, sx after sv, etc.) as well as for simple conversion back into the standard orthography.
+[edit]
+
+Useful phrases
+
+Here are some useful Esperanto phrases, with IPA transcriptions:
+
+    * Hello: Saluton [sa.ˈlu.ton]
+    * What is your name?:
+
+        Kiel vi nomiĝas? [ˈki.el vi no.ˈmi.ʤas]
+        Kio estas via nomo? [ˈki.o ˈes.tas ˈvi.a ˈno.mo]
+
+    * My name is ... :
+
+        Mi nomiĝas ... [mi no.ˈmi.ʤas ...]
+        Mia nomo estas ... [ˈmi.a ˈno.mo ˈes.tas ...]
+
+    * How much?: Kiom? [ˈki.om]
+    * Here you are: Jen [jen]
+    * Do you speak Esperanto?: Ĉu vi parolas Esperanton? [ˈʧu vi pa.ˈro.las es.pe.ˈran.ton]
+    * I don't understand you: Mi ne komprenas vin [mi ˈne kom.ˈpre.nas vin]
+    * I like this one:
+
+        Mi ŝatas tiun ĉi [mi ˈʃat.as ˈti.un ˈʧi]
+        Ĉi tiu plaĉas al mi [ʧi ˈti.u ˈpla.ʧas al ˈmi]
+
+    * Thank you: Dankon [ˈdaŋ.kon]
+    * You're welcome: Ne dankinde [ˈne daŋ.ˈkin.de]
+    * Please: Bonvolu [bon.ˈvo.lu]
+    * Here's to your health: Je via sano [je ˈvi.a ˈsa.no]
+    * Bless you!/Gesundheit!: Sanon! [ˈsa.non]
+    * Okay: Bone [ˈbo.ne]
+    * It is a nice day: Estas bela tago [ˈes.tas ˈbe.la ˈta.go]
+    * I love you: Mi amas vin [mi ˈam.as vin]
+    * Goodbye:
+
+        Ĝis (la) revido [ˈʤis (la) re.ˈvid.o]
+        Ĝis (la)! [ˈʤis (la)]
+
+    * Peace!/shalom/salaam: Pacon [ˈpa.tson]
+
+[edit]
+
+The Esperanto speaker community
+[edit]
+
+Geography and demography
+
+Esperanto speakers are more numerous in Europe and East Asia than in the Americas, Africa and Oceania, and more numerous in urban than in rural areas (Sikosek 2003). Esperanto is particularly prevalent in the northern and eastern countries of Europe; in China, Korea, Japan, and Iran within Asia; in Brazil, Argentina, and Mexico in the Americas; and in Togo and Madagascar in Africa.
+
+An estimate of the number of Esperanto speakers was made by Sidney S. Culbert, a retired psychology professor of the University of Washington and a longtime Esperantist, who tracked down and tested all Esperanto speakers in sample areas of dozens of countries over a period of twenty years. Culbert concluded that between one and two million people speak Esperanto at Foreign Service Level 3, "professionally proficient" (able to communicate moderately complex ideas without hesitation, and to follow speeches, radio broadcasts, etc.) (Wolff 1996). Culbert's estimate was not made for Esperanto alone, but formed part of his listing of estimates for all languages of over 1 million speakers, published annually in the World Almanac and Book of Facts. Since Culbert never published in detail about his sampling methodology, or intermediate results for particular countries and regions, it is difficult to gauge the accuracy of his results. In the Almanac, his estimates for numbers of language speakers were rounded to the nearest million, thus the number for Esperanto speakers is shown as 2 million. This latter figure appears in Ethnologue. Assuming that this figure is accurate, that means that about 0.03% of the world's population speaks the language. This falls short of Zamenhof's goal of a universal language, but it represents a level of popularity unmatched by any other constructed language. Ethnologue also states that there are 200 to 2000 native Esperanto speakers.
+
+Marcus Sikosek has challenged this figure of 1.6 million as exaggerated. Sikosek estimated that even if Esperanto speakers were evenly distributed, assuming one million Esperanto speakers worldwide would lead one to expect about 180 in the city of Cologne. Sikosek finds only 30 fluent speakers in that city, and similarly smaller than expected figures in several other places thought to have a larger-than-average concentration of Esperanto speakers. He also notes that there are a total of about 20,000 members of the various Esperanto organizations (other estimates are higher). Though there are undoubtedly many Esperanto speakers who are not members of any Esperanto organization, he thinks it unlikely that there are fifty times more speakers than organization members (Sikosek 2003). Others think such a ratio between members of the organized Esperanto movement and speakers of the language is not unlikely. In the absence of Dr. Culbert's detailed sampling data, or any other census data, it is impossible to state the number of speakers with certainty.
+[edit]
+
+Culture
+
+    For a more detailed treatment of these topics, see the subarticles: Esperanto culture, Esperanto literature, and Esperanto music.
+
+Esperanto is often used to access an international culture, including a large corpus of original as well as translated literature. There are over a hundred regularly published magazines in Esperanto. Many speakers use the language for free travel throughout the world using the Pasporta Servo, or for international pen pals. Penpals are even possible for elementary school students, something that is far more difficult when using an ethnic language like English. To some extent there are also shared traditions in the Esperanto community, like Zamenhof Day.
+
+It is frequently criticised that "Esperanto has no culture". However, Esperanto is intentionally culturally neutral: It was intended to be a facilitator between cultures, not the carrier of any one culture. (See Esperanto as an international language.)
+
+Two films were produced with dialogue entirely in Esperanto. The films were Angoroj in 1964 and Incubus starring William Shatner in 1965.
+
+The anime RahXephon makes use of Esperanto for the acronym of TERRA, which stands for "Tereno Empireo Rapidmova Reakcii Armeo." This can be translated as "Earth Empire Rapid Response Army," though pedants might note that a better Esperanto rendition of this name would be "Rapid-Reaga Armeo de la Tera Imperio".
+
+American composer Lou Harrison, who incorporated styles and instruments from many world cultures in his music, used Esperanto titles and/or texts in several of his works.
+[edit]
+
+Goals of the Esperanto movement
+
+Zamenhof's intention was to create an easy-to-learn language to foster international understanding. It was to serve as an international auxiliary language, that is, as a universal second tongue, not to replace ethnic languages. This goal was widely shared among Esperanto speakers in the early decades of the movement. Later, Esperanto speakers began to see the language and the culture that had grown up around it as ends in themselves, even if Esperanto is never adopted by the United Nations or other international organizations.
+
+Those Esperanto speakers who want to see Esperanto adopted officially or on a large scale worldwide are commonly called finvenkistoj, from fina venko, meaning "final victory". Those who focus on the intrinsic value of the language are commonly called raŭmistoj, from Rauma, Finland, where a declaration on the near-term unlikelihood of the "fina venko" and the value of Esperanto culture was made at the International Youth Congress in 1980. These categories are, however, not mutually exclusive.
+
+The Prague Manifesto (1996) presents the views of the mainstream of the esperanto movement and of its main organisation, the World Esperanto Association (UEA).
+[edit]
+
+Esperanto and education
+
+Relatively few schools teach Esperanto officially outside of China, Hungary, and Bulgaria; the majority of Esperanto speakers continue to learn the language through self-directed study or correspondence courses. Several Esperanto paper correspondence courses were early on adapted to email and taught by corps of volunteer instructors. In more recent years, teaching websites like lernu! have become popular.
+
+Claude Piron, a psychologist formerly at the University of Geneva and Chinese-English-Russian-Spanish translator for the United Nations, argued that it is easier to think clearly in Esperanto than in many ethnic languages (see Sapir-Whorf hypothesis for an explanation on this theory). "Esperanto relies entirely on innate reflexes [and] differs from all other languages in that you can always trust your natural tendency to generalize patterns. [...] The same neuropsychological law [— called by] Jean Piaget generalizing assimilation — applies to word formation as well as to grammar." (published lecture notes)
+
+Several studies demonstrate that, at least for native European-language speakers, studying Esperanto before another foreign language speeds and improves learning the other language. This is presumably because learning subsequent foreign languages is easier than learning one's first, while the use of a grammatically simple and culturally flexible auxiliary language like Esperanto lessens the first-language learning hurdle. In one study (Williams 1965), a group of European high-school students studied Esperanto for one year, then French for three years, and ended up with a significantly better command of French than a control group, who studied French for all four years. Similar results were found when the second language was Japanese, or when the course of study was reduced to two years, of which six months was spent learning Esperanto. See Propaedeutic value of Esperanto for other relevant studies.
+[edit]
+
+Criticism and Modifications of Esperanto
+
+    For a more detailed treatment of these topics, see the subarticles: Esperanto as an international language and Esperantido (Esperanto-inspired projects).
+
+Common criticisms of the language are that its vocabulary and grammar are too Western European; that its vocabulary, accented letters, and grammar are not Western European enough (a critique addressed by Ido and Interlingua); that it is sexist, artificial, or has failed to live up to expectations.
+
+Though Esperanto itself has changed relatively little since the publication of the Fundamento de Esperanto ("Foundation of Esperanto"), a number of reform projects have been proposed over the years, starting with Zamenhof's proposals in 1894 and Ido in 1907. Several later conlangs, such as Novial and Fasile, were based on Esperanto.
+[edit]
+
+See also
+edit
+Esperanto flag
+Esperanto topics
+This article is part of
+the Esperanto series
+Language
+Esperanto | Grammar | Letters | Phonology | Orthography | Vocabulary
+History
+History | Zamenhof | Proto-Esperanto | "Unua Libro" | Declaration of Boulogne | "Fundamento" | Prague Manifesto
+Culture and media
+Culture | Esperantists | Esperantujo | Film | La Espero | Libraries | Literature | Music | Native speakers | Pop culture references | Publications | Symbols | Zamenhof Day
+Organization and services
+Amikeca Reto | Esperanto Academy | Kurso de Esperanto | Encyclopedia | Pasporta Servo | Pen pal service | Plouézec Meetings | TEJO | UEA | World Congress
+Criticism
+Esperantido | Propedeutic value | Reformed | Riism | Vs. Ido | Vs. Interlingua
+Related topics
+
+Auxiliary language | Constructed language | Ido | Interlingua | Novial | Volapük
+Wikimedia
+
+Portal | Vikipedio | Vikivortaro | Vikicitaro | Vikifonto | Vikilibroj | Vikikomunejo | Vikispecoj
+
+    * Esperanto language
+          o Pronunciation guide
+          o Orthography
+          o Phonology
+          o Vocabulary and word-building
+          o Grammar
+          o Kurso de Esperanto
+
+    * History of Esperanto
+          o Proto-Esperanto
+          o Offshoots of Esperanto
+          o World Congresses
+    * Educational value of Esperanto
+    * Esperanto as an international language
+
+    * Esperanto culture
+          o Film
+          o Flag
+          o Libraries
+          o Literature
+                + Ĝangalo (the biggest news portal in Esperanto)
+                + Monato (a monthly world news magazine)
+          o Music
+                + La Espero (Esperanto anthem)
+          o The World Congress
+          o Plouézec International Meetings
+    * Esperanto in English-language media
+
+    * Wikimedia
+          o Vikipedio (Wikipedia)
+          o Vikivortaro (Wiktionary)
+
+[edit]
+
+References
+
+    * Ludovikologia dokumentaro I Tokyo: Ludovikito, 1991. Facsimile reprints of the Unua Libro in Russian, Polish, French, German, English and Swedish, with the earliest Esperanto dictionaries for those languages.
+    * Fundamento de Esperanto. HTML reprint of 1905 Fundamento, from the Academy of Esperanto.
+    * Auld, William. La Fenomeno Esperanto ("The Esperanto Phenomenon"). Rotterdam: Universala Esperanto-Asocio, 1988.
+    * Blanke, Detlev: Internationale Plansprachen. Eine Einführung ("International Planned Languages. An Introduction"), Berlin: Akademie-Verlag 1985
+    * Butler, Montague C. Step by Step in Esperanto. ELNA 1965/1991. ISBN 0939785013
+    * Everson, Michael. The Alphabets of Europe: Esperanto {PDF}. Evertype, 2001.
+    * Harlow, Don. The Esperanto Book. Self-published on the web (1995-96).
+    * Piron, Claude: "The hidden perverse effect of the current system of international communication", published lecture notes
+    * Sikosek, Ziko M. Esperanto Sen Mitoj ("Esperanto without Myths"). Second edition. Antwerp: Flandra Esperanto-Ligo, 2003.
+    * Wells, John. Lingvistikaj aspektoj de Esperanto ("Linguistic aspects of Esperanto"). Second edition. Rotterdam: Universala Esperanto-Asocio, 1989.
+    * Williams, N. (1965) 'A language teaching experiment', Canadian Modern Language Review 22.1: 26-28
+    * Wolff, David T. Posting to soc.culture.esperanto of 27 March, 1996 quoting Dr. Sidney Culbert on his then unpublished research on the number of Esperanto speakers.
+
+[edit]
+
+External links
+[edit]
+
+Information on Esperanto
+Wikipedia
+Esperanto edition of Wikipedia
+Wikibooks
+Wikibooks has more about this subject:
+Esperanto
+
+    * An Update on Esperanto by the World Esperanto Association
+    * Esperanto.net: information in 57 languages
+    * Esperanto: A Language for the Global Village by Sylvan Zaft
+    * A Key to the International Language compiled by Kent Jones and Christopher Zervic
+    * Blueprints for Babel: Esperanto - Commentary and grammatical summary of Esperanto and Riismo, with glossary and links
+    * From a Nobel Nominee who writes in Esperanto
+    * Articles on Esperanto and International communication
+    * Lots of links for Esperanto
+
+[edit]
+
+Dictionaries
+
+    * Reta Vortaro, an Esperanto dictionary
+    * The Alternative Esperanto Dictionary
+    * Esperanto – English Dictionary: from Webster's Online Dictionary – the Rosetta Edition.
+    * Traduku: Online Machine Translator
+    * Wiktionary:Category:Esperanto language
+    * jVortaro, en Esperanto dictionary written in Java
+
+[edit]
+
+Esperanto courses
+
+    * Lernu.net – see also Lernu!
+    * Free Esperanto Course – E-mail correspondence course
+    * Kurso de Esperanto – Software and e-mail correspondence course (multilingual)
+    * Esperanto - Panorama
+    * Projekto NESTO – Tutoring courses of Esperanto in several languages.
+
+[edit]
+
+Esperanto organizations
+
+    * Universal Esperanto Association
+    * Esperanto Association of Britain
+    * Canadian Esperanto Association
+    * Australian Esperanto Association
+    * New Zealand Esperanto Association
+    * Esperanto League for North America – US national organization
+    * Brazilian Esperanto League – Brazil's national organization
+    * UCA Special Commission on Esperanto Initiatives
+    * Akademio de Esperanto
+    * Akademio Internacia de la Sciencoj San-Marino - International Academy of the Sciences
+
+[edit]
+
+News in Esperanto
+
+    * Internacia Televido - First television channel completely in Esperanto
+    * Ĝangalo - Notico-Indekso - News index from the biggest news portal in Esperanto
+    * Raporto - Kie la mondo raportas al vi - news site
+    * China Radio International
+
+[edit]
+
+Portal
+
+    * Ĝangalo - La mondo en Esperanto - The World in Esperanto (the biggest news portal in Esperanto)
+    * China Interreta Informa Centro - China's Official Gateway to News & Information in Esperanto
+
+[edit]
+
+Entertainment
+
+    * Esperanto Picture Books for Children
+
+[edit]
+
+Criticism
+
+    * Learn Not to Speak Esperanto by Justin B. Rye
+    * Is Esperanto's Vocabulary Bloated?
+    * Why Esperanto Suppresses Language Diversity by Christopher Culver
diff --git a/mcs/class/I18N/West/Test/texts/french-10000.txt b/mcs/class/I18N/West/Test/texts/french-10000.txt
new file mode 100644 (file)
index 0000000..5db02d7
--- /dev/null
@@ -0,0 +1,110 @@
+It is copied from Wikipedia, http://fr.wikipedia.org/wiki/Libert%C3%A9
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Libert\8e
+Un article de Wikip\8edia, l'encyclop\8edie libre.
+Aller \88 : navigation, recherche
+La Libert\8e guidant le peuple par Eug\8fne Delacroix (1830)(Mus\8ee du Louvre, Paris)
+Agrandir
+La Libert\8e guidant le peuple par Eug\8fne Delacroix (1830)(Mus\8ee du Louvre, Paris)
+
+La libert\8e est une notion qui d\8esigne d'une mani\8fre n\8egative l'absence de soumission, de servitude et de d\8etermination, c'est-\88-dire qu'elle est une notion qui qualifie l'ind\8ependance de l'\90tre humain. D'une mani\8fre positive, elle d\8esigne l'autonomie et la spontan\8eit\8e d'un sujet rationnel, c'est-\88-dire qu'elle qualifie les comportements humains volontaires et en constitue la condition.
+
+Cette notion est \88 la fois con\8due comme une valeur abstraite et normative de l'action humaine et comme une r\8ealit\8e concr\8fte et v\8ecue. Ces deux perspectives se recoupent de diverses mani\8fres et peuvent provoquer des erreurs de cat\8egories. Il existe ainsi de nombreuses confusions possibles \88 propos du terme de libert\8e. Il faut donc prendre soin de distinguer les diff\8erents sens de ce mot.
+
+La libert\8e peut constituer un attribut de l'\90tre humain, de sa volont\8e, et \90tre la condition de droits naturels ou positifs, mais aussi de devoirs ; la r\8ealisation effective de l'acte volontaire peut n\8eanmoins comporter une dimension v\8ecue que l'on ne saurait r\8eduire \88 ce qui pr\8ec\8fde. Ces deux plans de l'existence humaine ne sont pas n\8ecessairement compatibles : par exemple, l'existence des libert\8es juridiques est constatable, alors que la r\8ealit\8e (son existence dans nos actes) et l'essence (la conception que nous nous en faisons) de la libert\8e posent probl\8fme.
+La Libert\8e \8eclairant le monde, dans le port de New York
+Agrandir
+La Libert\8e \8eclairant le monde, dans le port de New York
+
+Le premier point peut faire l'objet d'une enqu\90te socio-politique ; son fondement m\8etaphysique et le second point concernent plus particuli\8frement le probl\8fme philosophique de la libert\8e. Cet article sera donc divis\8e en deux parties pour en faciliter la lecture : une partie philosophique, traitant de ce qu'il y a de m\8etaphysique dans la notion de libert\8e, et une partie sociologique. Il faut cependant garder \88 l'esprit que les deux aspects se recoupent.
+
+Remarque : pour une introduction g\8en\8erale \88 cette notion, on peut lire du chapitre Ç Un concept clef de la m\8etaphysique È \88 Ç Les sens philosophiques fondamentaux du mot libert\8e È. Les chapitres suivants permettent d'approfondir la notion par la connaissance de ce que des philosophes en ont dit et par la diversit\8e des points de vue.
+
+Le concept de libert\8e en philosophie
+[modifier]
+
+Un concept clef de la m\8etaphysique
+
+La question de la libert\8e peut \90tre consid\8er\8ee comme une question m\8etaphysique par excellence dans la mesure o\9d elle concerne le statut de l'homme au sein de la nature. La libert\8e qualifie en effet la relation de l'homme en tant qu'agent et du monde physique, relation notamment consid\8er\8ee dans son rapport \88 un d\8eterminisme suppos\8e ou r\8eel. Cette question concerne donc particuli\8frement l'immanence et la transcendance de la volont\8e humaine par rapport au monde.
+
+La libert\8e s'oppose en g\8en\8eral (ce n'est donc pas toujours le cas) au d\8eterminisme, au fatalisme et \88 toute doctrine qui soutient la th\8fse de la n\8ecessit\8e du devenir. Le concept de libert\8e divise tr\8fs sch\8ematiquement les philosophes en deux camps : ceux qui en font le fondement de l'action et de la morale humaines (\83picure, Descartes, Kant), et ceux qui nient une quelconque transcendance de la volont\8e par rapport \88 des d\8eterminismes tels que la sensibilit\8e (D\8emocrite, Spinoza, Nietzsche) :
+
+    Ç Il existait deux opinions sur lesquelles se partageaient les anciens philosophes, les uns pensant que tout se produit par le destin, en sorte que ce destin apportait la force de la n\8ecessit\8e (D\8emocrite, H\8eraclite, Emp\8edocle, Aristote \8etaient de cet avis), les autres pour qui les mouvements volontaires de lÕ\89me existaient sans aucune intervention du destin ; Chrysippe, en position dÕarbitre officieux, me para\94t avoir choisi la position interm\8ediaire ; mais ils se rattache plut\99\88 ceux qui veulent voir les mouvements de lÕ\89me lib\8er\8es de la n\8ecessit\8e. È (Cic\8eron, Du destin, ¤39).
+
+On dirait aujourd'hui qu'il y a une opposition entre physicalisme et mentalisme, i.e. entre la causalit\8e physique (physicalisme) \88 laquelle tous les \90tres peuvent \90tre r\8eduits et la causalit\8e mentale (mentalisme), qui peut \90tre une th\8eorie mat\8erialiste, tout en reconnaissant une action propre du mental. Dans le premier cas, il s'agit d'expliquer comment on peut naturaliser la volont\8e, sans reconduire un dualisme m\8etaphysique classique, et comment il est encore possible de parler d'action et de responsabilit\8e, alors que l'on en a supprim\8e la condition ; dans le second cas, il s'agit plut\99t d'expliquer comment une causalit\8e mentale est possible qui \8evite aussi ce dualisme souvent difficile \88 rendre intelligible. Un des points les plus int\8eressants que met ainsi en lumi\8fre cette opposition, c'est le caract\8fre souvent difficile \88 d\8eterminer du concept de libert\8e.
+[modifier]
+
+Origine et analyse du probl\8fme
+
+Le probl\8fme de la libert\8e surgit naturellement quand la raison humaine cherche \88 unifier les diff\8erents \8el\8ements de sa repr\8esentation du monde. En effet, si l'explication philosophique comprend la r\8ealit\8e dans son int\8egralit\8e, au moins id\8ealement (et au contraire des sciences qui ont une partie seulement du monde pour objet), alors un effort d'unification de notre connaissance par une causalit\8e unique est exigible, et cela afin d'\8eviter les contradictions qui d\8ecoulent de l'hypoth\8fse de l'existence de plusieurs causalit\8es (psychique et physique) : il semble en effet impossible de penser l'interaction de deux causalit\8es h\8et\8erog\8fnes. Ce probl\8fme a particuli\8frement sollicit\8e la r\8eflexion des philosophes de l'antiquit\8e. La physique hell\8enistique est ainsi nettement d\8eterministe. Mais cette unit\8e causale a soulev\8e et soul\8fve encore de nos jours des probl\8fmes : si on unit les trois parties de la connaissance (physique, \8ethique, logique), et aujourd'hui les sciences humaines et les sciences de la nature, comment r\8esoudre l'antagonisme entre destin et libert\8e ? Le probl\8fme qui se pose est essentiellement d'ordre moral. Epicure fut contraint d'inventer le clinamen, et les sto\95ciens invent\8frent des raisonnements tr\8fs subtils pour tenter d'\8echapper \88 ce qui ressemble \88 une cons\8equence in\8evitable de ce qu'on appelle aujourd'hui le physicalisme.
+
+L'unit\8e de nos repr\8esentations serait alors une unit\8e logique. Mais la question se pose : si tout d\8epend du destin, comment certaines choses peuvent-elles encore d\8ependre de nous ? Ou bien la nature est seule ma\94tresse des choses, ou bien l'homme est ma\94tre lui aussi au sein de la nature. Cette contradiction dans notre connaissance est la troisi\8fme antinomie kantienne : suis-je libre, ou suis-je conduit par le destin ? La nature est ici entendue comme un pur encha\94nement causal ; il s'agit alors de concilier les deux affirmations : responsabilit\8e morale et actes d\8etermin\8es.
+
+Si on nie la causalit\8e naturelle, on fait appara\94tre un concept de libert\8e qui implique la nouveaut\8e absolue dans l'ordre de la nature : la libert\8e humaine doit pouvoir ouvrir des possibles en produisant des actions non-d\8etermin\8ees, ind\8ependantes notamment des inclinations de notre sensibilit\8e. Notre volont\8e n'a alors aucune cause ant\8ec\8edente. Mais dans ce cas, la libert\8e n'est pas une r\8ealit\8e intelligible : la libert\8e sort du n\8eant, elle constitue une sorte de miracle, d'o\9d le caract\8fre presque indicible de ce concept, puisque la libert\8e semble \90tre dans ce cas au-del\88 de la port\8ee de l'intellect humain.
+
+Ainsi, en cherchant \88 unifier nos connaissances, soit on fait de l'homme un \90tre d\8etermin\8e, dont la volont\8e est immanente \88 la nature (donc on cherche \88 naturaliser l'humain), soit on fait de l'homme un \90tre transcendant, irr\8eductible en particulier \88 sa nature animale.
+[modifier]
+
+D\8efinition et critiques
+
+Une d\8efinition du sens commun serait que la libert\8e c'est faire ce qu'on d\8esire sans rencontrer d'obstacle. C'est l'absence de contrainte et l'ind\8ependance, comme, par exemple, le vagabond non assujetti \88 un ordre social (Arthur Rimbaud, Jack Kerouac, etc). Carmen, dit, dans l'op\8era (musique) de Georges Bizet : Ç Ce que je veux, c'est \90tre libre et faire ce qui me pla\94t È, Ç avoir pour pays l'univers et pour loi sa volont\8e È.
+
+C'est l'ivresse de la libert\8e :
+
+    * un certain sentiment de libert\8e peut accompagner l'acte volontaire, et m\90me lorsque l'action est emp\90ch\8ee, il nous reste le sentiment que c'est nous qui d\8ecidons de la direction de notre volont\8e ;
+    * le sentiment de la libert\8e peut na\94tre de l'all\8fgement des contraintes sociales, par exemple dans le temps festif (consommation excessive, d\8emesur\8ee), par opposition au temps ouvr\8e (travail et production). La hi\8erarchie sociale est renvers\8ee, comme dans les saturnales ou le carnaval.
+
+Mais cette libert\8e n'est pas la libert\8e au sens philosophique.
+
+En effet, contre la libert\8e ind\8ependance, il existe au moins deux types de critiques :
+
+    * une critique moraliste : cette libert\8e rel\8fve de la licence, i.e. de l'abandon au d\8esir. Or, il n'y a pas de libert\8e sans loi (Rousseau, Emmanuel Kant), car la libert\8e de tous serait en ce sens contradictoire : les d\8esirs universalis\8es s'annuleraient. La loi est donc n\8ecessaire et il faut limiter l'extension de la libert\8e pour garantir son exercice. Ces limites sont dans l'int\8er\90t m\90me de la libert\8e, pour \8eviter la tyrannie, les conflits et l'esclavage :
+
+    Ç On pourrait, sur ce qui pr\8ec\8fde, ajouter \88 l'acquis de lÕ\8etat civil la libert\8e morale qui seule rend l'homme vraiment ma\94tre de lui; car lÕimpulsion du seul app\8etit est esclavage, et l'ob\8eissance \88 la loi qu'on s'est prescrite est libert\8e. È (Rousseau, Le contrat social).
+
+On remarque que dans cette conception philosophique de la libert\8e, les limites ne sont pas des limites contraignant la libert\8e de la volont\8e humaine ; ces limites d\8efinissent en r\8ealit\8e un domaine d'action o\9d la libert\8e peut exister, ce qui est tout autre chose.
+
+    * une critique d\8eterministe : s'abandonner \88 ses d\8esirs, n'est-ce pas leur ob\8eir, et d\8fs lors un tel abandon ne rel\8fve-t-il pas d'une forme d\8eguis\8ee de d\8eterminisme ? Nous serions alors victimes d'une illusion de libre arbitre : nous aurions une fausse conscience de la libert\8e de notre volont\8e parce que nous ignorons les v\8eritables causes qui nous font agir. Ainsi, Spinoza \8ecrit dans L'Ethique :
+
+    Ç Telle est cette libert\8e humaine que tous se vantent de poss\8eder et qui consiste en cela seul que les hommes ont conscience de leurs app\8etits et ignorent les causes qui les d\8eterminent. Un enfant croit librement app\8eter le lait, un jeune gar\8don irrit\8e vouloir se venger et, s'il est poltron, vouloir fuir. Un ivrogne croit dire par un libre d\8ecret de son \89me ce qu'ensuite, revenu \88 la sobri\8et\8e, il aurait voulu taire. De m\90me un d\8elirant, un bavard, et bien d'autres de m\90me farine, croient agir par un libre d\8ecret de l'\89me et non se laisser contraindre È.
+
+Nietzsche reprendra cette critique : 'Ç Aussi longtemps que nous ne nous sentons pas d\8ependre de quoi que ce soit, nous nous estimons ind\8ependants : sophisme qui montre combien l'homme est orgueilleux et despotique. Car il admet ici qu'en toutes circonstances il remarquerait et reconna\94trait sa d\8ependance d\8fs qu'il la subirait, son postulat \8etant qu'il vit habituellement dans l'ind\8ependance et qu'il \8eprouverait aussit\99t une contradiction dans ses sentiments s'il venait exceptionnellement \88 la perdre. È
+
+Ces deux critiques mettent en lumi\8fre plusieurs points importants. En premier lieu, la libert\8e ne peut se r\8eduire \88 l'ind\8ependance par rapport au monde ext\8erieur ; il faut \8egalement une autonomie int\8erieure r\8eelle par laquelle nous nous donnons volontairement des r\8fgles d'actions. Ainsi, alors que l'ind\8ependance concerne les causes externes (d\8efinissant ce que je peux), l'autonomie concerne les causes qui sont la source de la volont\8e (d\8efinissant ce que je veux). La r\8eflexion philosophique int\8eriorise le probl\8fme et cherche \88 en trouver les conditions internes, en niant que la libert\8e soit d\8ependante en quoi que ce soit du monde ext\8erieur.
+
+En second lieu, il n'est pas certain que tout lien soit contraire \88 l'ind\8ependance. ætre reli\8e n'est pas toujours n\8egatif, car l'intersubjectivit\8e est peut-\90tre plus fondamentale que l'ind\8ependance du moi, dans la mesure o\9d le moi est relation aux autres. Ainsi, pour Friedrich Nietzsche (et de m\90me pour Hegel), le toi est ant\8erieur au moi. Il ne semble donc pas possible de concevoir une libert\8e ind\8ependance comme un \8etat monadique, o\9d l'individu serait une totalit\8e ferm\8ee, atome qui n'aurait que des relations qui lui seraient ext\8erieures ou \8etrang\8fres. Les relations humaines seraient donc \88 la fois des sources de conflits et d'ali\8enation, et des conditions de libert\8e sociale et politique.
+[modifier]
+
+Les sens philosophiques fondamentaux du mot libert\8e
+
+Pour faciliter l'exposition et la compr\8ehension du probl\8fme philosophique de la libert\8e, il est commode de partir de quelques mod\8fles fondamentaux, mod\8fles qui sont soit des conceptions majeures, soit des moments importants de l'histoire de la pens\8ee occidentale (cette liste n'est donc pas ferm\8ee) :
+
+   1. La libert\8e comme libre arbitre de la volont\8e ;
+   2. La libert\8e d'indiff\8erence ;
+   3. La libert\8e transcendantale ;
+   4. La libert\8e morale ;
+   5. La libert\8e jaillissement ;
+   6. La libert\8e existentielle.
+
+1. Libre arbitre: propri\8et\8e de la volont\8e (actus proprius), facult\8e de choix qui associe raison et volont\8e. C'est l'union de la spontan\8eit\8e et de l'intelligence.
+
+    * Spontan\8eit\8e : c'est le fait de trouver \88 l'int\8erieur de soi le principe de ses mouvements. Tous les animaux (en tant que mus par de d\8esirs internes) sont en ce sens des \90tres anim\8es de mani\8fre spontan\8ee.
+    * Intelligence : par l'intelligence, facult\8e de choix, nous agissons par nous-m\90me en connaissance de cause ; nous avons un discernement de nos actes.
+
+La libert\8e, c'est donc la spontan\8eit\8e \8eclair\8ee par la raison ; cette conception de la libert\8e n'est pas incompatible avec certaines formes de naturalisme.
+
+2. Libert\8e d'indiff\8erence (voir Libre arbitre)
+
+    * Selon Descartes, c'est Ç le plus bas degr\8e de la libert\8e È.
+
+3. Libert\8e transcendantale : c'est la facult\8e par laquelle l'individu peut disposer de lui-m\90me et d\8eterminer sa volont\8e en l'absence de toute contrainte physique, c'est-\88-dire ind\8ependamment de la causalit\8e naturelle (chez Kant par exemple). Est dit libre l'homme qui se gouverne selon sa raison. Cela sous-entend que l'individu doit \90tre en mesure de faire preuve de discernement et d'un grand sens critique : l'homme libre se donne \88 lui-m\90me des normes cognitives.
+
+Cette libert\8e a deux conditions : l'ind\8ependance et la spontan\8eit\8e.
+
+    * Ind\8ependance: notre arbitre est ind\8ependant \88 l'\8egard des contraintes des penchants de la sensibilit\8e. Si l'homme est affect\8e par des penchants qui inclinent son arbitre, il peut les mettre de c\99t\8e, les suspendre, pour agir d'apr\8fs d'autres motifs issus de la raison. Dans ce cas, l'arbitre et la raison transcendent le monde en d\8epassant la sensibilit\8e. C'est une condition fondamentale de la libert\8e : l'activit\8e de la volont\8e met en cause la passivit\8e de notre rapport sensible au monde.
+    * Spontan\8eit\8e de la raison : c'est la facult\8e de cr\8eer du nouveau, d'ouvrir des possibles : la raison permet de poser un acte non d\8etermin\8e par des causes pass\8ees. Il y a alors invention et surgissement de nouveaut\8e. Dans ce cas, la raison se donne \88 elle-m\90me sa loi, elle l\8egif\8fre sans rien emprunter \88 la nature.
+
+Si cette libert\8e existe, alors il y a une diff\8erence radicale entre l'homme et la nature.
+
+(snip)
diff --git a/mcs/class/I18N/West/Test/texts/french-utf8.txt b/mcs/class/I18N/West/Test/texts/french-utf8.txt
new file mode 100644 (file)
index 0000000..8916702
--- /dev/null
@@ -0,0 +1,110 @@
+It is copied from Wikipedia, http://fr.wikipedia.org/wiki/Libert%C3%A9
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Liberté
+Un article de Wikipédia, l'encyclopédie libre.
+Aller à : navigation, recherche
+La Liberté guidant le peuple par Eugène Delacroix (1830)(Musée du Louvre, Paris)
+Agrandir
+La Liberté guidant le peuple par Eugène Delacroix (1830)(Musée du Louvre, Paris)
+
+La liberté est une notion qui désigne d'une manière négative l'absence de soumission, de servitude et de détermination, c'est-à-dire qu'elle est une notion qui qualifie l'indépendance de l'être humain. D'une manière positive, elle désigne l'autonomie et la spontanéité d'un sujet rationnel, c'est-à-dire qu'elle qualifie les comportements humains volontaires et en constitue la condition.
+
+Cette notion est à la fois conçue comme une valeur abstraite et normative de l'action humaine et comme une réalité concrète et vécue. Ces deux perspectives se recoupent de diverses manières et peuvent provoquer des erreurs de catégories. Il existe ainsi de nombreuses confusions possibles à propos du terme de liberté. Il faut donc prendre soin de distinguer les différents sens de ce mot.
+
+La liberté peut constituer un attribut de l'être humain, de sa volonté, et être la condition de droits naturels ou positifs, mais aussi de devoirs ; la réalisation effective de l'acte volontaire peut néanmoins comporter une dimension vécue que l'on ne saurait réduire à ce qui précède. Ces deux plans de l'existence humaine ne sont pas nécessairement compatibles : par exemple, l'existence des libertés juridiques est constatable, alors que la réalité (son existence dans nos actes) et l'essence (la conception que nous nous en faisons) de la liberté posent problème.
+La Liberté éclairant le monde, dans le port de New York
+Agrandir
+La Liberté éclairant le monde, dans le port de New York
+
+Le premier point peut faire l'objet d'une enquête socio-politique ; son fondement métaphysique et le second point concernent plus particulièrement le problème philosophique de la liberté. Cet article sera donc divisé en deux parties pour en faciliter la lecture : une partie philosophique, traitant de ce qu'il y a de métaphysique dans la notion de liberté, et une partie sociologique. Il faut cependant garder à l'esprit que les deux aspects se recoupent.
+
+Remarque : pour une introduction générale à cette notion, on peut lire du chapitre « Un concept clef de la métaphysique » à « Les sens philosophiques fondamentaux du mot liberté ». Les chapitres suivants permettent d'approfondir la notion par la connaissance de ce que des philosophes en ont dit et par la diversité des points de vue.
+
+Le concept de liberté en philosophie
+[modifier]
+
+Un concept clef de la métaphysique
+
+La question de la liberté peut être considérée comme une question métaphysique par excellence dans la mesure où elle concerne le statut de l'homme au sein de la nature. La liberté qualifie en effet la relation de l'homme en tant qu'agent et du monde physique, relation notamment considérée dans son rapport à un déterminisme supposé ou réel. Cette question concerne donc particulièrement l'immanence et la transcendance de la volonté humaine par rapport au monde.
+
+La liberté s'oppose en général (ce n'est donc pas toujours le cas) au déterminisme, au fatalisme et à toute doctrine qui soutient la thèse de la nécessité du devenir. Le concept de liberté divise très schématiquement les philosophes en deux camps : ceux qui en font le fondement de l'action et de la morale humaines (Épicure, Descartes, Kant), et ceux qui nient une quelconque transcendance de la volonté par rapport à des déterminismes tels que la sensibilité (Démocrite, Spinoza, Nietzsche) :
+
+    « Il existait deux opinions sur lesquelles se partageaient les anciens philosophes, les uns pensant que tout se produit par le destin, en sorte que ce destin apportait la force de la nécessité (Démocrite, Héraclite, Empédocle, Aristote étaient de cet avis), les autres pour qui les mouvements volontaires de l’âme existaient sans aucune intervention du destin ; Chrysippe, en position d’arbitre officieux, me paraît avoir choisi la position intermédiaire ; mais ils se rattache plutôt à ceux qui veulent voir les mouvements de l’âme libérés de la nécessité. » (Cicéron, Du destin, §39).
+
+On dirait aujourd'hui qu'il y a une opposition entre physicalisme et mentalisme, i.e. entre la causalité physique (physicalisme) à laquelle tous les êtres peuvent être réduits et la causalité mentale (mentalisme), qui peut être une théorie matérialiste, tout en reconnaissant une action propre du mental. Dans le premier cas, il s'agit d'expliquer comment on peut naturaliser la volonté, sans reconduire un dualisme métaphysique classique, et comment il est encore possible de parler d'action et de responsabilité, alors que l'on en a supprimé la condition ; dans le second cas, il s'agit plutôt d'expliquer comment une causalité mentale est possible qui évite aussi ce dualisme souvent difficile à rendre intelligible. Un des points les plus intéressants que met ainsi en lumière cette opposition, c'est le caractère souvent difficile à déterminer du concept de liberté.
+[modifier]
+
+Origine et analyse du problème
+
+Le problème de la liberté surgit naturellement quand la raison humaine cherche à unifier les différents éléments de sa représentation du monde. En effet, si l'explication philosophique comprend la réalité dans son intégralité, au moins idéalement (et au contraire des sciences qui ont une partie seulement du monde pour objet), alors un effort d'unification de notre connaissance par une causalité unique est exigible, et cela afin d'éviter les contradictions qui découlent de l'hypothèse de l'existence de plusieurs causalités (psychique et physique) : il semble en effet impossible de penser l'interaction de deux causalités hétérogènes. Ce problème a particulièrement sollicité la réflexion des philosophes de l'antiquité. La physique hellénistique est ainsi nettement déterministe. Mais cette unité causale a soulevé et soulève encore de nos jours des problèmes : si on unit les trois parties de la connaissance (physique, éthique, logique), et aujourd'hui les sciences humaines et les sciences de la nature, comment résoudre l'antagonisme entre destin et liberté ? Le problème qui se pose est essentiellement d'ordre moral. Epicure fut contraint d'inventer le clinamen, et les stoïciens inventèrent des raisonnements très subtils pour tenter d'échapper à ce qui ressemble à une conséquence inévitable de ce qu'on appelle aujourd'hui le physicalisme.
+
+L'unité de nos représentations serait alors une unité logique. Mais la question se pose : si tout dépend du destin, comment certaines choses peuvent-elles encore dépendre de nous ? Ou bien la nature est seule maîtresse des choses, ou bien l'homme est maître lui aussi au sein de la nature. Cette contradiction dans notre connaissance est la troisième antinomie kantienne : suis-je libre, ou suis-je conduit par le destin ? La nature est ici entendue comme un pur enchaînement causal ; il s'agit alors de concilier les deux affirmations : responsabilité morale et actes déterminés.
+
+Si on nie la causalité naturelle, on fait apparaître un concept de liberté qui implique la nouveauté absolue dans l'ordre de la nature : la liberté humaine doit pouvoir ouvrir des possibles en produisant des actions non-déterminées, indépendantes notamment des inclinations de notre sensibilité. Notre volonté n'a alors aucune cause antécédente. Mais dans ce cas, la liberté n'est pas une réalité intelligible : la liberté sort du néant, elle constitue une sorte de miracle, d'où le caractère presque indicible de ce concept, puisque la liberté semble être dans ce cas au-delà de la portée de l'intellect humain.
+
+Ainsi, en cherchant à unifier nos connaissances, soit on fait de l'homme un être déterminé, dont la volonté est immanente à la nature (donc on cherche à naturaliser l'humain), soit on fait de l'homme un être transcendant, irréductible en particulier à sa nature animale.
+[modifier]
+
+Définition et critiques
+
+Une définition du sens commun serait que la liberté c'est faire ce qu'on désire sans rencontrer d'obstacle. C'est l'absence de contrainte et l'indépendance, comme, par exemple, le vagabond non assujetti à un ordre social (Arthur Rimbaud, Jack Kerouac, etc). Carmen, dit, dans l'opéra (musique) de Georges Bizet : « Ce que je veux, c'est être libre et faire ce qui me plaît », « avoir pour pays l'univers et pour loi sa volonté ».
+
+C'est l'ivresse de la liberté :
+
+    * un certain sentiment de liberté peut accompagner l'acte volontaire, et même lorsque l'action est empêchée, il nous reste le sentiment que c'est nous qui décidons de la direction de notre volonté ;
+    * le sentiment de la liberté peut naître de l'allègement des contraintes sociales, par exemple dans le temps festif (consommation excessive, démesurée), par opposition au temps ouvré (travail et production). La hiérarchie sociale est renversée, comme dans les saturnales ou le carnaval.
+
+Mais cette liberté n'est pas la liberté au sens philosophique.
+
+En effet, contre la liberté indépendance, il existe au moins deux types de critiques :
+
+    * une critique moraliste : cette liberté relève de la licence, i.e. de l'abandon au désir. Or, il n'y a pas de liberté sans loi (Rousseau, Emmanuel Kant), car la liberté de tous serait en ce sens contradictoire : les désirs universalisés s'annuleraient. La loi est donc nécessaire et il faut limiter l'extension de la liberté pour garantir son exercice. Ces limites sont dans l'intérêt même de la liberté, pour éviter la tyrannie, les conflits et l'esclavage :
+
+    « On pourrait, sur ce qui précède, ajouter à l'acquis de l’état civil la liberté morale qui seule rend l'homme vraiment maître de lui; car l’impulsion du seul appétit est esclavage, et l'obéissance à la loi qu'on s'est prescrite est liberté. » (Rousseau, Le contrat social).
+
+On remarque que dans cette conception philosophique de la liberté, les limites ne sont pas des limites contraignant la liberté de la volonté humaine ; ces limites définissent en réalité un domaine d'action où la liberté peut exister, ce qui est tout autre chose.
+
+    * une critique déterministe : s'abandonner à ses désirs, n'est-ce pas leur obéir, et dès lors un tel abandon ne relève-t-il pas d'une forme déguisée de déterminisme ? Nous serions alors victimes d'une illusion de libre arbitre : nous aurions une fausse conscience de la liberté de notre volonté parce que nous ignorons les véritables causes qui nous font agir. Ainsi, Spinoza écrit dans L'Ethique :
+
+    « Telle est cette liberté humaine que tous se vantent de posséder et qui consiste en cela seul que les hommes ont conscience de leurs appétits et ignorent les causes qui les déterminent. Un enfant croit librement appéter le lait, un jeune garçon irrité vouloir se venger et, s'il est poltron, vouloir fuir. Un ivrogne croit dire par un libre décret de son âme ce qu'ensuite, revenu à la sobriété, il aurait voulu taire. De même un délirant, un bavard, et bien d'autres de même farine, croient agir par un libre décret de l'âme et non se laisser contraindre ».
+
+Nietzsche reprendra cette critique : '« Aussi longtemps que nous ne nous sentons pas dépendre de quoi que ce soit, nous nous estimons indépendants : sophisme qui montre combien l'homme est orgueilleux et despotique. Car il admet ici qu'en toutes circonstances il remarquerait et reconnaîtrait sa dépendance dès qu'il la subirait, son postulat étant qu'il vit habituellement dans l'indépendance et qu'il éprouverait aussitôt une contradiction dans ses sentiments s'il venait exceptionnellement à la perdre. »
+
+Ces deux critiques mettent en lumière plusieurs points importants. En premier lieu, la liberté ne peut se réduire à l'indépendance par rapport au monde extérieur ; il faut également une autonomie intérieure réelle par laquelle nous nous donnons volontairement des règles d'actions. Ainsi, alors que l'indépendance concerne les causes externes (définissant ce que je peux), l'autonomie concerne les causes qui sont la source de la volonté (définissant ce que je veux). La réflexion philosophique intériorise le problème et cherche à en trouver les conditions internes, en niant que la liberté soit dépendante en quoi que ce soit du monde extérieur.
+
+En second lieu, il n'est pas certain que tout lien soit contraire à l'indépendance. Être relié n'est pas toujours négatif, car l'intersubjectivité est peut-être plus fondamentale que l'indépendance du moi, dans la mesure où le moi est relation aux autres. Ainsi, pour Friedrich Nietzsche (et de même pour Hegel), le toi est antérieur au moi. Il ne semble donc pas possible de concevoir une liberté indépendance comme un état monadique, où l'individu serait une totalité fermée, atome qui n'aurait que des relations qui lui seraient extérieures ou étrangères. Les relations humaines seraient donc à la fois des sources de conflits et d'aliénation, et des conditions de liberté sociale et politique.
+[modifier]
+
+Les sens philosophiques fondamentaux du mot liberté
+
+Pour faciliter l'exposition et la compréhension du problème philosophique de la liberté, il est commode de partir de quelques modèles fondamentaux, modèles qui sont soit des conceptions majeures, soit des moments importants de l'histoire de la pensée occidentale (cette liste n'est donc pas fermée) :
+
+   1. La liberté comme libre arbitre de la volonté ;
+   2. La liberté d'indifférence ;
+   3. La liberté transcendantale ;
+   4. La liberté morale ;
+   5. La liberté jaillissement ;
+   6. La liberté existentielle.
+
+1. Libre arbitre: propriété de la volonté (actus proprius), faculté de choix qui associe raison et volonté. C'est l'union de la spontanéité et de l'intelligence.
+
+    * Spontanéité : c'est le fait de trouver à l'intérieur de soi le principe de ses mouvements. Tous les animaux (en tant que mus par de désirs internes) sont en ce sens des êtres animés de manière spontanée.
+    * Intelligence : par l'intelligence, faculté de choix, nous agissons par nous-même en connaissance de cause ; nous avons un discernement de nos actes.
+
+La liberté, c'est donc la spontanéité éclairée par la raison ; cette conception de la liberté n'est pas incompatible avec certaines formes de naturalisme.
+
+2. Liberté d'indifférence (voir Libre arbitre)
+
+    * Selon Descartes, c'est « le plus bas degré de la liberté ».
+
+3. Liberté transcendantale : c'est la faculté par laquelle l'individu peut disposer de lui-même et déterminer sa volonté en l'absence de toute contrainte physique, c'est-à-dire indépendamment de la causalité naturelle (chez Kant par exemple). Est dit libre l'homme qui se gouverne selon sa raison. Cela sous-entend que l'individu doit être en mesure de faire preuve de discernement et d'un grand sens critique : l'homme libre se donne à lui-même des normes cognitives.
+
+Cette liberté a deux conditions : l'indépendance et la spontanéité.
+
+    * Indépendance: notre arbitre est indépendant à l'égard des contraintes des penchants de la sensibilité. Si l'homme est affecté par des penchants qui inclinent son arbitre, il peut les mettre de côté, les suspendre, pour agir d'après d'autres motifs issus de la raison. Dans ce cas, l'arbitre et la raison transcendent le monde en dépassant la sensibilité. C'est une condition fondamentale de la liberté : l'activité de la volonté met en cause la passivité de notre rapport sensible au monde.
+    * Spontanéité de la raison : c'est la faculté de créer du nouveau, d'ouvrir des possibles : la raison permet de poser un acte non déterminé par des causes passées. Il y a alors invention et surgissement de nouveauté. Dans ce cas, la raison se donne à elle-même sa loi, elle légifère sans rien emprunter à la nature.
+
+Si cette liberté existe, alors il y a une différence radicale entre l'homme et la nature.
+
+(snip)
diff --git a/mcs/class/I18N/West/Test/texts/french2-863.txt b/mcs/class/I18N/West/Test/texts/french2-863.txt
new file mode 100644 (file)
index 0000000..18f8afe
--- /dev/null
@@ -0,0 +1,110 @@
+It is copied from Wikipedia, http://fr.wikipedia.org/wiki/Libert%C3%A9
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Libert\82
+Un article de Wikip\82dia, l'encyclop\82die libre.
+Aller \85 : navigation, recherche
+La Libert\82 guidant le peuple par Eug\8ane Delacroix (1830)(Mus\82e du Louvre, Paris)
+Agrandir
+La Libert\82 guidant le peuple par Eug\8ane Delacroix (1830)(Mus\82e du Louvre, Paris)
+
+La libert\82 est une notion qui d\82signe d'une mani\8are n\82gative l'absence de soumission, de servitude et de d\82termination, c'est-\85-dire qu'elle est une notion qui qualifie l'ind\82pendance de l'\88tre humain. D'une mani\8are positive, elle d\82signe l'autonomie et la spontan\82it\82 d'un sujet rationnel, c'est-\85-dire qu'elle qualifie les comportements humains volontaires et en constitue la condition.
+
+Cette notion est \85 la fois con\87ue comme une valeur abstraite et normative de l'action humaine et comme une r\82alit\82 concr\8ate et v\82cue. Ces deux perspectives se recoupent de diverses mani\8ares et peuvent provoquer des erreurs de cat\82gories. Il existe ainsi de nombreuses confusions possibles \85 propos du terme de libert\82. Il faut donc prendre soin de distinguer les diff\82rents sens de ce mot.
+
+La libert\82 peut constituer un attribut de l'\88tre humain, de sa volont\82, et \88tre la condition de droits naturels ou positifs, mais aussi de devoirs ; la r\82alisation effective de l'acte volontaire peut n\82anmoins comporter une dimension v\82cue que l'on ne saurait r\82duire \85 ce qui pr\82c\8ade. Ces deux plans de l'existence humaine ne sont pas n\82cessairement compatibles : par exemple, l'existence des libert\82s juridiques est constatable, alors que la r\82alit\82 (son existence dans nos actes) et l'essence (la conception que nous nous en faisons) de la libert\82 posent probl\8ame.
+La Libert\82 \82clairant le monde, dans le port de New York
+Agrandir
+La Libert\82 \82clairant le monde, dans le port de New York
+
+Le premier point peut faire l'objet d'une enqu\88te socio-politique ; son fondement m\82taphysique et le second point concernent plus particuli\8arement le probl\8ame philosophique de la libert\82. Cet article sera donc divis\82 en deux parties pour en faciliter la lecture : une partie philosophique, traitant de ce qu'il y a de m\82taphysique dans la notion de libert\82, et une partie sociologique. Il faut cependant garder \85 l'esprit que les deux aspects se recoupent.
+
+Remarque : pour une introduction g\82n\82rale \85 cette notion, on peut lire du chapitre ® Un concept clef de la m\82taphysique ¯ \85 ® Les sens philosophiques fondamentaux du mot libert\82 ¯. Les chapitres suivants permettent d'approfondir la notion par la connaissance de ce que des philosophes en ont dit et par la diversit\82 des points de vue.
+
+Le concept de libert\82 en philosophie
+[modifier]
+
+Un concept clef de la m\82taphysique
+
+La question de la libert\82 peut \88tre consid\82r\82e comme une question m\82taphysique par excellence dans la mesure o\97 elle concerne le statut de l'homme au sein de la nature. La libert\82 qualifie en effet la relation de l'homme en tant qu'agent et du monde physique, relation notamment consid\82r\82e dans son rapport \85 un d\82terminisme suppos\82 ou r\82el. Cette question concerne donc particuli\8arement l'immanence et la transcendance de la volont\82 humaine par rapport au monde.
+
+La libert\82 s'oppose en g\82n\82ral (ce n'est donc pas toujours le cas) au d\82terminisme, au fatalisme et \85 toute doctrine qui soutient la th\8ase de la n\82cessit\82 du devenir. Le concept de libert\82 divise tr\8as sch\82matiquement les philosophes en deux camps : ceux qui en font le fondement de l'action et de la morale humaines (\90picure, Descartes, Kant), et ceux qui nient une quelconque transcendance de la volont\82 par rapport \85 des d\82terminismes tels que la sensibilit\82 (D\82mocrite, Spinoza, Nietzsche) :
+
+    ® Il existait deux opinions sur lesquelles se partageaient les anciens philosophes, les uns pensant que tout se produit par le destin, en sorte que ce destin apportait la force de la n\82cessit\82 (D\82mocrite, H\82raclite, Emp\82docle, Aristote \82taient de cet avis), les autres pour qui les mouvements volontaires de l'\83me existaient sans aucune intervention du destin ; Chrysippe, en position d'arbitre officieux, me para\8ct avoir choisi la position interm\82diaire ; mais ils se rattache plut\93\85 ceux qui veulent voir les mouvements de l'\83me lib\82r\82s de la n\82cessit\82. ¯ (Cic\82ron, Du destin, \8f39).
+
+On dirait aujourd'hui qu'il y a une opposition entre physicalisme et mentalisme, i.e. entre la causalit\82 physique (physicalisme) \85 laquelle tous les \88tres peuvent \88tre r\82duits et la causalit\82 mentale (mentalisme), qui peut \88tre une th\82orie mat\82rialiste, tout en reconnaissant une action propre du mental. Dans le premier cas, il s'agit d'expliquer comment on peut naturaliser la volont\82, sans reconduire un dualisme m\82taphysique classique, et comment il est encore possible de parler d'action et de responsabilit\82, alors que l'on en a supprim\82 la condition ; dans le second cas, il s'agit plut\93t d'expliquer comment une causalit\82 mentale est possible qui \82vite aussi ce dualisme souvent difficile \85 rendre intelligible. Un des points les plus int\82ressants que met ainsi en lumi\8are cette opposition, c'est le caract\8are souvent difficile \85 d\82terminer du concept de libert\82.
+[modifier]
+
+Origine et analyse du probl\8ame
+
+Le probl\8ame de la libert\82 surgit naturellement quand la raison humaine cherche \85 unifier les diff\82rents \82l\82ments de sa repr\82sentation du monde. En effet, si l'explication philosophique comprend la r\82alit\82 dans son int\82gralit\82, au moins id\82alement (et au contraire des sciences qui ont une partie seulement du monde pour objet), alors un effort d'unification de notre connaissance par une causalit\82 unique est exigible, et cela afin d'\82viter les contradictions qui d\82coulent de l'hypoth\8ase de l'existence de plusieurs causalit\82s (psychique et physique) : il semble en effet impossible de penser l'interaction de deux causalit\82s h\82t\82rog\8anes. Ce probl\8ame a particuli\8arement sollicit\82 la r\82flexion des philosophes de l'antiquit\82. La physique hell\82nistique est ainsi nettement d\82terministe. Mais cette unit\82 causale a soulev\82 et soul\8ave encore de nos jours des probl\8ames : si on unit les trois parties de la connaissance (physique, \82thique, logique), et aujourd'hui les sciences humaines et les sciences de la nature, comment r\82soudre l'antagonisme entre destin et libert\82 ? Le probl\8ame qui se pose est essentiellement d'ordre moral. Epicure fut contraint d'inventer le clinamen, et les sto\8bciens invent\8arent des raisonnements tr\8as subtils pour tenter d'\82chapper \85 ce qui ressemble \85 une cons\82quence in\82vitable de ce qu'on appelle aujourd'hui le physicalisme.
+
+L'unit\82 de nos repr\82sentations serait alors une unit\82 logique. Mais la question se pose : si tout d\82pend du destin, comment certaines choses peuvent-elles encore d\82pendre de nous ? Ou bien la nature est seule ma\8ctresse des choses, ou bien l'homme est ma\8ctre lui aussi au sein de la nature. Cette contradiction dans notre connaissance est la troisi\8ame antinomie kantienne : suis-je libre, ou suis-je conduit par le destin ? La nature est ici entendue comme un pur encha\8cnement causal ; il s'agit alors de concilier les deux affirmations : responsabilit\82 morale et actes d\82termin\82s.
+
+Si on nie la causalit\82 naturelle, on fait appara\8ctre un concept de libert\82 qui implique la nouveaut\82 absolue dans l'ordre de la nature : la libert\82 humaine doit pouvoir ouvrir des possibles en produisant des actions non-d\82termin\82es, ind\82pendantes notamment des inclinations de notre sensibilit\82. Notre volont\82 n'a alors aucune cause ant\82c\82dente. Mais dans ce cas, la libert\82 n'est pas une r\82alit\82 intelligible : la libert\82 sort du n\82ant, elle constitue une sorte de miracle, d'o\97 le caract\8are presque indicible de ce concept, puisque la libert\82 semble \88tre dans ce cas au-del\85 de la port\82e de l'intellect humain.
+
+Ainsi, en cherchant \85 unifier nos connaissances, soit on fait de l'homme un \88tre d\82termin\82, dont la volont\82 est immanente \85 la nature (donc on cherche \85 naturaliser l'humain), soit on fait de l'homme un \88tre transcendant, irr\82ductible en particulier \85 sa nature animale.
+[modifier]
+
+D\82finition et critiques
+
+Une d\82finition du sens commun serait que la libert\82 c'est faire ce qu'on d\82sire sans rencontrer d'obstacle. C'est l'absence de contrainte et l'ind\82pendance, comme, par exemple, le vagabond non assujetti \85 un ordre social (Arthur Rimbaud, Jack Kerouac, etc). Carmen, dit, dans l'op\82ra (musique) de Georges Bizet : ® Ce que je veux, c'est \88tre libre et faire ce qui me pla\8ct ¯, ® avoir pour pays l'univers et pour loi sa volont\82 ¯.
+
+C'est l'ivresse de la libert\82 :
+
+    * un certain sentiment de libert\82 peut accompagner l'acte volontaire, et m\88me lorsque l'action est emp\88ch\82e, il nous reste le sentiment que c'est nous qui d\82cidons de la direction de notre volont\82 ;
+    * le sentiment de la libert\82 peut na\8ctre de l'all\8agement des contraintes sociales, par exemple dans le temps festif (consommation excessive, d\82mesur\82e), par opposition au temps ouvr\82 (travail et production). La hi\82rarchie sociale est renvers\82e, comme dans les saturnales ou le carnaval.
+
+Mais cette libert\82 n'est pas la libert\82 au sens philosophique.
+
+En effet, contre la libert\82 ind\82pendance, il existe au moins deux types de critiques :
+
+    * une critique moraliste : cette libert\82 rel\8ave de la licence, i.e. de l'abandon au d\82sir. Or, il n'y a pas de libert\82 sans loi (Rousseau, Emmanuel Kant), car la libert\82 de tous serait en ce sens contradictoire : les d\82sirs universalis\82s s'annuleraient. La loi est donc n\82cessaire et il faut limiter l'extension de la libert\82 pour garantir son exercice. Ces limites sont dans l'int\82r\88t m\88me de la libert\82, pour \82viter la tyrannie, les conflits et l'esclavage :
+
+    ® On pourrait, sur ce qui pr\82c\8ade, ajouter \85 l'acquis de l'\82tat civil la libert\82 morale qui seule rend l'homme vraiment ma\8ctre de lui; car l'impulsion du seul app\82tit est esclavage, et l'ob\82issance \85 la loi qu'on s'est prescrite est libert\82. ¯ (Rousseau, Le contrat social).
+
+On remarque que dans cette conception philosophique de la libert\82, les limites ne sont pas des limites contraignant la libert\82 de la volont\82 humaine ; ces limites d\82finissent en r\82alit\82 un domaine d'action o\97 la libert\82 peut exister, ce qui est tout autre chose.
+
+    * une critique d\82terministe : s'abandonner \85 ses d\82sirs, n'est-ce pas leur ob\82ir, et d\8as lors un tel abandon ne rel\8ave-t-il pas d'une forme d\82guis\82e de d\82terminisme ? Nous serions alors victimes d'une illusion de libre arbitre : nous aurions une fausse conscience de la libert\82 de notre volont\82 parce que nous ignorons les v\82ritables causes qui nous font agir. Ainsi, Spinoza \82crit dans L'Ethique :
+
+    ® Telle est cette libert\82 humaine que tous se vantent de poss\82der et qui consiste en cela seul que les hommes ont conscience de leurs app\82tits et ignorent les causes qui les d\82terminent. Un enfant croit librement app\82ter le lait, un jeune gar\87on irrit\82 vouloir se venger et, s'il est poltron, vouloir fuir. Un ivrogne croit dire par un libre d\82cret de son \83me ce qu'ensuite, revenu \85 la sobri\82t\82, il aurait voulu taire. De m\88me un d\82lirant, un bavard, et bien d'autres de m\88me farine, croient agir par un libre d\82cret de l'\83me et non se laisser contraindre ¯.
+
+Nietzsche reprendra cette critique : '® Aussi longtemps que nous ne nous sentons pas d\82pendre de quoi que ce soit, nous nous estimons ind\82pendants : sophisme qui montre combien l'homme est orgueilleux et despotique. Car il admet ici qu'en toutes circonstances il remarquerait et reconna\8ctrait sa d\82pendance d\8as qu'il la subirait, son postulat \82tant qu'il vit habituellement dans l'ind\82pendance et qu'il \82prouverait aussit\93t une contradiction dans ses sentiments s'il venait exceptionnellement \85 la perdre. ¯
+
+Ces deux critiques mettent en lumi\8are plusieurs points importants. En premier lieu, la libert\82 ne peut se r\82duire \85 l'ind\82pendance par rapport au monde ext\82rieur ; il faut \82galement une autonomie int\82rieure r\82elle par laquelle nous nous donnons volontairement des r\8agles d'actions. Ainsi, alors que l'ind\82pendance concerne les causes externes (d\82finissant ce que je peux), l'autonomie concerne les causes qui sont la source de la volont\82 (d\82finissant ce que je veux). La r\82flexion philosophique int\82riorise le probl\8ame et cherche \85 en trouver les conditions internes, en niant que la libert\82 soit d\82pendante en quoi que ce soit du monde ext\82rieur.
+
+En second lieu, il n'est pas certain que tout lien soit contraire \85 l'ind\82pendance. \92tre reli\82 n'est pas toujours n\82gatif, car l'intersubjectivit\82 est peut-\88tre plus fondamentale que l'ind\82pendance du moi, dans la mesure o\97 le moi est relation aux autres. Ainsi, pour Friedrich Nietzsche (et de m\88me pour Hegel), le toi est ant\82rieur au moi. Il ne semble donc pas possible de concevoir une libert\82 ind\82pendance comme un \82tat monadique, o\97 l'individu serait une totalit\82 ferm\82e, atome qui n'aurait que des relations qui lui seraient ext\82rieures ou \82trang\8ares. Les relations humaines seraient donc \85 la fois des sources de conflits et d'ali\82nation, et des conditions de libert\82 sociale et politique.
+[modifier]
+
+Les sens philosophiques fondamentaux du mot libert\82
+
+Pour faciliter l'exposition et la compr\82hension du probl\8ame philosophique de la libert\82, il est commode de partir de quelques mod\8ales fondamentaux, mod\8ales qui sont soit des conceptions majeures, soit des moments importants de l'histoire de la pens\82e occidentale (cette liste n'est donc pas ferm\82e) :
+
+   1. La libert\82 comme libre arbitre de la volont\82 ;
+   2. La libert\82 d'indiff\82rence ;
+   3. La libert\82 transcendantale ;
+   4. La libert\82 morale ;
+   5. La libert\82 jaillissement ;
+   6. La libert\82 existentielle.
+
+1. Libre arbitre: propri\82t\82 de la volont\82 (actus proprius), facult\82 de choix qui associe raison et volont\82. C'est l'union de la spontan\82it\82 et de l'intelligence.
+
+    * Spontan\82it\82 : c'est le fait de trouver \85 l'int\82rieur de soi le principe de ses mouvements. Tous les animaux (en tant que mus par de d\82sirs internes) sont en ce sens des \88tres anim\82s de mani\8are spontan\82e.
+    * Intelligence : par l'intelligence, facult\82 de choix, nous agissons par nous-m\88me en connaissance de cause ; nous avons un discernement de nos actes.
+
+La libert\82, c'est donc la spontan\82it\82 \82clair\82e par la raison ; cette conception de la libert\82 n'est pas incompatible avec certaines formes de naturalisme.
+
+2. Libert\82 d'indiff\82rence (voir Libre arbitre)
+
+    * Selon Descartes, c'est ® le plus bas degr\82 de la libert\82 ¯.
+
+3. Libert\82 transcendantale : c'est la facult\82 par laquelle l'individu peut disposer de lui-m\88me et d\82terminer sa volont\82 en l'absence de toute contrainte physique, c'est-\85-dire ind\82pendamment de la causalit\82 naturelle (chez Kant par exemple). Est dit libre l'homme qui se gouverne selon sa raison. Cela sous-entend que l'individu doit \88tre en mesure de faire preuve de discernement et d'un grand sens critique : l'homme libre se donne \85 lui-m\88me des normes cognitives.
+
+Cette libert\82 a deux conditions : l'ind\82pendance et la spontan\82it\82.
+
+    * Ind\82pendance: notre arbitre est ind\82pendant \85 l'\82gard des contraintes des penchants de la sensibilit\82. Si l'homme est affect\82 par des penchants qui inclinent son arbitre, il peut les mettre de c\93t\82, les suspendre, pour agir d'apr\8as d'autres motifs issus de la raison. Dans ce cas, l'arbitre et la raison transcendent le monde en d\82passant la sensibilit\82. C'est une condition fondamentale de la libert\82 : l'activit\82 de la volont\82 met en cause la passivit\82 de notre rapport sensible au monde.
+    * Spontan\82it\82 de la raison : c'est la facult\82 de cr\82er du nouveau, d'ouvrir des possibles : la raison permet de poser un acte non d\82termin\82 par des causes pass\82es. Il y a alors invention et surgissement de nouveaut\82. Dans ce cas, la raison se donne \85 elle-m\88me sa loi, elle l\82gif\8are sans rien emprunter \85 la nature.
+
+Si cette libert\82 existe, alors il y a une diff\82rence radicale entre l'homme et la nature.
+
+(snip)
diff --git a/mcs/class/I18N/West/Test/texts/french2-utf8.txt b/mcs/class/I18N/West/Test/texts/french2-utf8.txt
new file mode 100644 (file)
index 0000000..ac8e743
--- /dev/null
@@ -0,0 +1,110 @@
+It is copied from Wikipedia, http://fr.wikipedia.org/wiki/Libert%C3%A9
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Liberté
+Un article de Wikipédia, l'encyclopédie libre.
+Aller à : navigation, recherche
+La Liberté guidant le peuple par Eugène Delacroix (1830)(Musée du Louvre, Paris)
+Agrandir
+La Liberté guidant le peuple par Eugène Delacroix (1830)(Musée du Louvre, Paris)
+
+La liberté est une notion qui désigne d'une manière négative l'absence de soumission, de servitude et de détermination, c'est-à-dire qu'elle est une notion qui qualifie l'indépendance de l'être humain. D'une manière positive, elle désigne l'autonomie et la spontanéité d'un sujet rationnel, c'est-à-dire qu'elle qualifie les comportements humains volontaires et en constitue la condition.
+
+Cette notion est à la fois conçue comme une valeur abstraite et normative de l'action humaine et comme une réalité concrète et vécue. Ces deux perspectives se recoupent de diverses manières et peuvent provoquer des erreurs de catégories. Il existe ainsi de nombreuses confusions possibles à propos du terme de liberté. Il faut donc prendre soin de distinguer les différents sens de ce mot.
+
+La liberté peut constituer un attribut de l'être humain, de sa volonté, et être la condition de droits naturels ou positifs, mais aussi de devoirs ; la réalisation effective de l'acte volontaire peut néanmoins comporter une dimension vécue que l'on ne saurait réduire à ce qui précède. Ces deux plans de l'existence humaine ne sont pas nécessairement compatibles : par exemple, l'existence des libertés juridiques est constatable, alors que la réalité (son existence dans nos actes) et l'essence (la conception que nous nous en faisons) de la liberté posent problème.
+La Liberté éclairant le monde, dans le port de New York
+Agrandir
+La Liberté éclairant le monde, dans le port de New York
+
+Le premier point peut faire l'objet d'une enquête socio-politique ; son fondement métaphysique et le second point concernent plus particulièrement le problème philosophique de la liberté. Cet article sera donc divisé en deux parties pour en faciliter la lecture : une partie philosophique, traitant de ce qu'il y a de métaphysique dans la notion de liberté, et une partie sociologique. Il faut cependant garder à l'esprit que les deux aspects se recoupent.
+
+Remarque : pour une introduction générale à cette notion, on peut lire du chapitre « Un concept clef de la métaphysique » à « Les sens philosophiques fondamentaux du mot liberté ». Les chapitres suivants permettent d'approfondir la notion par la connaissance de ce que des philosophes en ont dit et par la diversité des points de vue.
+
+Le concept de liberté en philosophie
+[modifier]
+
+Un concept clef de la métaphysique
+
+La question de la liberté peut être considérée comme une question métaphysique par excellence dans la mesure où elle concerne le statut de l'homme au sein de la nature. La liberté qualifie en effet la relation de l'homme en tant qu'agent et du monde physique, relation notamment considérée dans son rapport à un déterminisme supposé ou réel. Cette question concerne donc particulièrement l'immanence et la transcendance de la volonté humaine par rapport au monde.
+
+La liberté s'oppose en général (ce n'est donc pas toujours le cas) au déterminisme, au fatalisme et à toute doctrine qui soutient la thèse de la nécessité du devenir. Le concept de liberté divise très schématiquement les philosophes en deux camps : ceux qui en font le fondement de l'action et de la morale humaines (Épicure, Descartes, Kant), et ceux qui nient une quelconque transcendance de la volonté par rapport à des déterminismes tels que la sensibilité (Démocrite, Spinoza, Nietzsche) :
+
+    « Il existait deux opinions sur lesquelles se partageaient les anciens philosophes, les uns pensant que tout se produit par le destin, en sorte que ce destin apportait la force de la nécessité (Démocrite, Héraclite, Empédocle, Aristote étaient de cet avis), les autres pour qui les mouvements volontaires de l'âme existaient sans aucune intervention du destin ; Chrysippe, en position d'arbitre officieux, me paraît avoir choisi la position intermédiaire ; mais ils se rattache plutôt à ceux qui veulent voir les mouvements de l'âme libérés de la nécessité. » (Cicéron, Du destin, §39).
+
+On dirait aujourd'hui qu'il y a une opposition entre physicalisme et mentalisme, i.e. entre la causalité physique (physicalisme) à laquelle tous les êtres peuvent être réduits et la causalité mentale (mentalisme), qui peut être une théorie matérialiste, tout en reconnaissant une action propre du mental. Dans le premier cas, il s'agit d'expliquer comment on peut naturaliser la volonté, sans reconduire un dualisme métaphysique classique, et comment il est encore possible de parler d'action et de responsabilité, alors que l'on en a supprimé la condition ; dans le second cas, il s'agit plutôt d'expliquer comment une causalité mentale est possible qui évite aussi ce dualisme souvent difficile à rendre intelligible. Un des points les plus intéressants que met ainsi en lumière cette opposition, c'est le caractère souvent difficile à déterminer du concept de liberté.
+[modifier]
+
+Origine et analyse du problème
+
+Le problème de la liberté surgit naturellement quand la raison humaine cherche à unifier les différents éléments de sa représentation du monde. En effet, si l'explication philosophique comprend la réalité dans son intégralité, au moins idéalement (et au contraire des sciences qui ont une partie seulement du monde pour objet), alors un effort d'unification de notre connaissance par une causalité unique est exigible, et cela afin d'éviter les contradictions qui découlent de l'hypothèse de l'existence de plusieurs causalités (psychique et physique) : il semble en effet impossible de penser l'interaction de deux causalités hétérogènes. Ce problème a particulièrement sollicité la réflexion des philosophes de l'antiquité. La physique hellénistique est ainsi nettement déterministe. Mais cette unité causale a soulevé et soulève encore de nos jours des problèmes : si on unit les trois parties de la connaissance (physique, éthique, logique), et aujourd'hui les sciences humaines et les sciences de la nature, comment résoudre l'antagonisme entre destin et liberté ? Le problème qui se pose est essentiellement d'ordre moral. Epicure fut contraint d'inventer le clinamen, et les stoïciens inventèrent des raisonnements très subtils pour tenter d'échapper à ce qui ressemble à une conséquence inévitable de ce qu'on appelle aujourd'hui le physicalisme.
+
+L'unité de nos représentations serait alors une unité logique. Mais la question se pose : si tout dépend du destin, comment certaines choses peuvent-elles encore dépendre de nous ? Ou bien la nature est seule maîtresse des choses, ou bien l'homme est maître lui aussi au sein de la nature. Cette contradiction dans notre connaissance est la troisième antinomie kantienne : suis-je libre, ou suis-je conduit par le destin ? La nature est ici entendue comme un pur enchaînement causal ; il s'agit alors de concilier les deux affirmations : responsabilité morale et actes déterminés.
+
+Si on nie la causalité naturelle, on fait apparaître un concept de liberté qui implique la nouveauté absolue dans l'ordre de la nature : la liberté humaine doit pouvoir ouvrir des possibles en produisant des actions non-déterminées, indépendantes notamment des inclinations de notre sensibilité. Notre volonté n'a alors aucune cause antécédente. Mais dans ce cas, la liberté n'est pas une réalité intelligible : la liberté sort du néant, elle constitue une sorte de miracle, d'où le caractère presque indicible de ce concept, puisque la liberté semble être dans ce cas au-delà de la portée de l'intellect humain.
+
+Ainsi, en cherchant à unifier nos connaissances, soit on fait de l'homme un être déterminé, dont la volonté est immanente à la nature (donc on cherche à naturaliser l'humain), soit on fait de l'homme un être transcendant, irréductible en particulier à sa nature animale.
+[modifier]
+
+Définition et critiques
+
+Une définition du sens commun serait que la liberté c'est faire ce qu'on désire sans rencontrer d'obstacle. C'est l'absence de contrainte et l'indépendance, comme, par exemple, le vagabond non assujetti à un ordre social (Arthur Rimbaud, Jack Kerouac, etc). Carmen, dit, dans l'opéra (musique) de Georges Bizet : « Ce que je veux, c'est être libre et faire ce qui me plaît », « avoir pour pays l'univers et pour loi sa volonté ».
+
+C'est l'ivresse de la liberté :
+
+    * un certain sentiment de liberté peut accompagner l'acte volontaire, et même lorsque l'action est empêchée, il nous reste le sentiment que c'est nous qui décidons de la direction de notre volonté ;
+    * le sentiment de la liberté peut naître de l'allègement des contraintes sociales, par exemple dans le temps festif (consommation excessive, démesurée), par opposition au temps ouvré (travail et production). La hiérarchie sociale est renversée, comme dans les saturnales ou le carnaval.
+
+Mais cette liberté n'est pas la liberté au sens philosophique.
+
+En effet, contre la liberté indépendance, il existe au moins deux types de critiques :
+
+    * une critique moraliste : cette liberté relève de la licence, i.e. de l'abandon au désir. Or, il n'y a pas de liberté sans loi (Rousseau, Emmanuel Kant), car la liberté de tous serait en ce sens contradictoire : les désirs universalisés s'annuleraient. La loi est donc nécessaire et il faut limiter l'extension de la liberté pour garantir son exercice. Ces limites sont dans l'intérêt même de la liberté, pour éviter la tyrannie, les conflits et l'esclavage :
+
+    « On pourrait, sur ce qui précède, ajouter à l'acquis de l'état civil la liberté morale qui seule rend l'homme vraiment maître de lui; car l'impulsion du seul appétit est esclavage, et l'obéissance à la loi qu'on s'est prescrite est liberté. » (Rousseau, Le contrat social).
+
+On remarque que dans cette conception philosophique de la liberté, les limites ne sont pas des limites contraignant la liberté de la volonté humaine ; ces limites définissent en réalité un domaine d'action où la liberté peut exister, ce qui est tout autre chose.
+
+    * une critique déterministe : s'abandonner à ses désirs, n'est-ce pas leur obéir, et dès lors un tel abandon ne relève-t-il pas d'une forme déguisée de déterminisme ? Nous serions alors victimes d'une illusion de libre arbitre : nous aurions une fausse conscience de la liberté de notre volonté parce que nous ignorons les véritables causes qui nous font agir. Ainsi, Spinoza écrit dans L'Ethique :
+
+    « Telle est cette liberté humaine que tous se vantent de posséder et qui consiste en cela seul que les hommes ont conscience de leurs appétits et ignorent les causes qui les déterminent. Un enfant croit librement appéter le lait, un jeune garçon irrité vouloir se venger et, s'il est poltron, vouloir fuir. Un ivrogne croit dire par un libre décret de son âme ce qu'ensuite, revenu à la sobriété, il aurait voulu taire. De même un délirant, un bavard, et bien d'autres de même farine, croient agir par un libre décret de l'âme et non se laisser contraindre ».
+
+Nietzsche reprendra cette critique : '« Aussi longtemps que nous ne nous sentons pas dépendre de quoi que ce soit, nous nous estimons indépendants : sophisme qui montre combien l'homme est orgueilleux et despotique. Car il admet ici qu'en toutes circonstances il remarquerait et reconnaîtrait sa dépendance dès qu'il la subirait, son postulat étant qu'il vit habituellement dans l'indépendance et qu'il éprouverait aussitôt une contradiction dans ses sentiments s'il venait exceptionnellement à la perdre. »
+
+Ces deux critiques mettent en lumière plusieurs points importants. En premier lieu, la liberté ne peut se réduire à l'indépendance par rapport au monde extérieur ; il faut également une autonomie intérieure réelle par laquelle nous nous donnons volontairement des règles d'actions. Ainsi, alors que l'indépendance concerne les causes externes (définissant ce que je peux), l'autonomie concerne les causes qui sont la source de la volonté (définissant ce que je veux). La réflexion philosophique intériorise le problème et cherche à en trouver les conditions internes, en niant que la liberté soit dépendante en quoi que ce soit du monde extérieur.
+
+En second lieu, il n'est pas certain que tout lien soit contraire à l'indépendance. Être relié n'est pas toujours négatif, car l'intersubjectivité est peut-être plus fondamentale que l'indépendance du moi, dans la mesure où le moi est relation aux autres. Ainsi, pour Friedrich Nietzsche (et de même pour Hegel), le toi est antérieur au moi. Il ne semble donc pas possible de concevoir une liberté indépendance comme un état monadique, où l'individu serait une totalité fermée, atome qui n'aurait que des relations qui lui seraient extérieures ou étrangères. Les relations humaines seraient donc à la fois des sources de conflits et d'aliénation, et des conditions de liberté sociale et politique.
+[modifier]
+
+Les sens philosophiques fondamentaux du mot liberté
+
+Pour faciliter l'exposition et la compréhension du problème philosophique de la liberté, il est commode de partir de quelques modèles fondamentaux, modèles qui sont soit des conceptions majeures, soit des moments importants de l'histoire de la pensée occidentale (cette liste n'est donc pas fermée) :
+
+   1. La liberté comme libre arbitre de la volonté ;
+   2. La liberté d'indifférence ;
+   3. La liberté transcendantale ;
+   4. La liberté morale ;
+   5. La liberté jaillissement ;
+   6. La liberté existentielle.
+
+1. Libre arbitre: propriété de la volonté (actus proprius), faculté de choix qui associe raison et volonté. C'est l'union de la spontanéité et de l'intelligence.
+
+    * Spontanéité : c'est le fait de trouver à l'intérieur de soi le principe de ses mouvements. Tous les animaux (en tant que mus par de désirs internes) sont en ce sens des êtres animés de manière spontanée.
+    * Intelligence : par l'intelligence, faculté de choix, nous agissons par nous-même en connaissance de cause ; nous avons un discernement de nos actes.
+
+La liberté, c'est donc la spontanéité éclairée par la raison ; cette conception de la liberté n'est pas incompatible avec certaines formes de naturalisme.
+
+2. Liberté d'indifférence (voir Libre arbitre)
+
+    * Selon Descartes, c'est « le plus bas degré de la liberté ».
+
+3. Liberté transcendantale : c'est la faculté par laquelle l'individu peut disposer de lui-même et déterminer sa volonté en l'absence de toute contrainte physique, c'est-à-dire indépendamment de la causalité naturelle (chez Kant par exemple). Est dit libre l'homme qui se gouverne selon sa raison. Cela sous-entend que l'individu doit être en mesure de faire preuve de discernement et d'un grand sens critique : l'homme libre se donne à lui-même des normes cognitives.
+
+Cette liberté a deux conditions : l'indépendance et la spontanéité.
+
+    * Indépendance: notre arbitre est indépendant à l'égard des contraintes des penchants de la sensibilité. Si l'homme est affecté par des penchants qui inclinent son arbitre, il peut les mettre de côté, les suspendre, pour agir d'après d'autres motifs issus de la raison. Dans ce cas, l'arbitre et la raison transcendent le monde en dépassant la sensibilité. C'est une condition fondamentale de la liberté : l'activité de la volonté met en cause la passivité de notre rapport sensible au monde.
+    * Spontanéité de la raison : c'est la faculté de créer du nouveau, d'ouvrir des possibles : la raison permet de poser un acte non déterminé par des causes passées. Il y a alors invention et surgissement de nouveauté. Dans ce cas, la raison se donne à elle-même sa loi, elle légifère sans rien emprunter à la nature.
+
+Si cette liberté existe, alors il y a une différence radicale entre l'homme et la nature.
+
+(snip)
diff --git a/mcs/class/I18N/West/Test/texts/greek-1253.txt b/mcs/class/I18N/West/Test/texts/greek-1253.txt
new file mode 100644 (file)
index 0000000..264774f
--- /dev/null
@@ -0,0 +1,141 @@
+It is copied from Wikipedia, http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+ÅëëçíéêÞ ãëþóóá
+Áðü ôçí Âéêéðáßäåéá, ôçí åëåýèåñç åãêõêëïðáßäåéá
+Jump to: navigation, search
+
+Ç ÅëëçíéêÞ Ãëþóóá åßíáé ìßá áðü ôéò ÉíäïåõñùðáúêÝò Ãëþóóåò, ãéá ôçí ïðïßá Ý÷ïõìå óõíå÷Þ ãñáðôÜ êåßìåíá áðü ôïí 8ï áéþíá ð.×. ìÝ÷ñé óÞìåñá. Åðßóçò Ý÷ïõìå ìåñéêÜ ãñáðôÜ êåßìåíá áðü ôïí 15ïí áéþíá ð.×. ãñáììÝíá óôç ÃñáììéêÞ Â.
+ÅëëçíéêÜ
+Ïìéëåßôáé óå:  ÅëëÜäá, Êýðñï, Áëâáíßá, Ôïõñêßá, Áßãõðôï
+
+êáé ïðïõäÞðïôå áëëïý Ý÷ïõí ìåôáíáóôåýóåé ¸ëëçíåò (ÇíùìÝíåò Ðïëéôåßåò, ÊáíáäÜò, Áõóôñáëßá, Áããëßá, ê.á.)
+Óõíïëéêïß ïìéëçôÝò:    12 åêáôïììýñéá óôçí ÂáëêáíéêÞ , êáé Üëëá 8-10 åêáôïìýñéá óôïí õðüëïéðï êüóìï
+ÊáôÜôáîç:      74ç
+ÃåíåôéêÞ
+ôáîéíüìçóç:    ÉíäïåõñùðáúêÝò Ãëþóóåò
+
+ ÅëëçíéêÜ
+  ÁôôéêÜ
+   ÍÝá ÅëëçíéêÜ
+Official status
+Åðßóçìç ãëþóóá:        ÅëëÜäáò, Êýðñïõ
+Ñõèìßæåôáé áðü:        ?
+Êþäéêåò ãëþóóáò
+ISO 639-1      el
+ISO 639-2(B)   gre
+ISO 639-2(T)   ell
+SIL    GRK
+
+
+Ðßíáêáò ðåñéå÷ïìÝíùí
+[Áðüêñõøç]
+
+    * 1 Ôáîéíüìçóç
+    * 2 ÃåùãñáöéêÞ åîÜðëùóç
+    * 3 Åðßóçìç êáôÜóôáóç ôçò ãëþóóáò
+    * 4 ÖÜóåéò ÅîÝëéîçò
+          o 4.1 ÐñùôïåëëçíéêÞ
+          o 4.2 ÌõêçíáúêÞ ÅëëçíéêÞ
+          o 4.3 ÊëáóéêÞ ÅëëçíéêÞ
+          o 4.4 ÅëëçíéóôéêÞ ÊïéíÞ
+          o 4.5 ÌåóáéùíéêÞ ÅëëçíéêÞ
+          o 4.6 ÍÝá ÅëëçíéêÞ
+    * 5 ÖùíçôéêÞ
+    * 6 ÃñáöÞ
+    * 7 ÂëÝðå Åðßóçò
+    * 8 ÅîùôåñéêÝò óõíäÝóåéò
+
+[Åðåîåñãáóßá]
+
+Ôáîéíüìçóç
+
+Ç ÅëëçíéêÞ áðïôåëåß áðü ìüíç ôçò Ýíáí áíåîÜñôçôï êëÜäï ôçò ÉíäïåõñùðáúêÞò ïìÜäáò ãëùóóþí. Ôï ëåîéëüãéï ôçò íåüôåñçò ìïñöÞò ôçò Ý÷åé åðçñåáóôåß óå Ýíá âáèìü áðü ãëþóóåò ôùí [[ÂáëêÜíéá|Âáëêáíßùí
+[Åðåîåñãáóßá]
+
+ÃåùãñáöéêÞ åîÜðëùóç
+
+Ç ÅëëçíéêÞ áðïôåëåß ôçí ìçôñéêÞ ãëþóóá ðåñßðïõ 12 åêáôïìçñßùí áíèñþðùí êõñßùò óôçí ÅëëÜäá êáé óôçí Êýðñï. Áðïôåëåß åðßóçò ôçí ìçôñéêÞ ãëþóóá áõôü÷èïíùí ðëçèõóìþí óôçí Áëâáíßá êáé óôçí Ôïõñêßá. Åîáéôßáò ôçò ìåôáíÜóôåõóçò ç ãëþóóá ìéëéÝôáé áêüìá óå ÷þñåò-ðñïïñéóìïýò åëëçíüöùíùí ðëçèõóìþí ìåôáîý ôùí ïðïßùí ç Áõóôñáëßá, ï ÊáíáäÜò, ç Ãåñìáíßá, ôï ÇíùìÝíï Âáóßëåéï, êáé ïé ÇíùìÝíåò Ðïëéôåßåò. ÓõíïëéêÜ õðïëïãßæåôáé üôé ï óõíïëéêüò áñéèìüò áíèñþðùí ðïõ ìéëÜíå ôá åëëçíéêÜ óáí ðñþôç Þ äåýôåñç ãëþóóá åßíáé ãýñù óôá 15 åêáôïìýñéá.
+
+
+[Åðåîåñãáóßá]
+
+Åðßóçìç êáôÜóôáóç ôçò ãëþóóáò
+
+Åßíáé ç åðßóçìç ãëþóóá ôçò ÅëëÜäáò êáé ôçò Êýðñïõ. Áêüìá åßíáé ìßá áðü ôéò åðßóçìåò ãëþóóåò ôçò ÅõñùðáúêÞò ¸íùóçò.
+[Åðåîåñãáóßá]
+
+ÖÜóåéò ÅîÝëéîçò
+[Åðåîåñãáóßá]
+
+ÐñùôïåëëçíéêÞ
+
+Ãéá ôçí ðñþôç öÜóç (ÐñùôïåëëçíéêÞ) ç ïðïßá ôïðïèåôåßôáé ðñéí ôï 1600 ð.×., ïé üðïéåò ãíþóåéò ìáò ãéá ôçí åëëçíéêÞ ãëþóóá âáóßæïíôáé óå ôå÷íéêÝò åðáíáóýíèåóçò ðïõ ðñïêýðôïõí áðü ôç óõãêñéôéêÞ ãëùóóïëïãßá. Ç ÐñùôïåëëçíéêÞ åß÷å 7 ðôþóåéò (ÏíïìáóôéêÞ, ÃåíéêÞ, ÄïôéêÞ, ÁéôéáôéêÞ, ÁöáéñåôéêÞ, ÔïðéêÞ, ÊëçôéêÞ). Åðßóçò åß÷å äéáôçñÞóåé óå ðïëý ìåãÜëï âáèìü ôá õðüëïéðá ÷áñáêôçñéóôéêÜ ôçò ÉÅ "ìçôñéêÞò" ãëþóóáò. Åß÷å ôñåéò öùíÝò (ÅíåñãçôéêÞ, ÐáèçôéêÞ, ÌÝóç) êáé ôñåéò áñéèìïýò (Åíéêüò, Ðëçèõíôéêüò, Äõúêüò). Óçìáíôéêü ÷áñáêôçñéóôéêü ôçò (ðïõ äéáôçñÞèçêå ó÷åäüí ìÝ÷ñé ôá ðñþôá ìåôá÷ñéóôéáíéêÜ ÷ñüíéá) Þôáí ï ìïõóéêüò ôïíéóìüò. Ï ôüíïò óôá áñ÷áßá åëëçíéêÜ äåí áíôéóôïé÷ïýóå óå áýîçóç ôçò Ýíôáóçò ôçò öùíÞò (volume) áëëÜ óå áýîçóç ôçò óõ÷íüôçôáò (pitch).
+[Åðåîåñãáóßá]
+
+ÌõêçíáúêÞ ÅëëçíéêÞ
+
+Óôçí áìÝóùò åðüìåíç öÜóç (ÌõêçíáúêÞ ÅëëçíéêÞ) ç ïðïßá ìáñôõñåßôáé áðü ôéò ðéíáêßäåò ôçò ÃñáììéêÞò Â' êáé áðü ïñéóìÝíïõò óôß÷ïõò ôùí Ïìçñéêþí Åðþí, ðáñáôçñïýìå åîßóïõ ðïëëïýò áñ÷áúóìïýò. Ð.÷. ç ãåíéêÞ ôùí ïíïìÜôùí óå -ïò ó÷çìáôéæüôáí ìå ôçí êáôÜëçîç -ïéï (ðñâë. Ïìçñéêü "ÐñéÜìïéï"), åíþ õðÜñ÷åé öèüããïò (ðïõ óõìâïëßæåôáé ìå) "q" ï ïðïßïò âñßóêåôáé óå ëÝîåéò üðïõ áðü ôçí ÉÅ èá áíáìÝíáìå Ýíá *kw. Ïé ðôþóåéò ÁöáéñåôéêÞ êáé ÔïðéêÞ äéáôçñïýíôáé áëëÜ óå ìÜëëïí ðåñéïñéóìÝíï âáèìü.
+[Åðåîåñãáóßá]
+
+ÊëáóéêÞ ÅëëçíéêÞ
+
+Óôçí ÊëáóéêÞ åëëçíéêÞ, áñ÷áéüôåñá êåßìåíá ôçò ïðïßáò åßíáé ôá ÏìçñéêÜ ¸ðç êáé áñ÷áéüôåñï ôåêìÞñéï ç åðéãñáöÞ ôïõ Äéðýëïõ, ôï âáóéêüôåñï ÷áñáêôçñéóôéêü åßíáé ç õøçëÞ äéáëåêôéêÞ äéáöïñïðïßçóç, ç ïðïßá ïöåßëåôáé ðéèáíüôáôá óôçí ðïëõäéÜóðáóç ôïõ åëëçíéêïý êüóìïõ óå äéÜöïñá êñáôßäéá. Ùò ðñïò ôï áí ïé âáóéêÝò äéÜëåêôïé ôçò êëáóóéêÞò åðï÷Þò (ÉùíéêÞ, ÁéïëéêÞ, ÄùñéêÞ êëð) äçìéïõñãÞèçêáí óôçí ÅëëÜäá ëüãù ôçò ðïëéôéêÞò ðïëõäéÜóðáóçò ôùí ÅëëÞíùí Þ "Þñèáí" ìáæß ìå ôá áíôßóôïé÷á öýëá êáôÜ ôçí åðï÷Þ ôïõ ×áëêïý, ïé ãíþìåò äéßóôáíôáé. Öáßíåôáé ðùò äåí áðïêëåßåôáé íá óõíÝâçóáí êáé ôá äýï. ÐÜíôùò ïé äéÜëåêôïé ôçò êëáóóéêÞò åðï÷Þò äéÝöåñáí áñêåôÜ ìåôáîý ôïõò êáé äåí èá Þôáí õðåñâïëÞ íá õðïóôçñé÷èåß üôé ïé ïìéëçôÝò ôïõò âñßóêïíôáí ðïëëÝò öïñÝò óôá áêñáßá üñéá ôçò áëëçëïêáôáíüçóçò.
+
+Ìßá áðü ôéò óçìáíôéêüôåñåò äéáëÝêôïõò ôçò êëáóéêÞò åðï÷Þò Þôáí ç ÁôôéêÞ äéÜëåêôïò, ðïõ ÷ñçóéìïðïéïýíôáí êõñßùò óôçí ÁèÞíá áëëÜ êáé ùò ãëþóóá ôùí öéëïóüöùí êáé ôùí åðéóôçìüíùí. Ç ÁôôéêÞ äéÜëåêôïò ðñïÝñ÷åôáé áðü ôçí ÉùíéêÞ (ôç âáóéêÞ äéÜëåêôï ôùí Ïìçñéêþí Åðþí) ìå áñêåôÝò äùñéêÝò åðéäñÜóåéò. ÕéïèåôÞèçêå ùò åðßóçìç ãëþóóá üëçò ôçò ÅëëÜäáò áðü ôïí Ößëéððï ôï Ìáêåäüíá êáé ùò åðßóçìç ãëþóóá ïëüêëçñïõ ôïõ åëëçíéóôéêïý êüóìïõ áðü ôïí ãéï ôïõ ÁëÝîáíäñï. Áðü áõôÞí ðñïÝñ÷ïíôáé áð' åõèåßáò ó÷åäüí üëåò ïé ìåôáãåíÝóôåñåò åëëçíéêÝò äéÜëåêôïé.
+
+ÁðïôÝëåóìá ôçò ÷ñÞóçò ôçò áôôéêÞò äéáëÝêôïõ ùò äåýôåñçò (êáé óõ÷íÜ ðñþôçò) ãëþóóáò áðü ðÜñá ðïëëïýò áëëüãëùóóïõò (áëëÜ êáé áðü åëëçíüöùíïõò ðïõ ìéëïýóáí ðñùôýôåñá ìéá Üëëç åëëçíéêÞ äéÜëåêôï) Þôáí óáñùôéêÝò áëëáãÝò óå üëá ôá åðßðåäá ôçò ìïñöïëïãßáò ôçò. ¸ôóé:
+
+    * Ç ðñïöïñÜ Üëëáîå ñéæéêÜ ìå êõñéüôåñï ÷áñáêôçñéóôéêü ôçí ðñïöïñÜ ôùí åé, ç, õ, õé ùò "é" (éùôáêéóìüò) êáé ôçí áðþëåéá ôùí öèüããùí F (w) êáé H (äáóåßá).
+    * Ï Äõúêüò áñéèìüò, ôï áðáñÝìöáôï êáé ç ÌÝóç öùíÞ ÷Üèçêáí.
+    * ÁðëïðïéÞèçêå óçìáíôéêÜ ôï óýóôçìá êëßóçò ïíïìÜôùí êáé ñçìÜôùí.
+
+[Åðåîåñãáóßá]
+
+ÅëëçíéóôéêÞ ÊïéíÞ
+
+Ôï áðïôÝëåóìá üëùí áõôþí ôùí ìåôáâïëþí Þôáí ç ÅëëçíéóôéêÞ ÊïéíÞ, ç ïðïßá ìáñôõñåßôáé êõñßùò óôçí ÊáéíÞ ÄéáèÞêç. Åßíáé ÷áñáêôçñéóôéêü üôé ôçí ßäéá åðï÷Þ Ý÷ïõìå êáé ôïõò ðñþôïõò ÁôôéêéóôÝò, áõôïýò ðïõ èåùñïýóáí áðáñáßôçôç ôç äéáôÞñçóç ôçò "áõèåíôéêÞò" ÁôôéêÞò ÄéáëÝêôïõ, ôïõëÜ÷éóôïí óôï ãñáðôü ëüãï.
+[Åðåîåñãáóßá]
+
+ÌåóáéùíéêÞ ÅëëçíéêÞ
+
+Ç ÅëëçíéóôéêÞ ÊïéíÞ åîåëß÷èçêå óôç ÌåóáéùíéêÞ ÅëëçíéêÞ, ç ïðïßá ìáñôõñåßôáé êõñßùò áðü äçìïôéêÜ ôñáãïýäéá. Ôåëåõôáßá öùíïëïãéêÞ ìåôáâïëÞ êáôÜ ôï 10ï áéþíá Þôáí ï éùôáêéóìüò êáé ôïõ "ïé" ðïõ ùò ôüôå åîáêïëïõèïýóå íá ðñïöÝñåôáé óá äßöèïããïò.
+[Åðåîåñãáóßá]
+
+ÍÝá ÅëëçíéêÞ
+
+Ôá üñéá ìåôáîý ÍÝáò ÅëëçíéêÞò êáé ÌåóáéùíéêÞò ÅëëçíéêÞò äåí åßíáé éäéáßôåñá óáöÞ, ðÜíôùò ôïðïèåôïýíôáé ÷ïíäñéêÜ êÜðïõ óôá ôåëåõôáßá ÷ñüíéá ôïõ Âõæáíôßïõ. ÊáôÜ ôçí ðåñßïäï áõôÞ (êáèþò êáé óôçí Ôïõñêïêñáôßá) åß÷áìå ìßá åîßóïõ Ýíôïíç äéáëåêôéêÞ äéáöïñïðïßçóç ç ïðïßá óõíå÷ßæïíôáí ìÝ÷ñé ðñéí ìåñéêÝò äåêáåôßåò.
+
+Ç óçìåñéíÞ ÍÝá ÅëëçíéêÞ (ÄçìïôéêÞ) ðåñéãñÜöåôáé ìå áñêåôÞ óáöÞíåéá óôç ÃñáììáôéêÞ ôïõ Ìáíüëç Ôñéáíôáöõëëßäç. Ç ãñáììáôéêÞ ôçò ðáñáìÝíåé áñêåôÜ óýíèåôç (éäéáßôåñá óå ü,ôé áöïñÜ ôï ñÞìá üðïõ ïé áñ÷áúóìïß äå óðáíßæïõí êáèüëïõ) êáé ôï ëåîéëüãéü ôçò åßíáé éäéáßôåñá ðëïýóéï.
+
+¸÷ïõí åéðùèåß ðïëëÜ ãéá ôçí áîßá ôçò åëëçíéêÞò ãëþóóáò. ÐïëëÜ áðü áõôÜ äåí åßíáé õðåñâïëÝò. Ãéá ðáñÜäåéãìá åßíáé ãåãïíüò üôé ÷éëéÜäåò åðéóôçìïíéêïß üñïé óôéò åõñùðáúêÝò ãëþóóåò åßíáé åëëçíéêÜ "äÜíåéá" (ïé ðåñéóóüôåñïé åßíáé üñïé ðïõ öôéÜ÷èçêáí áðü îÝíïõò óå ìéá åðï÷Þ ðïõ ôá åëëçíéêÜ Þôáí ç êáô' åîï÷Þí áêáäçìáúêÞ ãëþóóá). ºóùò ç áîßá ôçò ÅëëçíéêÞò áðïäßäåôáé êáëýôåñá áðü ôïí ÏäõóóÝá Åëýôç:
+
+Åäþ êáé ôñéÜíôá áéþíåò, äåí õðÞñîå ïýôå Ýíáò óôïí ïðïßï íá ìç ãñÜöôçêå ðïßçóç óôçí ÅëëçíéêÞ Ãëþóóá.
+[Åðåîåñãáóßá]
+
+ÖùíçôéêÞ
+
+
+[Åðåîåñãáóßá]
+
+ÃñáöÞ
+
+Ç ðñþôç ãñáöÞ ðïõ áðïäåäåéãìÝíá ÷ñçóéìïðïéÞèçêå ãéá ôç ãñáöÞ ôçò ÅëëçíéêÞò ãëþóóáò åßíáé Ãñáììéêޠ ðåñßðïõ ôïí 15ï áéþíá ð.×.. Ôïí 9ï áéþíá ð.×. Üñ÷éóå íá ÷ñçóéìïðïéåßôáé ôï Åëëçíéêü áëöÜâçôï, ôï ïðïßï ìå êÜðïéåò áëëáãÝò ÷ñçóéìïðïéåßôáé êáé óÞìåñá.
+[Åðåîåñãáóßá]
+
+ÂëÝðå Åðßóçò
+
+    * ÃñáììéêÞ Á
+    * ÃñáììéêÞ Â
+    * Êáèáñåýïõóá
+    * ÊáôÜëïãïò ãëùóóþí ôçò ÅëëÜäáò
+
+[Åðåîåñãáóßá]
+
+ÅîùôåñéêÝò óõíäÝóåéò
+
+    * Abnet. Ï Êüìâïò ôçò ÅëëçíéêÞò ãëþóóáò
+
+ÁíáêôÞèçêå áðü "http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1"
+
+Êáôçãïñßåò óåëßäùí: Ãëþóóåò ôçò ÅëëÜäáò | ÅëëçíéêÝò ãëþóóåò
diff --git a/mcs/class/I18N/West/Test/texts/greek-28597.txt b/mcs/class/I18N/West/Test/texts/greek-28597.txt
new file mode 100644 (file)
index 0000000..264774f
--- /dev/null
@@ -0,0 +1,141 @@
+It is copied from Wikipedia, http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+ÅëëçíéêÞ ãëþóóá
+Áðü ôçí Âéêéðáßäåéá, ôçí åëåýèåñç åãêõêëïðáßäåéá
+Jump to: navigation, search
+
+Ç ÅëëçíéêÞ Ãëþóóá åßíáé ìßá áðü ôéò ÉíäïåõñùðáúêÝò Ãëþóóåò, ãéá ôçí ïðïßá Ý÷ïõìå óõíå÷Þ ãñáðôÜ êåßìåíá áðü ôïí 8ï áéþíá ð.×. ìÝ÷ñé óÞìåñá. Åðßóçò Ý÷ïõìå ìåñéêÜ ãñáðôÜ êåßìåíá áðü ôïí 15ïí áéþíá ð.×. ãñáììÝíá óôç ÃñáììéêÞ Â.
+ÅëëçíéêÜ
+Ïìéëåßôáé óå:  ÅëëÜäá, Êýðñï, Áëâáíßá, Ôïõñêßá, Áßãõðôï
+
+êáé ïðïõäÞðïôå áëëïý Ý÷ïõí ìåôáíáóôåýóåé ¸ëëçíåò (ÇíùìÝíåò Ðïëéôåßåò, ÊáíáäÜò, Áõóôñáëßá, Áããëßá, ê.á.)
+Óõíïëéêïß ïìéëçôÝò:    12 åêáôïììýñéá óôçí ÂáëêáíéêÞ , êáé Üëëá 8-10 åêáôïìýñéá óôïí õðüëïéðï êüóìï
+ÊáôÜôáîç:      74ç
+ÃåíåôéêÞ
+ôáîéíüìçóç:    ÉíäïåõñùðáúêÝò Ãëþóóåò
+
+ ÅëëçíéêÜ
+  ÁôôéêÜ
+   ÍÝá ÅëëçíéêÜ
+Official status
+Åðßóçìç ãëþóóá:        ÅëëÜäáò, Êýðñïõ
+Ñõèìßæåôáé áðü:        ?
+Êþäéêåò ãëþóóáò
+ISO 639-1      el
+ISO 639-2(B)   gre
+ISO 639-2(T)   ell
+SIL    GRK
+
+
+Ðßíáêáò ðåñéå÷ïìÝíùí
+[Áðüêñõøç]
+
+    * 1 Ôáîéíüìçóç
+    * 2 ÃåùãñáöéêÞ åîÜðëùóç
+    * 3 Åðßóçìç êáôÜóôáóç ôçò ãëþóóáò
+    * 4 ÖÜóåéò ÅîÝëéîçò
+          o 4.1 ÐñùôïåëëçíéêÞ
+          o 4.2 ÌõêçíáúêÞ ÅëëçíéêÞ
+          o 4.3 ÊëáóéêÞ ÅëëçíéêÞ
+          o 4.4 ÅëëçíéóôéêÞ ÊïéíÞ
+          o 4.5 ÌåóáéùíéêÞ ÅëëçíéêÞ
+          o 4.6 ÍÝá ÅëëçíéêÞ
+    * 5 ÖùíçôéêÞ
+    * 6 ÃñáöÞ
+    * 7 ÂëÝðå Åðßóçò
+    * 8 ÅîùôåñéêÝò óõíäÝóåéò
+
+[Åðåîåñãáóßá]
+
+Ôáîéíüìçóç
+
+Ç ÅëëçíéêÞ áðïôåëåß áðü ìüíç ôçò Ýíáí áíåîÜñôçôï êëÜäï ôçò ÉíäïåõñùðáúêÞò ïìÜäáò ãëùóóþí. Ôï ëåîéëüãéï ôçò íåüôåñçò ìïñöÞò ôçò Ý÷åé åðçñåáóôåß óå Ýíá âáèìü áðü ãëþóóåò ôùí [[ÂáëêÜíéá|Âáëêáíßùí
+[Åðåîåñãáóßá]
+
+ÃåùãñáöéêÞ åîÜðëùóç
+
+Ç ÅëëçíéêÞ áðïôåëåß ôçí ìçôñéêÞ ãëþóóá ðåñßðïõ 12 åêáôïìçñßùí áíèñþðùí êõñßùò óôçí ÅëëÜäá êáé óôçí Êýðñï. Áðïôåëåß åðßóçò ôçí ìçôñéêÞ ãëþóóá áõôü÷èïíùí ðëçèõóìþí óôçí Áëâáíßá êáé óôçí Ôïõñêßá. Åîáéôßáò ôçò ìåôáíÜóôåõóçò ç ãëþóóá ìéëéÝôáé áêüìá óå ÷þñåò-ðñïïñéóìïýò åëëçíüöùíùí ðëçèõóìþí ìåôáîý ôùí ïðïßùí ç Áõóôñáëßá, ï ÊáíáäÜò, ç Ãåñìáíßá, ôï ÇíùìÝíï Âáóßëåéï, êáé ïé ÇíùìÝíåò Ðïëéôåßåò. ÓõíïëéêÜ õðïëïãßæåôáé üôé ï óõíïëéêüò áñéèìüò áíèñþðùí ðïõ ìéëÜíå ôá åëëçíéêÜ óáí ðñþôç Þ äåýôåñç ãëþóóá åßíáé ãýñù óôá 15 åêáôïìýñéá.
+
+
+[Åðåîåñãáóßá]
+
+Åðßóçìç êáôÜóôáóç ôçò ãëþóóáò
+
+Åßíáé ç åðßóçìç ãëþóóá ôçò ÅëëÜäáò êáé ôçò Êýðñïõ. Áêüìá åßíáé ìßá áðü ôéò åðßóçìåò ãëþóóåò ôçò ÅõñùðáúêÞò ¸íùóçò.
+[Åðåîåñãáóßá]
+
+ÖÜóåéò ÅîÝëéîçò
+[Åðåîåñãáóßá]
+
+ÐñùôïåëëçíéêÞ
+
+Ãéá ôçí ðñþôç öÜóç (ÐñùôïåëëçíéêÞ) ç ïðïßá ôïðïèåôåßôáé ðñéí ôï 1600 ð.×., ïé üðïéåò ãíþóåéò ìáò ãéá ôçí åëëçíéêÞ ãëþóóá âáóßæïíôáé óå ôå÷íéêÝò åðáíáóýíèåóçò ðïõ ðñïêýðôïõí áðü ôç óõãêñéôéêÞ ãëùóóïëïãßá. Ç ÐñùôïåëëçíéêÞ åß÷å 7 ðôþóåéò (ÏíïìáóôéêÞ, ÃåíéêÞ, ÄïôéêÞ, ÁéôéáôéêÞ, ÁöáéñåôéêÞ, ÔïðéêÞ, ÊëçôéêÞ). Åðßóçò åß÷å äéáôçñÞóåé óå ðïëý ìåãÜëï âáèìü ôá õðüëïéðá ÷áñáêôçñéóôéêÜ ôçò ÉÅ "ìçôñéêÞò" ãëþóóáò. Åß÷å ôñåéò öùíÝò (ÅíåñãçôéêÞ, ÐáèçôéêÞ, ÌÝóç) êáé ôñåéò áñéèìïýò (Åíéêüò, Ðëçèõíôéêüò, Äõúêüò). Óçìáíôéêü ÷áñáêôçñéóôéêü ôçò (ðïõ äéáôçñÞèçêå ó÷åäüí ìÝ÷ñé ôá ðñþôá ìåôá÷ñéóôéáíéêÜ ÷ñüíéá) Þôáí ï ìïõóéêüò ôïíéóìüò. Ï ôüíïò óôá áñ÷áßá åëëçíéêÜ äåí áíôéóôïé÷ïýóå óå áýîçóç ôçò Ýíôáóçò ôçò öùíÞò (volume) áëëÜ óå áýîçóç ôçò óõ÷íüôçôáò (pitch).
+[Åðåîåñãáóßá]
+
+ÌõêçíáúêÞ ÅëëçíéêÞ
+
+Óôçí áìÝóùò åðüìåíç öÜóç (ÌõêçíáúêÞ ÅëëçíéêÞ) ç ïðïßá ìáñôõñåßôáé áðü ôéò ðéíáêßäåò ôçò ÃñáììéêÞò Â' êáé áðü ïñéóìÝíïõò óôß÷ïõò ôùí Ïìçñéêþí Åðþí, ðáñáôçñïýìå åîßóïõ ðïëëïýò áñ÷áúóìïýò. Ð.÷. ç ãåíéêÞ ôùí ïíïìÜôùí óå -ïò ó÷çìáôéæüôáí ìå ôçí êáôÜëçîç -ïéï (ðñâë. Ïìçñéêü "ÐñéÜìïéï"), åíþ õðÜñ÷åé öèüããïò (ðïõ óõìâïëßæåôáé ìå) "q" ï ïðïßïò âñßóêåôáé óå ëÝîåéò üðïõ áðü ôçí ÉÅ èá áíáìÝíáìå Ýíá *kw. Ïé ðôþóåéò ÁöáéñåôéêÞ êáé ÔïðéêÞ äéáôçñïýíôáé áëëÜ óå ìÜëëïí ðåñéïñéóìÝíï âáèìü.
+[Åðåîåñãáóßá]
+
+ÊëáóéêÞ ÅëëçíéêÞ
+
+Óôçí ÊëáóéêÞ åëëçíéêÞ, áñ÷áéüôåñá êåßìåíá ôçò ïðïßáò åßíáé ôá ÏìçñéêÜ ¸ðç êáé áñ÷áéüôåñï ôåêìÞñéï ç åðéãñáöÞ ôïõ Äéðýëïõ, ôï âáóéêüôåñï ÷áñáêôçñéóôéêü åßíáé ç õøçëÞ äéáëåêôéêÞ äéáöïñïðïßçóç, ç ïðïßá ïöåßëåôáé ðéèáíüôáôá óôçí ðïëõäéÜóðáóç ôïõ åëëçíéêïý êüóìïõ óå äéÜöïñá êñáôßäéá. Ùò ðñïò ôï áí ïé âáóéêÝò äéÜëåêôïé ôçò êëáóóéêÞò åðï÷Þò (ÉùíéêÞ, ÁéïëéêÞ, ÄùñéêÞ êëð) äçìéïõñãÞèçêáí óôçí ÅëëÜäá ëüãù ôçò ðïëéôéêÞò ðïëõäéÜóðáóçò ôùí ÅëëÞíùí Þ "Þñèáí" ìáæß ìå ôá áíôßóôïé÷á öýëá êáôÜ ôçí åðï÷Þ ôïõ ×áëêïý, ïé ãíþìåò äéßóôáíôáé. Öáßíåôáé ðùò äåí áðïêëåßåôáé íá óõíÝâçóáí êáé ôá äýï. ÐÜíôùò ïé äéÜëåêôïé ôçò êëáóóéêÞò åðï÷Þò äéÝöåñáí áñêåôÜ ìåôáîý ôïõò êáé äåí èá Þôáí õðåñâïëÞ íá õðïóôçñé÷èåß üôé ïé ïìéëçôÝò ôïõò âñßóêïíôáí ðïëëÝò öïñÝò óôá áêñáßá üñéá ôçò áëëçëïêáôáíüçóçò.
+
+Ìßá áðü ôéò óçìáíôéêüôåñåò äéáëÝêôïõò ôçò êëáóéêÞò åðï÷Þò Þôáí ç ÁôôéêÞ äéÜëåêôïò, ðïõ ÷ñçóéìïðïéïýíôáí êõñßùò óôçí ÁèÞíá áëëÜ êáé ùò ãëþóóá ôùí öéëïóüöùí êáé ôùí åðéóôçìüíùí. Ç ÁôôéêÞ äéÜëåêôïò ðñïÝñ÷åôáé áðü ôçí ÉùíéêÞ (ôç âáóéêÞ äéÜëåêôï ôùí Ïìçñéêþí Åðþí) ìå áñêåôÝò äùñéêÝò åðéäñÜóåéò. ÕéïèåôÞèçêå ùò åðßóçìç ãëþóóá üëçò ôçò ÅëëÜäáò áðü ôïí Ößëéððï ôï Ìáêåäüíá êáé ùò åðßóçìç ãëþóóá ïëüêëçñïõ ôïõ åëëçíéóôéêïý êüóìïõ áðü ôïí ãéï ôïõ ÁëÝîáíäñï. Áðü áõôÞí ðñïÝñ÷ïíôáé áð' åõèåßáò ó÷åäüí üëåò ïé ìåôáãåíÝóôåñåò åëëçíéêÝò äéÜëåêôïé.
+
+ÁðïôÝëåóìá ôçò ÷ñÞóçò ôçò áôôéêÞò äéáëÝêôïõ ùò äåýôåñçò (êáé óõ÷íÜ ðñþôçò) ãëþóóáò áðü ðÜñá ðïëëïýò áëëüãëùóóïõò (áëëÜ êáé áðü åëëçíüöùíïõò ðïõ ìéëïýóáí ðñùôýôåñá ìéá Üëëç åëëçíéêÞ äéÜëåêôï) Þôáí óáñùôéêÝò áëëáãÝò óå üëá ôá åðßðåäá ôçò ìïñöïëïãßáò ôçò. ¸ôóé:
+
+    * Ç ðñïöïñÜ Üëëáîå ñéæéêÜ ìå êõñéüôåñï ÷áñáêôçñéóôéêü ôçí ðñïöïñÜ ôùí åé, ç, õ, õé ùò "é" (éùôáêéóìüò) êáé ôçí áðþëåéá ôùí öèüããùí F (w) êáé H (äáóåßá).
+    * Ï Äõúêüò áñéèìüò, ôï áðáñÝìöáôï êáé ç ÌÝóç öùíÞ ÷Üèçêáí.
+    * ÁðëïðïéÞèçêå óçìáíôéêÜ ôï óýóôçìá êëßóçò ïíïìÜôùí êáé ñçìÜôùí.
+
+[Åðåîåñãáóßá]
+
+ÅëëçíéóôéêÞ ÊïéíÞ
+
+Ôï áðïôÝëåóìá üëùí áõôþí ôùí ìåôáâïëþí Þôáí ç ÅëëçíéóôéêÞ ÊïéíÞ, ç ïðïßá ìáñôõñåßôáé êõñßùò óôçí ÊáéíÞ ÄéáèÞêç. Åßíáé ÷áñáêôçñéóôéêü üôé ôçí ßäéá åðï÷Þ Ý÷ïõìå êáé ôïõò ðñþôïõò ÁôôéêéóôÝò, áõôïýò ðïõ èåùñïýóáí áðáñáßôçôç ôç äéáôÞñçóç ôçò "áõèåíôéêÞò" ÁôôéêÞò ÄéáëÝêôïõ, ôïõëÜ÷éóôïí óôï ãñáðôü ëüãï.
+[Åðåîåñãáóßá]
+
+ÌåóáéùíéêÞ ÅëëçíéêÞ
+
+Ç ÅëëçíéóôéêÞ ÊïéíÞ åîåëß÷èçêå óôç ÌåóáéùíéêÞ ÅëëçíéêÞ, ç ïðïßá ìáñôõñåßôáé êõñßùò áðü äçìïôéêÜ ôñáãïýäéá. Ôåëåõôáßá öùíïëïãéêÞ ìåôáâïëÞ êáôÜ ôï 10ï áéþíá Þôáí ï éùôáêéóìüò êáé ôïõ "ïé" ðïõ ùò ôüôå åîáêïëïõèïýóå íá ðñïöÝñåôáé óá äßöèïããïò.
+[Åðåîåñãáóßá]
+
+ÍÝá ÅëëçíéêÞ
+
+Ôá üñéá ìåôáîý ÍÝáò ÅëëçíéêÞò êáé ÌåóáéùíéêÞò ÅëëçíéêÞò äåí åßíáé éäéáßôåñá óáöÞ, ðÜíôùò ôïðïèåôïýíôáé ÷ïíäñéêÜ êÜðïõ óôá ôåëåõôáßá ÷ñüíéá ôïõ Âõæáíôßïõ. ÊáôÜ ôçí ðåñßïäï áõôÞ (êáèþò êáé óôçí Ôïõñêïêñáôßá) åß÷áìå ìßá åîßóïõ Ýíôïíç äéáëåêôéêÞ äéáöïñïðïßçóç ç ïðïßá óõíå÷ßæïíôáí ìÝ÷ñé ðñéí ìåñéêÝò äåêáåôßåò.
+
+Ç óçìåñéíÞ ÍÝá ÅëëçíéêÞ (ÄçìïôéêÞ) ðåñéãñÜöåôáé ìå áñêåôÞ óáöÞíåéá óôç ÃñáììáôéêÞ ôïõ Ìáíüëç Ôñéáíôáöõëëßäç. Ç ãñáììáôéêÞ ôçò ðáñáìÝíåé áñêåôÜ óýíèåôç (éäéáßôåñá óå ü,ôé áöïñÜ ôï ñÞìá üðïõ ïé áñ÷áúóìïß äå óðáíßæïõí êáèüëïõ) êáé ôï ëåîéëüãéü ôçò åßíáé éäéáßôåñá ðëïýóéï.
+
+¸÷ïõí åéðùèåß ðïëëÜ ãéá ôçí áîßá ôçò åëëçíéêÞò ãëþóóáò. ÐïëëÜ áðü áõôÜ äåí åßíáé õðåñâïëÝò. Ãéá ðáñÜäåéãìá åßíáé ãåãïíüò üôé ÷éëéÜäåò åðéóôçìïíéêïß üñïé óôéò åõñùðáúêÝò ãëþóóåò åßíáé åëëçíéêÜ "äÜíåéá" (ïé ðåñéóóüôåñïé åßíáé üñïé ðïõ öôéÜ÷èçêáí áðü îÝíïõò óå ìéá åðï÷Þ ðïõ ôá åëëçíéêÜ Þôáí ç êáô' åîï÷Þí áêáäçìáúêÞ ãëþóóá). ºóùò ç áîßá ôçò ÅëëçíéêÞò áðïäßäåôáé êáëýôåñá áðü ôïí ÏäõóóÝá Åëýôç:
+
+Åäþ êáé ôñéÜíôá áéþíåò, äåí õðÞñîå ïýôå Ýíáò óôïí ïðïßï íá ìç ãñÜöôçêå ðïßçóç óôçí ÅëëçíéêÞ Ãëþóóá.
+[Åðåîåñãáóßá]
+
+ÖùíçôéêÞ
+
+
+[Åðåîåñãáóßá]
+
+ÃñáöÞ
+
+Ç ðñþôç ãñáöÞ ðïõ áðïäåäåéãìÝíá ÷ñçóéìïðïéÞèçêå ãéá ôç ãñáöÞ ôçò ÅëëçíéêÞò ãëþóóáò åßíáé Ãñáììéêޠ ðåñßðïõ ôïí 15ï áéþíá ð.×.. Ôïí 9ï áéþíá ð.×. Üñ÷éóå íá ÷ñçóéìïðïéåßôáé ôï Åëëçíéêü áëöÜâçôï, ôï ïðïßï ìå êÜðïéåò áëëáãÝò ÷ñçóéìïðïéåßôáé êáé óÞìåñá.
+[Åðåîåñãáóßá]
+
+ÂëÝðå Åðßóçò
+
+    * ÃñáììéêÞ Á
+    * ÃñáììéêÞ Â
+    * Êáèáñåýïõóá
+    * ÊáôÜëïãïò ãëùóóþí ôçò ÅëëÜäáò
+
+[Åðåîåñãáóßá]
+
+ÅîùôåñéêÝò óõíäÝóåéò
+
+    * Abnet. Ï Êüìâïò ôçò ÅëëçíéêÞò ãëþóóáò
+
+ÁíáêôÞèçêå áðü "http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1"
+
+Êáôçãïñßåò óåëßäùí: Ãëþóóåò ôçò ÅëëÜäáò | ÅëëçíéêÝò ãëþóóåò
diff --git a/mcs/class/I18N/West/Test/texts/greek-utf8.txt b/mcs/class/I18N/West/Test/texts/greek-utf8.txt
new file mode 100644 (file)
index 0000000..4381be7
--- /dev/null
@@ -0,0 +1,141 @@
+It is copied from Wikipedia, http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Ελληνική γλώσσα
+Από την Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια
+Jump to: navigation, search
+
+Η Ελληνική Γλώσσα είναι μία από τις Ινδοευρωπαϊκές Γλώσσες, για την οποία έχουμε συνεχή γραπτά κείμενα από τον 8ο αιώνα π.Χ. μέχρι σήμερα. Επίσης έχουμε μερικά γραπτά κείμενα από τον 15ον αιώνα π.Χ. γραμμένα στη Γραμμική Β.
+Ελληνικά
+Ομιλείται σε:       Ελλάδα, Κύπρο, Αλβανία, Τουρκία, Αίγυπτο
+
+και οπουδήποτε αλλού έχουν μεταναστεύσει Έλληνες (Ηνωμένες Πολιτείες, Καναδάς, Αυστραλία, Αγγλία, κ.α.)
+Συνολικοί ομιλητές:   12 εκατομμύρια στην Βαλκανική , και άλλα 8-10 εκατομύρια στον υπόλοιπο κόσμο
+Κατάταξη:      74η
+Γενετική
+ταξινόμηση:  Ινδοευρωπαϊκές Γλώσσες
+
+ Ελληνικά
+  Αττικά
+   Νέα Ελληνικά
+Official status
+Επίσημη γλώσσα:   Ελλάδας, Κύπρου
+Ρυθμίζεται από:   ?
+Κώδικες γλώσσας
+ISO 639-1      el
+ISO 639-2(B)   gre
+ISO 639-2(T)   ell
+SIL    GRK
+
+
+Πίνακας περιεχομένων
+[Απόκρυψη]
+
+    * 1 Ταξινόμηση
+    * 2 Γεωγραφική εξάπλωση
+    * 3 Επίσημη κατάσταση της γλώσσας
+    * 4 Φάσεις Εξέλιξης
+          o 4.1 Πρωτοελληνική
+          o 4.2 Μυκηναϊκή Ελληνική
+          o 4.3 Κλασική Ελληνική
+          o 4.4 Ελληνιστική Κοινή
+          o 4.5 Μεσαιωνική Ελληνική
+          o 4.6 Νέα Ελληνική
+    * 5 Φωνητική
+    * 6 Γραφή
+    * 7 Βλέπε Επίσης
+    * 8 Εξωτερικές συνδέσεις
+
+[Επεξεργασία]
+
+Ταξινόμηση
+
+Η Ελληνική αποτελεί από μόνη της έναν ανεξάρτητο κλάδο της Ινδοευρωπαϊκής ομάδας γλωσσών. Το λεξιλόγιο της νεότερης μορφής της έχει επηρεαστεί σε ένα βαθμό από γλώσσες των [[Βαλκάνια|Βαλκανίων
+[Επεξεργασία]
+
+Γεωγραφική εξάπλωση
+
+Η Ελληνική αποτελεί την μητρική γλώσσα περίπου 12 εκατομηρίων ανθρώπων κυρίως στην Ελλάδα και στην Κύπρο. Αποτελεί επίσης την μητρική γλώσσα αυτόχθονων πληθυσμών στην Αλβανία και στην Τουρκία. Εξαιτίας της μετανάστευσης η γλώσσα μιλιέται ακόμα σε χώρες-προορισμούς ελληνόφωνων πληθυσμών μεταξύ των οποίων η Αυστραλία, ο Καναδάς, η Γερμανία, το Ηνωμένο Βασίλειο, και οι Ηνωμένες Πολιτείες. Συνολικά υπολογίζεται ότι ο συνολικός αριθμός ανθρώπων που μιλάνε τα ελληνικά σαν πρώτη ή δεύτερη γλώσσα είναι γύρω στα 15 εκατομύρια.
+
+
+[Επεξεργασία]
+
+Επίσημη κατάσταση της γλώσσας
+
+Είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου. Ακόμα είναι μία από τις επίσημες γλώσσες της Ευρωπαϊκής Ένωσης.
+[Επεξεργασία]
+
+Φάσεις Εξέλιξης
+[Επεξεργασία]
+
+Πρωτοελληνική
+
+Για την πρώτη φάση (Πρωτοελληνική) η οποία τοποθετείται πριν το 1600 π.Χ., οι όποιες γνώσεις μας για την ελληνική γλώσσα βασίζονται σε τεχνικές επανασύνθεσης που προκύπτουν από τη συγκριτική γλωσσολογία. Η Πρωτοελληνική είχε 7 πτώσεις (Ονομαστική, Γενική, Δοτική, Αιτιατική, Αφαιρετική, Τοπική, Κλητική). Επίσης είχε διατηρήσει σε πολύ μεγάλο βαθμό τα υπόλοιπα χαρακτηριστικά της ΙΕ "μητρικής" γλώσσας. Είχε τρεις φωνές (Ενεργητική, Παθητική, Μέση) και τρεις αριθμούς (Ενικός, Πληθυντικός, Δυϊκός). Σημαντικό χαρακτηριστικό της (που διατηρήθηκε σχεδόν μέχρι τα πρώτα μεταχριστιανικά χρόνια) ήταν ο μουσικός τονισμός. Ο τόνος στα αρχαία ελληνικά δεν αντιστοιχούσε σε αύξηση της έντασης της φωνής (volume) αλλά σε αύξηση της συχνότητας (pitch).
+[Επεξεργασία]
+
+Μυκηναϊκή Ελληνική
+
+Στην αμέσως επόμενη φάση (Μυκηναϊκή Ελληνική) η οποία μαρτυρείται από τις πινακίδες της Γραμμικής Β' και από ορισμένους στίχους των Ομηρικών Επών, παρατηρούμε εξίσου πολλούς αρχαϊσμούς. Π.χ. η γενική των ονομάτων σε -ος σχηματιζόταν με την κατάληξη -οιο (πρβλ. Ομηρικό "Πριάμοιο"), ενώ υπάρχει φθόγγος (που συμβολίζεται με) "q" ο οποίος βρίσκεται σε λέξεις όπου από την ΙΕ θα αναμέναμε ένα *kw. Οι πτώσεις Αφαιρετική και Τοπική διατηρούνται αλλά σε μάλλον περιορισμένο βαθμό.
+[Επεξεργασία]
+
+Κλασική Ελληνική
+
+Στην Κλασική ελληνική, αρχαιότερα κείμενα της οποίας είναι τα Ομηρικά Έπη και αρχαιότερο τεκμήριο η επιγραφή του Διπύλου, το βασικότερο χαρακτηριστικό είναι η υψηλή διαλεκτική διαφοροποίηση, η οποία οφείλεται πιθανότατα στην πολυδιάσπαση του ελληνικού κόσμου σε διάφορα κρατίδια. Ως προς το αν οι βασικές διάλεκτοι της κλασσικής εποχής (Ιωνική, Αιολική, Δωρική κλπ) δημιουργήθηκαν στην Ελλάδα λόγω της πολιτικής πολυδιάσπασης των Ελλήνων ή "ήρθαν" μαζί με τα αντίστοιχα φύλα κατά την εποχή του Χαλκού, οι γνώμες διίστανται. Φαίνεται πως δεν αποκλείεται να συνέβησαν και τα δύο. Πάντως οι διάλεκτοι της κλασσικής εποχής διέφεραν αρκετά μεταξύ τους και δεν θα ήταν υπερβολή να υποστηριχθεί ότι οι ομιλητές τους βρίσκονταν πολλές φορές στα ακραία όρια της αλληλοκατανόησης.
+
+Μία από τις σημαντικότερες διαλέκτους της κλασικής εποχής ήταν η Αττική διάλεκτος, που χρησιμοποιούνταν κυρίως στην Αθήνα αλλά και ως γλώσσα των φιλοσόφων και των επιστημόνων. Η Αττική διάλεκτος προέρχεται από την Ιωνική (τη βασική διάλεκτο των Ομηρικών Επών) με αρκετές δωρικές επιδράσεις. Υιοθετήθηκε ως επίσημη γλώσσα όλης της Ελλάδας από τον Φίλιππο το Μακεδόνα και ως επίσημη γλώσσα ολόκληρου του ελληνιστικού κόσμου από τον γιο του Αλέξανδρο. Από αυτήν προέρχονται απ' ευθείας σχεδόν όλες οι μεταγενέστερες ελληνικές διάλεκτοι.
+
+Αποτέλεσμα της χρήσης της αττικής διαλέκτου ως δεύτερης (και συχνά πρώτης) γλώσσας από πάρα πολλούς αλλόγλωσσους (αλλά και από ελληνόφωνους που μιλούσαν πρωτύτερα μια άλλη ελληνική διάλεκτο) ήταν σαρωτικές αλλαγές σε όλα τα επίπεδα της μορφολογίας της. Έτσι:
+
+    * Η προφορά άλλαξε ριζικά με κυριότερο χαρακτηριστικό την προφορά των ει, η, υ, υι ως "ι" (ιωτακισμός) και την απώλεια των φθόγγων F (w) και H (δασεία).
+    * Ο Δυϊκός αριθμός, το απαρέμφατο και η Μέση φωνή χάθηκαν.
+    * Απλοποιήθηκε σημαντικά το σύστημα κλίσης ονομάτων και ρημάτων.
+
+[Επεξεργασία]
+
+Ελληνιστική Κοινή
+
+Το αποτέλεσμα όλων αυτών των μεταβολών ήταν η Ελληνιστική Κοινή, η οποία μαρτυρείται κυρίως στην Καινή Διαθήκη. Είναι χαρακτηριστικό ότι την ίδια εποχή έχουμε και τους πρώτους Αττικιστές, αυτούς που θεωρούσαν απαραίτητη τη διατήρηση της "αυθεντικής" Αττικής Διαλέκτου, τουλάχιστον στο γραπτό λόγο.
+[Επεξεργασία]
+
+Μεσαιωνική Ελληνική
+
+Η Ελληνιστική Κοινή εξελίχθηκε στη Μεσαιωνική Ελληνική, η οποία μαρτυρείται κυρίως από δημοτικά τραγούδια. Τελευταία φωνολογική μεταβολή κατά το 10ο αιώνα ήταν ο ιωτακισμός και του "οι" που ως τότε εξακολουθούσε να προφέρεται σα δίφθογγος.
+[Επεξεργασία]
+
+Νέα Ελληνική
+
+Τα όρια μεταξύ Νέας Ελληνικής και Μεσαιωνικής Ελληνικής δεν είναι ιδιαίτερα σαφή, πάντως τοποθετούνται χονδρικά κάπου στα τελευταία χρόνια του Βυζαντίου. Κατά την περίοδο αυτή (καθώς και στην Τουρκοκρατία) είχαμε μία εξίσου έντονη διαλεκτική διαφοροποίηση η οποία συνεχίζονταν μέχρι πριν μερικές δεκαετίες.
+
+Η σημερινή Νέα Ελληνική (Δημοτική) περιγράφεται με αρκετή σαφήνεια στη Γραμματική του Μανόλη Τριανταφυλλίδη. Η γραμματική της παραμένει αρκετά σύνθετη (ιδιαίτερα σε ό,τι αφορά το ρήμα όπου οι αρχαϊσμοί δε σπανίζουν καθόλου) και το λεξιλόγιό της είναι ιδιαίτερα πλούσιο.
+
+Έχουν ειπωθεί πολλά για την αξία της ελληνικής γλώσσας. Πολλά από αυτά δεν είναι υπερβολές. Για παράδειγμα είναι γεγονός ότι χιλιάδες επιστημονικοί όροι στις ευρωπαϊκές γλώσσες είναι ελληνικά "δάνεια" (οι περισσότεροι είναι όροι που φτιάχθηκαν από ξένους σε μια εποχή που τα ελληνικά ήταν η κατ' εξοχήν ακαδημαϊκή γλώσσα). Ίσως η αξία της Ελληνικής αποδίδεται καλύτερα από τον Οδυσσέα Ελύτη:
+
+Εδώ και τριάντα αιώνες, δεν υπήρξε ούτε ένας στον οποίο να μη γράφτηκε ποίηση στην Ελληνική Γλώσσα.
+[Επεξεργασία]
+
+Φωνητική
+
+
+[Επεξεργασία]
+
+Γραφή
+
+Η πρώτη γραφή που αποδεδειγμένα χρησιμοποιήθηκε για τη γραφή της Ελληνικής γλώσσας είναι Γραμμική Β περίπου τον 15ο αιώνα π.Χ.. Τον 9ο αιώνα π.Χ. άρχισε να χρησιμοποιείται το Ελληνικό αλφάβητο, το οποίο με κάποιες αλλαγές χρησιμοποιείται και σήμερα.
+[Επεξεργασία]
+
+Βλέπε Επίσης
+
+    * Γραμμική Α
+    * Γραμμική Β
+    * Καθαρεύουσα
+    * Κατάλογος γλωσσών της Ελλάδας
+
+[Επεξεργασία]
+
+Εξωτερικές συνδέσεις
+
+    * Abnet. Ο Κόμβος της Ελληνικής γλώσσας
+
+Ανακτήθηκε από "http://el.wikipedia.org/wiki/%CE%95%CE%BB%CE%BB%CE%B7%CE%BD%CE%B9%CE%BA%CE%AE_%CE%B3%CE%BB%CF%8E%CF%83%CF%83%CE%B1"
+
+Κατηγορίες σελίδων: Γλώσσες της Ελλάδας | Ελληνικές γλώσσες
diff --git a/mcs/class/I18N/West/Test/texts/hungarian-28592.txt b/mcs/class/I18N/West/Test/texts/hungarian-28592.txt
new file mode 100644 (file)
index 0000000..31b0b8f
--- /dev/null
@@ -0,0 +1,179 @@
+It is copied from Wikipedia, http://hu.wikipedia.org/wiki/Magyar_nyelv
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Besorolás
+
+A magyar nyelv besorolása nyelvészeti körökben nem képezi vita tárgyát: az uráli nyelvcsalád tagja, ezen belül a finnugor nyelvek közé tartozik.
+[szerkesztés]
+
+Földrajzi eloszlás
+
+A magyart Magyarországon kívül többek között a környezõ Kárpát-medencei országokban beszélik: (Ausztria, Szlovákia, Ukrajna, Románia (fõként Erdélyben), Szerbia és Montenegró (a Vajdaságban), Horvátország, Szlovénia).
+[szerkesztés]
+
+Beszélõk száma
+
+Beszélõinek száma kb. 14,5 millió (ezzel az uráli nyelvcsalád legnépesebb tagja), közülük kb. 10 millióan élnek Magyarországon. A magyar nyelv Magyarország hivatalos nyelve és az Európai Unió hivatalos nyelveinek egyike. Hivatalos nyelv a szlovén mellett Szlovénia három járásában (Dobrónak, Hodos és Lendva), valamint a Vajdaságban. - Az Európai Unióban anyanyelvileg, vagyis etnikai magyarként kb. 12 millió magyar él. 13 millióan beszélik az Európai Unióban a magyar nyelvet elsõ vagy második nyelvként. A magyar nyelvet a nyelvek sorában a 66. helyre tesszük az anyanyelvileg beszélõk száma szerint.
+
+A Földön 30 millió magyar származású ember él, nagyobb részük a nyelvet nem beszéli. A beolvadás (asszimiláció) szempontjából több szempontból is beoszhatjuk õket: a beolvadás az angol, spanyol, szlovák, román, szerb-horvát nyelvekbe valamint a magyarab, berber és arab nyelvekbe történt, de a német, cseh és más nyelvterületek is jelentõs számú magyart olvasztottak magukba.
+[szerkesztés]
+
+Írás
+
+A magyar nyelv a latin írást használja, kiegészítve annak ábécéjét néhány speciális magyar betûvel.
+
+A latin írásjegyek elõtt a nyelvet rovásírással írták. A magyar rovásírás néhány kutató szerint az i. e. 5. században már létezett és használt írás volt, ennek eldöntéséhez a jelenlegi adatok valójában nem elégségesek. Szent István király korában a kereszténységre való áttéréskor bevezették a ma használt latin betûs írásunk õsét (néhány írásjel eltért a ma használatostól). Ekkor az ország hivatalos nyelve a latin nyelv lett. A magyar nyelv 1844 óta Magyarország hivatalos nyelve.
+[szerkesztés]
+
+Nyelvjárások
+
+Nyolc fõ nyelvjárást tartanak számon:
+
+    * tiszai (más néven: alföldi),
+    * dunántúli,
+    * déli (más néven: Duna-Tisza-közi),
+    * északkeleti,
+    * palóc (más néven: északnyugati),
+    * mezõségi (más néven: Királyhágón túli),
+    * nyugati,
+    * székely,
+    * csángó.
+
+(A mai hivatalos nyelv az északkeleti nyelvjárásból fejlõdött ki.)
+[szerkesztés]
+
+Származás
+
+A nyelvrokonság témája századok óta vitatott téma: a finnugor eredet mellett a türk (turáni) és a sumér eredet, továbbá az õsnyelv elmélete is felmerült. Jelenlegi ismereteink és a bevett kutatási módszerek alapján az uralkodó nyelvtudományi irányzat csak a finnugor rokonságot fogadja el. Nádasdy Ádám szerint:
+
+    "A hangváltozások és a nyelvtani szerkezet öröklött volta más nyelvcsoporttal való rokonítást jelen tudásunk szerint nem tesz lehetõvé. Azaz: túl jól mûködik a finnugor rokonítás, és túl rosszul bármi más." [1]
+
+A finnugor nyelvi kapcsolat egyrészt az alapszókincs összevetésével, másrészt a rendszeres hangmegfelelésekkel (pl. a magyar f hangnak más finnugor nyelvekben rendszeresen p felel meg, a magyar h-nak k stb.), harmadrészt a nyelvi rendszer hasonlóságával (agglutináció, nyelvtani nemek hiánya stb.) igazolható. Egy átlagos mai magyar szöveg elemzése során a finnugor, azaz magyar szavak arányát kb. 90%-nak találjuk, ami nem kis részben az egyes tövekbõl eredõ gazdag szóbokroknak köszönhetõ (gyökök.) A nyelv mai jellegét természetesen egyéb nyelvek is jelentõsen befolyásolták.
+
+A nyelvrokonság - egyéb társadalmi tényezõk folytán - nem mindig van közvetlen összefüggésben a népek vér szerinti rokonságával, tehát a népességgenetikai kutatások csak támpontként szolgálhatnak a nyelvészeti kutatásokhoz. (Errõl bõvebben lásd: Czeizel Endre: A magyarság genetikája. Galenus, 2003.)
+[szerkesztés]
+
+Történet, kialakulás
+
+    Korszakairól lásd: Nyelvtörténeti korszakok a magyarban
+
+Önálló fejlõdése az õsmagyar korban indult meg, majd az ómagyar korban jelentek meg írott szórványok, szövegemlékek (elsõ szövegemlék a tihanyi apátság alapítólevelében található, az elsõ összefüggõ szövegek pedig a Halotti beszéd és az Ómagyar Mária-siralom). A középmagyar kor jelzi az elsõ magyar nyomtatványok megjelenését és a magyar költészet kezdeteit (Tinódi, Balassi) - ez a korszak már nem különbözik lényegesen a mai nyelvtõl. Az újmagyar korban alakul ki az egységes nemzeti nyelv és a modern irodalmi nyelv, a 18-19. századi írók, költõk, valamint a nyelvújítás révén (Kazinczy Ferenc vezetésével).
+[szerkesztés]
+
+Szókincs
+
+A magyar nyelv szókincse a szótöveket tekintve kb. 21%-ban finnugor eredetû (A nyelv és a nyelvek, ISBN 963-05-7959-6, 134. o.), szóelõfordulás szerint azonban 80-90%-os arányt kapunk. Emellett számos iráni, türk, szláv, latin, német, francia, olasz és angol eredetû szó található nyelvünkben. A magyar nyelv szavainak száma az önálló jelentésû összetett szavakat is beleértve kb. 240 000-re tehetõ.
+
+Részletesen lásd: Magyar szókincs
+[szerkesztés]
+
+Jellemzõk, sajátosságok
+[szerkesztés]
+
+Hangtan
+
+Jellemzõ rá az elsõ szótagra esõ hangsúly (ebben a finnugor és a szlovák nyelvekre hasonlít), a magánhangzó-harmónia (barnulásotokról - zöldülésetekrõl), valamint a magánhangzó-hosszúság és a hangsúly egymástól független volta (amely szinte egyedüliként lehetõvé teszi az antik idõmértékes verselés alkalmazását). Hangrendszerére ezenkívül a lágy mássalhangzók (ny, ty, gy), az aspirálatlan zárhangok (h nélkül ejtett p, t, k, szemben a germán nyelvekkel) és a palatális magánhangzók elõtti kemény mássalhangzók jelenléte jellemzõ (azaz lehetséges ne, ti stb. hangkapcsolat, nye, tyi helyett; szemben például az orosszal). Nincsenek benne valódi diftongusok (mint például a finnben vagy németben) és redukált magánhangzók (mint például az angolban, németben). A speciális magyar a hang (mely a svédben és a perzsában is megvan) nehézséget okozhat a nyelvtanulóknak .
+[szerkesztés]
+
+Alaktan
+
+Az agglutináló jelleg toldalékok halmozását is lehetõvé teszi (a finnugor, perzsa, baszk, sumér és a török nyelvekhez hasonlóan). Szintén jellemzõ a többféle alakváltozat mind a szótövek, mind a toldalékok terén, a gazdag esetrendszer és az irányhármasság (honnan? hol? hová?) a helyhatározók használatában. Kevés az igeidõ (a mondá, mondja vala, mondta vala, mondtam légyen alakok gyakorlatilag kihaltak, a Székelyföldön viszont ma is aktívan használják a mondta volt formát), és hiányzik a habeo ige ("én birtoklok valamit" helyett "nekem van valamim"). A magyar nyelv megkülönbözteti a határozatlan ("alanyi") és a határozott ("tárgyas") ragozást: olvasok, olvasom, a fõnévi igenév pedig ragozható (látnom, látnod, látnia stb., amely egyébként a portugálban is megtalálható).
+[szerkesztés]
+
+Mondattan
+
+A magyarban puszta névszó is állhat állítmányként (az oroszhoz hasonlóan), a jelen idejû, egyes és többes szám 3. személyben (pl. Pista tanár O, elmarad a 'van'). Szórendi szempontból a magyar az SOV nyelvek közé sorolható (alany-tárgy-állítmány), bár a magyar mondat kitüntetett összetevõi valójában nem ezek, hanem a topik és a fókusz (vagy téma és réma; az ismertnek tekintett információ, amirõl állítást teszünk, és az újonnan említett, hangsúlyos információ, ami az állítás magvát alkotja). A magyar nyelv újabb kutatásai elsõként mutattak rá az utóbbi felbontás jelentõségére a nyelvek általános leírásában.
+
+    A magyar nyelv természettudományos módszerekkel való vizsgálata, azaz az elmúlt 25 év magyar generatív nyelvészete a magyart az emberi nyelvek olyan sajátságos típusaként állította elénk, mely fontos jellegzetességeiben különbözik a legismertebb indoeurópai nyelvektõl. A magyarban a szórendet a mondat elemeinek nem a mondatrészi szerepe, azaz alany, tárgy volta, hanem a logikai funkciója határozza meg. A magyar mondat ige elõtti nevezetes szerkezeti pozícióit a logikai mûveleteket kifejezõ mondatrészek foglalják el, köztük a mondat logikai alanyát megnevezõ topik, a disztributív kvantorok (például a minden elemet tartalmazó mondatrészek), valamint a kizárólagos azonosítást kifejezõ fókusz.
+
+        Forrás: É. Kiss Katalin: A nyelv formális rendszerének leírása
+
+[szerkesztés]
+
+Idézetek
+
+Ács Tivadar Akik elvándoroltak címû mûvében (1940) így ír az angol Sir John Bowring-ról [2]:
+
+    "Az angol követ híres nyelvtudós volt, s a magyar nyelvnek õszinte bámulója. Önönmagából következetesen és szilárdan alkotott beszédnek jellemezte, amelyben logika van, sõt matézis, az erõ, a hangzat minden hajlékonyságával és formázhatóságával. Szerinte az angol legyen büszke arra, hogy az õ nyelve az emberi történelem époszát tünteti fel. Ki lehet mutatni eredetét, kivehetõk, szétválaszthatók benne az idegen rétegek, melyek különbözõ népekkel való érintkezés idején rávakolódtak. A magyar nyelv egyetlen darabból álló terméskõ, melyen az idõk viharai karcolást sem ejthettek. Nem az idõk változásától függõ kalendárium. Nem szorul senkire, nem kölcsönöz, nem trafikál, nem ád, nem vesz senkitõl. Nyelvünk nemzeti önállóságunknak, szellemi függetlenségünknek legrégibb, legfényesebb élõ emléke. Amit a tudósok nem tudnak megmagyarázni, azt mellõzik. Ez a nyelvészetben is így van, ép úgy az archeológiában. Az egyiptomi régi templomok egyetlen kõbõl készült padlatait sem tudják megmagyarázni. Honnan, melyik hegységbõl vágták ki e csodálatos tömeget, miként szállították le, vagy emelték fel egy templom tetejéig? A mi nyelvünk eredetisége ennél csodálatosabb tünemény. Aki megfejti, az isteni titkot fogja boncolni, annak is az elsõ tételét: >Kezdetben vala az Ige s az Ige vala az Isten s az Isten vala az Ige<."
+
+[szerkesztés]
+
+Lásd még
+
+    * A magyar nyelv eredete
+    * A finnugor elmélet kritikája
+    * A magyar nyelv rokonsága más nyelvekkel
+    * Árvíztûrõ tükörfúrógép
+    * Magyar nyelvû forrásszövegek a Wikisource-ban
+    * Magyar szókincs
+
+[szerkesztés]
+
+Külsõ hivatkozások
+
+    * A magyar nyelv fóruma
+    * A magyar nyelv (Australian Hungarian Community Web Site)
+    * Nehéz-e a magyar nyelv? (Oswald Gschnitzer, Heidelberg, Élet és Tudomány, 2000/12.)
+    * A magyar nyelv 20. sz.-i változásai (Pusztai Ferenc)
+
+[szerkesztés]
+
+Nyelvtan
+
+    * Magyar nyelvtani táblázatok
+
+[szerkesztés]
+
+Nyelvmûvelés (pro és kontra)
+
+    * A magyar nyelvmûvelés állapota - Balázs Géza írása a Magyar Nyelvõrben
+    * A nyelvmûvelés kártékonyságáról és ármánykodásáról
+    * Egy emberközpontú nyelvmûveló - Margócsy József írása Lõrincze Lajosról és a nyelvmûvelésrõl
+    * Modern Talking - Nádasdy Ádám cikkeinek gyûjteménye a Magyar Narancs sorozatából
+
+    * szaknyelvi igényesség
+
+[szerkesztés]
+
+Származás
+
+    * Marácz László cikke a finnugor elméletrõl
+    * Lange Irén: A magyar nyelv sajátosságai hagyománytörõ lingvisztikai szemszögbõl
+
+[szerkesztés]
+
+Egyéb
+
+    * Illyés Gyula: Ki a magyar?
+    * Küszöbszint a magyar mint idegen nyelven (Mûegyetemi Távoktatási és Felnõttképzési Központ)
+    * Debreceni Nyári Egyetem, a magyarnyelv-oktatás egyik specialistája
+    * Magyaróra: Új utak a magyar nyelvhez
+    * Magyarok a Kárpát-medencében
+    * Pusztai Ferenc cikke az általa szerkesztett, átdolgozott Magyar értelmezõ kéziszótárról (PDF)
+    * Magyar Nemzeti Szövegtár (az MTA 153,7 millió szövegszót tartalmazó adatbázisa többféle kortárs szövegbõl; ingyenes regisztrációval böngészhetõ)
+    * Dr. Végvári József: Anyanyelvemrõl, huszonegy tételben. A magyar nyelv és a hivatalos nyelvészet a szerves mûveltség szempontjából
+
+[szerkesztés]
+
+Külsõ hivatkozások angolul
+
+    * Hungarian language (Ethnologue.com)
+    * Numerals of some Uralic languages
+    * Uralic page
+    * Hungarian Profile
+    * A Hungarian Language Course by Aaron Rubin
+    * Study Hungarian! (AFS.com)
+    * Hungarian Lessons (Hungarotips.com)
+    * Hungarian Phrase Guides
+
+[szerkesztés]
+
+További irodalom
+
+    * É. Kiss Katalin - Kiefer Ferenc - Siptár Péter: Új magyar nyelvtan (Osiris Kiadó, Budapest, 2003)
+    * Keresztes László: Gyakorlati magyar nyelvtan (Debreceni Nyári Egyetem, 1995, Hungarolingua sorozat)
+    * Végvári József: "És mégsem mozog ..." - tanulmányok anyanyelvrõl, hitrõl, tudománytörténetrõl és nevelésrõl, világképrõl, szerves mûveltség és hivatalos tudomány viszonyáról. Fõnix Könyvmûhely, 2005. ISBN 963-7051-05-8 .
+
+A lap eredeti címe "http://hu.wikipedia.org/wiki/Magyar_nyelv"
+
+Lapkategóriák: Lektorálandó lapok | Vitatott semlegesség | Magyar nyelv
diff --git a/mcs/class/I18N/West/Test/texts/hungarian-utf8.txt b/mcs/class/I18N/West/Test/texts/hungarian-utf8.txt
new file mode 100644 (file)
index 0000000..f6bb40f
--- /dev/null
@@ -0,0 +1,179 @@
+It is copied from Wikipedia, http://hu.wikipedia.org/wiki/Magyar_nyelv
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Besorolás
+
+A magyar nyelv besorolása nyelvészeti körökben nem képezi vita tárgyát: az uráli nyelvcsalád tagja, ezen belül a finnugor nyelvek közé tartozik.
+[szerkesztés]
+
+Földrajzi eloszlás
+
+A magyart Magyarországon kívül többek között a környező Kárpát-medencei országokban beszélik: (Ausztria, Szlovákia, Ukrajna, Románia (főként Erdélyben), Szerbia és Montenegró (a Vajdaságban), Horvátország, Szlovénia).
+[szerkesztés]
+
+Beszélők száma
+
+Beszélőinek száma kb. 14,5 millió (ezzel az uráli nyelvcsalád legnépesebb tagja), közülük kb. 10 millióan élnek Magyarországon. A magyar nyelv Magyarország hivatalos nyelve és az Európai Unió hivatalos nyelveinek egyike. Hivatalos nyelv a szlovén mellett Szlovénia három járásában (Dobrónak, Hodos és Lendva), valamint a Vajdaságban. - Az Európai Unióban anyanyelvileg, vagyis etnikai magyarként kb. 12 millió magyar él. 13 millióan beszélik az Európai Unióban a magyar nyelvet első vagy második nyelvként. A magyar nyelvet a nyelvek sorában a 66. helyre tesszük az anyanyelvileg beszélők száma szerint.
+
+A Földön 30 millió magyar származású ember él, nagyobb részük a nyelvet nem beszéli. A beolvadás (asszimiláció) szempontjából több szempontból is beoszhatjuk őket: a beolvadás az angol, spanyol, szlovák, román, szerb-horvát nyelvekbe valamint a magyarab, berber és arab nyelvekbe történt, de a német, cseh és más nyelvterületek is jelentős számú magyart olvasztottak magukba.
+[szerkesztés]
+
+Írás
+
+A magyar nyelv a latin írást használja, kiegészítve annak ábécéjét néhány speciális magyar betűvel.
+
+A latin írásjegyek előtt a nyelvet rovásírással írták. A magyar rovásírás néhány kutató szerint az i. e. 5. században már létezett és használt írás volt, ennek eldöntéséhez a jelenlegi adatok valójában nem elégségesek. Szent István király korában a kereszténységre való áttéréskor bevezették a ma használt latin betűs írásunk ősét (néhány írásjel eltért a ma használatostól). Ekkor az ország hivatalos nyelve a latin nyelv lett. A magyar nyelv 1844 óta Magyarország hivatalos nyelve.
+[szerkesztés]
+
+Nyelvjárások
+
+Nyolc fő nyelvjárást tartanak számon:
+
+    * tiszai (más néven: alföldi),
+    * dunántúli,
+    * déli (más néven: Duna-Tisza-közi),
+    * északkeleti,
+    * palóc (más néven: északnyugati),
+    * mezőségi (más néven: Királyhágón túli),
+    * nyugati,
+    * székely,
+    * csángó.
+
+(A mai hivatalos nyelv az északkeleti nyelvjárásból fejlődött ki.)
+[szerkesztés]
+
+Származás
+
+A nyelvrokonság témája századok óta vitatott téma: a finnugor eredet mellett a türk (turáni) és a sumér eredet, továbbá az ősnyelv elmélete is felmerült. Jelenlegi ismereteink és a bevett kutatási módszerek alapján az uralkodó nyelvtudományi irányzat csak a finnugor rokonságot fogadja el. Nádasdy Ádám szerint:
+
+    "A hangváltozások és a nyelvtani szerkezet öröklött volta más nyelvcsoporttal való rokonítást jelen tudásunk szerint nem tesz lehetővé. Azaz: túl jól működik a finnugor rokonítás, és túl rosszul bármi más." [1]
+
+A finnugor nyelvi kapcsolat egyrészt az alapszókincs összevetésével, másrészt a rendszeres hangmegfelelésekkel (pl. a magyar f hangnak más finnugor nyelvekben rendszeresen p felel meg, a magyar h-nak k stb.), harmadrészt a nyelvi rendszer hasonlóságával (agglutináció, nyelvtani nemek hiánya stb.) igazolható. Egy átlagos mai magyar szöveg elemzése során a finnugor, azaz magyar szavak arányát kb. 90%-nak találjuk, ami nem kis részben az egyes tövekből eredő gazdag szóbokroknak köszönhető (gyökök.) A nyelv mai jellegét természetesen egyéb nyelvek is jelentősen befolyásolták.
+
+A nyelvrokonság - egyéb társadalmi tényezők folytán - nem mindig van közvetlen összefüggésben a népek vér szerinti rokonságával, tehát a népességgenetikai kutatások csak támpontként szolgálhatnak a nyelvészeti kutatásokhoz. (Erről bővebben lásd: Czeizel Endre: A magyarság genetikája. Galenus, 2003.)
+[szerkesztés]
+
+Történet, kialakulás
+
+    Korszakairól lásd: Nyelvtörténeti korszakok a magyarban
+
+Önálló fejlődése az ősmagyar korban indult meg, majd az ómagyar korban jelentek meg írott szórványok, szövegemlékek (első szövegemlék a tihanyi apátság alapítólevelében található, az első összefüggő szövegek pedig a Halotti beszéd és az Ómagyar Mária-siralom). A középmagyar kor jelzi az első magyar nyomtatványok megjelenését és a magyar költészet kezdeteit (Tinódi, Balassi) - ez a korszak már nem különbözik lényegesen a mai nyelvtől. Az újmagyar korban alakul ki az egységes nemzeti nyelv és a modern irodalmi nyelv, a 18-19. századi írók, költők, valamint a nyelvújítás révén (Kazinczy Ferenc vezetésével).
+[szerkesztés]
+
+Szókincs
+
+A magyar nyelv szókincse a szótöveket tekintve kb. 21%-ban finnugor eredetű (A nyelv és a nyelvek, ISBN 963-05-7959-6, 134. o.), szóelőfordulás szerint azonban 80-90%-os arányt kapunk. Emellett számos iráni, türk, szláv, latin, német, francia, olasz és angol eredetű szó található nyelvünkben. A magyar nyelv szavainak száma az önálló jelentésű összetett szavakat is beleértve kb. 240 000-re tehető.
+
+Részletesen lásd: Magyar szókincs
+[szerkesztés]
+
+Jellemzők, sajátosságok
+[szerkesztés]
+
+Hangtan
+
+Jellemző rá az első szótagra eső hangsúly (ebben a finnugor és a szlovák nyelvekre hasonlít), a magánhangzó-harmónia (barnulásotokról - zöldülésetekről), valamint a magánhangzó-hosszúság és a hangsúly egymástól független volta (amely szinte egyedüliként lehetővé teszi az antik időmértékes verselés alkalmazását). Hangrendszerére ezenkívül a lágy mássalhangzók (ny, ty, gy), az aspirálatlan zárhangok (h nélkül ejtett p, t, k, szemben a germán nyelvekkel) és a palatális magánhangzók előtti kemény mássalhangzók jelenléte jellemző (azaz lehetséges ne, ti stb. hangkapcsolat, nye, tyi helyett; szemben például az orosszal). Nincsenek benne valódi diftongusok (mint például a finnben vagy németben) és redukált magánhangzók (mint például az angolban, németben). A speciális magyar a hang (mely a svédben és a perzsában is megvan) nehézséget okozhat a nyelvtanulóknak .
+[szerkesztés]
+
+Alaktan
+
+Az agglutináló jelleg toldalékok halmozását is lehetővé teszi (a finnugor, perzsa, baszk, sumér és a török nyelvekhez hasonlóan). Szintén jellemző a többféle alakváltozat mind a szótövek, mind a toldalékok terén, a gazdag esetrendszer és az irányhármasság (honnan? hol? hová?) a helyhatározók használatában. Kevés az igeidő (a mondá, mondja vala, mondta vala, mondtam légyen alakok gyakorlatilag kihaltak, a Székelyföldön viszont ma is aktívan használják a mondta volt formát), és hiányzik a habeo ige ("én birtoklok valamit" helyett "nekem van valamim"). A magyar nyelv megkülönbözteti a határozatlan ("alanyi") és a határozott ("tárgyas") ragozást: olvasok, olvasom, a főnévi igenév pedig ragozható (látnom, látnod, látnia stb., amely egyébként a portugálban is megtalálható).
+[szerkesztés]
+
+Mondattan
+
+A magyarban puszta névszó is állhat állítmányként (az oroszhoz hasonlóan), a jelen idejű, egyes és többes szám 3. személyben (pl. Pista tanár O, elmarad a 'van'). Szórendi szempontból a magyar az SOV nyelvek közé sorolható (alany-tárgy-állítmány), bár a magyar mondat kitüntetett összetevői valójában nem ezek, hanem a topik és a fókusz (vagy téma és réma; az ismertnek tekintett információ, amiről állítást teszünk, és az újonnan említett, hangsúlyos információ, ami az állítás magvát alkotja). A magyar nyelv újabb kutatásai elsőként mutattak rá az utóbbi felbontás jelentőségére a nyelvek általános leírásában.
+
+    A magyar nyelv természettudományos módszerekkel való vizsgálata, azaz az elmúlt 25 év magyar generatív nyelvészete a magyart az emberi nyelvek olyan sajátságos típusaként állította elénk, mely fontos jellegzetességeiben különbözik a legismertebb indoeurópai nyelvektől. A magyarban a szórendet a mondat elemeinek nem a mondatrészi szerepe, azaz alany, tárgy volta, hanem a logikai funkciója határozza meg. A magyar mondat ige előtti nevezetes szerkezeti pozícióit a logikai műveleteket kifejező mondatrészek foglalják el, köztük a mondat logikai alanyát megnevező topik, a disztributív kvantorok (például a minden elemet tartalmazó mondatrészek), valamint a kizárólagos azonosítást kifejező fókusz.
+
+        Forrás: É. Kiss Katalin: A nyelv formális rendszerének leírása
+
+[szerkesztés]
+
+Idézetek
+
+Ács Tivadar Akik elvándoroltak című művében (1940) így ír az angol Sir John Bowring-ról [2]:
+
+    "Az angol követ híres nyelvtudós volt, s a magyar nyelvnek őszinte bámulója. Önönmagából következetesen és szilárdan alkotott beszédnek jellemezte, amelyben logika van, sőt matézis, az erő, a hangzat minden hajlékonyságával és formázhatóságával. Szerinte az angol legyen büszke arra, hogy az ő nyelve az emberi történelem époszát tünteti fel. Ki lehet mutatni eredetét, kivehetők, szétválaszthatók benne az idegen rétegek, melyek különböző népekkel való érintkezés idején rávakolódtak. A magyar nyelv egyetlen darabból álló terméskő, melyen az idők viharai karcolást sem ejthettek. Nem az idők változásától függő kalendárium. Nem szorul senkire, nem kölcsönöz, nem trafikál, nem ád, nem vesz senkitől. Nyelvünk nemzeti önállóságunknak, szellemi függetlenségünknek legrégibb, legfényesebb élő emléke. Amit a tudósok nem tudnak megmagyarázni, azt mellőzik. Ez a nyelvészetben is így van, ép úgy az archeológiában. Az egyiptomi régi templomok egyetlen kőből készült padlatait sem tudják megmagyarázni. Honnan, melyik hegységből vágták ki e csodálatos tömeget, miként szállították le, vagy emelték fel egy templom tetejéig? A mi nyelvünk eredetisége ennél csodálatosabb tünemény. Aki megfejti, az isteni titkot fogja boncolni, annak is az első tételét: >Kezdetben vala az Ige s az Ige vala az Isten s az Isten vala az Ige<."
+
+[szerkesztés]
+
+Lásd még
+
+    * A magyar nyelv eredete
+    * A finnugor elmélet kritikája
+    * A magyar nyelv rokonsága más nyelvekkel
+    * Árvíztűrő tükörfúrógép
+    * Magyar nyelvű forrásszövegek a Wikisource-ban
+    * Magyar szókincs
+
+[szerkesztés]
+
+Külső hivatkozások
+
+    * A magyar nyelv fóruma
+    * A magyar nyelv (Australian Hungarian Community Web Site)
+    * Nehéz-e a magyar nyelv? (Oswald Gschnitzer, Heidelberg, Élet és Tudomány, 2000/12.)
+    * A magyar nyelv 20. sz.-i változásai (Pusztai Ferenc)
+
+[szerkesztés]
+
+Nyelvtan
+
+    * Magyar nyelvtani táblázatok
+
+[szerkesztés]
+
+Nyelvművelés (pro és kontra)
+
+    * A magyar nyelvművelés állapota - Balázs Géza írása a Magyar Nyelvőrben
+    * A nyelvművelés kártékonyságáról és ármánykodásáról
+    * Egy emberközpontú nyelvműveló - Margócsy József írása Lőrincze Lajosról és a nyelvművelésről
+    * Modern Talking - Nádasdy Ádám cikkeinek gyűjteménye a Magyar Narancs sorozatából
+
+    * szaknyelvi igényesség
+
+[szerkesztés]
+
+Származás
+
+    * Marácz László cikke a finnugor elméletről
+    * Lange Irén: A magyar nyelv sajátosságai hagyománytörő lingvisztikai szemszögből
+
+[szerkesztés]
+
+Egyéb
+
+    * Illyés Gyula: Ki a magyar?
+    * Küszöbszint a magyar mint idegen nyelven (Műegyetemi Távoktatási és Felnőttképzési Központ)
+    * Debreceni Nyári Egyetem, a magyarnyelv-oktatás egyik specialistája
+    * Magyaróra: Új utak a magyar nyelvhez
+    * Magyarok a Kárpát-medencében
+    * Pusztai Ferenc cikke az általa szerkesztett, átdolgozott Magyar értelmező kéziszótárról (PDF)
+    * Magyar Nemzeti Szövegtár (az MTA 153,7 millió szövegszót tartalmazó adatbázisa többféle kortárs szövegből; ingyenes regisztrációval böngészhető)
+    * Dr. Végvári József: Anyanyelvemről, huszonegy tételben. A magyar nyelv és a hivatalos nyelvészet a szerves műveltség szempontjából
+
+[szerkesztés]
+
+Külső hivatkozások angolul
+
+    * Hungarian language (Ethnologue.com)
+    * Numerals of some Uralic languages
+    * Uralic page
+    * Hungarian Profile
+    * A Hungarian Language Course by Aaron Rubin
+    * Study Hungarian! (AFS.com)
+    * Hungarian Lessons (Hungarotips.com)
+    * Hungarian Phrase Guides
+
+[szerkesztés]
+
+További irodalom
+
+    * É. Kiss Katalin - Kiefer Ferenc - Siptár Péter: Új magyar nyelvtan (Osiris Kiadó, Budapest, 2003)
+    * Keresztes László: Gyakorlati magyar nyelvtan (Debreceni Nyári Egyetem, 1995, Hungarolingua sorozat)
+    * Végvári József: "És mégsem mozog ..." - tanulmányok anyanyelvről, hitről, tudománytörténetről és nevelésről, világképről, szerves műveltség és hivatalos tudomány viszonyáról. Főnix Könyvműhely, 2005. ISBN 963-7051-05-8 .
+
+A lap eredeti címe "http://hu.wikipedia.org/wiki/Magyar_nyelv"
+
+Lapkategóriák: Lektorálandó lapok | Vitatott semlegesség | Magyar nyelv
diff --git a/mcs/class/I18N/West/Test/texts/icelandic-10079.txt b/mcs/class/I18N/West/Test/texts/icelandic-10079.txt
new file mode 100644 (file)
index 0000000..da71353
--- /dev/null
@@ -0,0 +1,172 @@
+This text is copied from Wikipedia, http://is.wikipedia.org/wiki/%C3%8Dslenska
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+êslenska
+Af Wikipedia, frj\87lsa alfr¾Ýiritinu
+Jump to: navigation, search
+êslenska (êslenska)
+TalaÝ hvar:    êslandi
+Heimshluti:    NorÝur Evr\97pu
+Fj\9aldi m\87lhafa:        um 300.000
+S¾ti:  
+®tt:   Ind\97evr\97psk
+ Germ\9ansk
+  NorÝurgerm\9ansk
+   Vesturnorr¾nt
+    êslenska
+Opinber staÝa
+Opinbert tungum\87l:     
+Stàrt af:      êslensk m\87lst\9aÝ
+Tungum\87lak\97Ýar
+ISO 639-1:     is
+ISO 639-2:     ice og isl
+SIL:   ICE
+Tungum\87l Ð Listi yfir tungum\87l
+
+êslenska er tungum\87l meÝ fj\97rum f\9allum (nefnifalli, ßolfalli, ß\87gufalli og eignarfalli) sem aÝallega er talaÝ og ritaÝ \87 êslandi. ÞaÝ er ind\97-evr\97pskt, germanskt og vesturnorr¾nt. Af \9aÝrum m\87lum er f¾reyska skyldust \92slensku.
+Efnisyfirlit
+[fela]
+
+    * 1 Saga \92slensku
+    * 2 Breytingar
+    * 3 M\87lfr¾Ýi
+    * 4 M\87llàskur
+    * 5 êslenska utan êslands
+    * 6 Merk rit, rituÝ \87 \92slensku
+    * 7 Heimildir
+    * 8 Tengt efni
+    * 9 Tenglar
+          o 9.1 OrÝab¾kur
+                + 9.1.1 êÝorÝ
+
+[breyta]
+
+Saga \92slensku
+
+êslenska \87 r¾tur aÝ rekja til m\87ls norskra landn\87msmanna \87 9. \9ald. ç ßeim t\92ma sem hefur liÝiÝ hafa orÝiÝ talsverÝar breytingar \87 tungum\87linu, einkum \87 orÝaforÝa og framburÝi, en l\92tt \87 m\87lfr¾Ýi, eins og kemur fram aÝ neÝan. Breytingar ßessar, einkum \87 orÝaforÝa, m\87 rekja til breyttra lifnaÝarh\87tta, breytinga \87 samf\8elaginu, nàrrar t¾kni og ßekkingar, sem og \87hrifa annara tungum\87la \87 \92slensku, einkum ensku og d\9ansku. Til h¾gÝarauka er s\9agu \92slenskunnar skipt \92 ßrj\9c skeiÝ: fornm\87l til um 1350, miÝm\87l fr\87 1350 til um 1550 (eÝa 1600) og nàm\87l fr\87 lokum miÝm\87ls.
+[breyta]
+
+Breytingar
+
+êslenskt ritm\87l hefur l\92tiÝ breyst s\92Ýan \87 landn\87ms\9ald meÝ ßeim afleiÝingum aÝ êslendingar geta enn \92 dag - meÝ herkjum og skrekkjum - lesiÝ forn rit \87 borÝ viÝ Landn\87mu, Snorra-Eddu og êslendingas\9agurnar. Samr¾md stafsetning auÝveldar lesturinn ß\97 talsvert, auk ßess sem orÝaforÝi ßessara rita er heldur takmarkaÝur. Meiri breytingar hafa orÝiÝ \87 framburÝi, svo miklar aÝ êslendingur 20. aldar myndi tr\9clega ekki skilja êslending 13. aldar, g¾tu ßeir talaÝ saman.
+
+Helstu breytingar \87 m\87linu n\87 ßv\92 til orÝaforÝa og framburÝar, en minni breytingar hafa orÝiÝ \87 m\87lfr¾Ýi. (Sj\87 n\87nar \92 s\9agu \92slenskunnar.)
+
+ msar \87st¾Ýur eru fyrir ßv\92 hversu vel m\87liÝ hefur varÝveist. HefÝbundna skàringin er auÝvitaÝ einangrun landsins, en l\92klega hefur fullmikiÝ veriÝ gert \9cr ßv\92 og er s\9c skàring ein t¾past fulln¾gjandi. \85nnur \87st¾Ýa sem oft er nefnd er s\9c aÝ m\87liÝ hafi varÝveist \92 skinnhandritunum, hvort sem var um afßreyingarb\97kmenntir aÝ r¾Ýa eÝa fr¾Ýi. Handritin hafi veriÝ lesin og innihald ßeirra flutt fyrir ß\87 sem ekki voru l¾sir, ßannig hafi m\87l ßeirra varÝveist og orÝaforÝi handritanna haldist \92 m\87linu. Ennfremur hafi l¾rÝir êslendingar skrifaÝ aÝ miklu leyti \87 m\97Ýurm\87linu, allt fr\87 ßv\92 aÝ Ari fr\97Ýi og Fyrsti m\87lfr¾Ýingurinn skr\87Ýu s\92n rit, ßess vegna hafi lat\92nu\87hrif orÝiÝ minni en v\92Ýa annars staÝar. Kirkjunnar menn \87 êslandi voru l\92ka flj\97tir aÝ tileinka s\8er aÝferÝir Marteins L\9cthers og Bibl\92an var snemma ßàdd \87 \92slensku. Bibl\92ur og \9annur tr\9carrit voru ßv\92 snemma til \87 \92slensku \87 helstu fr¾Ýasetrum landsins og prestar boÝuÝu GuÝs orÝ \87 \92slensku. Þessa kenningu m\87 helst styÝja meÝ ßv\92 aÝ bera okkur saman viÝ ßj\97Ýir sem ekki \87ttu Bibl\92\87 eigin tungu, t.d. NorÝmenn, en ßeir notuÝust viÝ danska Bibl\92u. Orsakir ßeirrar ßr\97unar sem varÝ \87 \92slensku verÝa seint \9ctskàrÝar til hl\92tar, en ßeir ß¾ttir sem nefndir eru h\8er aÝ ofan hafa allir haft einhver \87hrif.
+
+Margir êslendingar telja \92slenskuna vera ãupprunalegraÒ m\87l en flest \9annur, og aÝ h\9cn hafi breyst minna. ÞaÝ er ekki alls kostar r\8ett, og m\87 \92 ßv\92 sambandi nefna aÝ \92slenskan hefur einungis fj\9agur f\9all af \87tta \9cr ind\97evr\97pska frumm\87linu, \87 meÝan flest slavnesk m\87l hafa sex f\9all, og p\97lska sj\9a. Þàska hefur einnig fj\9agur f\9all eins og \92slenska, og varÝveitt eru rit \87 fornh\87ßàsku sem eru mun eldri en \92slensku handritin, eÝa fr\87 \87ttundu \9ald. ê Grikklandi er enn t\9aluÝ gr\92ska, r\8ett eins og fyrir ßrj\9c ß\9csund \87rum og svo m\87 lengi telja. \85ll ßessi m\87l eiga ßaÝ ß\97 sameiginlegt aÝ hafa breyst aÝ einhverju leyti, og er \92slenskan ßar engin undantekning. *[1]
+[breyta]
+
+M\87lfr¾Ýi
+
+
+OrÝflokkar \92 \92slensku OrÝflokkur       D¾mi    Hlutverk
+NafnorÝ        St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       AÝ tilgreina einstaka hluti, eÝa flokka hluta, jafnt raunverulega sem \92myndaÝa.
+SagnorÝ        St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       AÝ gefa til kynna aÝgerÝ.
+LàsingarorÝ    St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       AÝ làsa einhverjum hlut n\87nar. Oftast notaÝ meÝ nafnorÝi.
+Forn\9afn        St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       Gefa til kynna meÝ almennum h¾tti um hvern eÝa hvaÝ setningin \87 viÝ.
+Greinir        St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       AÝ gera nafnorÝ \87kveÝin. Greinir getur veriÝ viÝskeyttur eÝa settur fyrir framan nafnorÝ sem s\8er orÝ.
+T\9aluorÝ        Sautj\87n st\97rir fuglar hoppa til hinna ßriggja merku manna sem standa \92 garÝinum. Þeir eru meÝ tvo poka af fr¾jum handa fuglunum.        Gefa til kynna fj\9alda eÝa magn.
+Sm\87orÝ
+Forsetningar   St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       Hafa \87hrif \87 merkingu fallorÝs \92 setningu.
+AtviksorÝ              
+Nafnh\87ttarmerki        St\97ri fuglinn er aÝ hoppa til hins merka manns sem stendur \92 garÝinum. Hann er aÝ gefa \9aÝrum fuglum fr¾.        Nafnh\87ttarmerkiÝ er orÝiÝ ãaÝÒ \87 undan sagnorÝi \92 nafnh¾tti. S\9agn \92 nafnh¾tti er \87n t\92Ýar og endar oftast \87 ãaÒ.
+Samtengingar   St\97ri fuglinn hoppar til hins merka manns sem stendur \92 garÝinum. Hann er meÝ fr¾ handa fuglinum.       Tengir saman setningar til aÝ mynda m\87lsgrein. Skiptist \92 aÝaltengingar og aukatengingar.
+Upphr\97panir            
+
+Ath: Þetta ßarfnast yfirferÝar.
+[breyta]
+
+M\87llàskur
+
+ mis sv¾Ýisbundin afbrigÝi mynduÝust \92 m\87linu, ßr\87tt fyrir hinar litlu breytingar, en deildar meiningar eru um hvort s\87 munur geti kallast m\87llàskumunur. HingaÝ til hefur yfirleitt veriÝ einbl\92nt \87 framburÝarmun ß\97 einnig hafi einhver munur veriÝ \87 orÝanotkun. M\87lhreinsunarm\9annum \87 fyrri hluta tuttugustu aldar ß\97ttu sumar framburÝarm\87llàskurnar lj\97tar og gengu hart fram \92 aÝ \9ctràma ßeim, s\8erstaklega fl\87m¾li. Sk\97larnir voru meÝal annars notaÝir \92 ßeim tilgangi.
+
+M\87llàskumunur hefur dofnaÝ talsvert \87 êslandi \87 tuttugustu \9ald og sumar framburÝarm\87llàskurnar eru n\87nast horfnar \9cr m\87linu.
+
+Helstu \92slensku framburÝarm\87llàskurnar eru (voru) Skaftfellskur einhlj\97ÝaframburÝur, Vestfirskur einhlj\97ÝaframburÝur, harÝm¾li og raddaÝur framburÝur, ngl-framburÝur, bÝ- og gÝ-framburÝur, hv-framburÝur og rn- og rl-framburÝur.
+[breyta]
+
+êslenska utan êslands
+
+êslenska er t\9aluÝ af \87hugam\9annum og f\97lki af \92slensku bergi brotiÝ v\92Ýsvegar um heim. Mest er af \92slenskum¾landi f\97lki \92 Kanada og Bandar\92kjunum, einna helst \92 Gimli \92 Manitoba, en ßangaÝ fluttist st\97r h\97pur êslendinga (kallaÝir Vesturfarar) viÝ lok 19. aldar. Svo er aÝ nefna ß\87 er leggja n\87\87 \92slensku erlendis, t.d. ß\87 sem l¾ra \92 gegnum \92slensku kennsluvef H\87sk\97la êslands [2], sem kallast Icelandic Online og sem erlendir aÝilar t\97ku ß\87tt \92, m.a. h\87sk\97li \92 Wisconsin \92 Bandar\92kjunum.
+[breyta]
+
+Merk rit, rituÝ \87 \92slensku
+
+    * (ritaÝar) um 1190Ð1320: êslendingas\9agurnar
+    * um 1140: Fyrsta m\87lfr¾ÝiritgerÝin
+    * 1952: Gerpla Halld\97rs Laxness (skrifuÝ \92 st\92\92slendingasagna)
+
+[breyta]
+
+Heimildir
+
+    * Gyldendals Tibinds Leksikon. 1977. AÝalritstj\97ri: J¿rgen Bang, cand. mag.. Gyldendalske Boghandel, Nordisk Forlag A.S. Kaupmannah\9afn.
+    * Heimir P\87lsson. 1999. Fr\87 l¾rd\97ms\9ald til rauns¾is - êslenskar b\97kmenntir 1550-1900. Vaka-Helgafell hf., Reykjav\92k.
+    * êslensk orÝab\97k. 1985. çrni B\9aÝvarsson ritstàrÝi. B\97ka\9ctg\87fa Menningarsj\97Ýs, Reykjav\92k.
+    * êslenska Alfr¾ÝiorÝab\97kin A-G. 1990. Ritstj\97rar: D\97ra Hafsteinsd\97ttir og Sigr\92Ýur HarÝard\97ttir. \85rn og \85rlygur hf., Reykjav\92k.
+    * êslenska Alfr¾ÝiorÝab\97kin H-O. 1990. Ritstj\97rar: D\97ra Hafsteinsd\97ttir og Sigr\92Ýur HarÝard\97ttir. \85rn og \85rlygur hf., Reykjav\92k.
+    * êslenska Alfr¾ÝiorÝab\97kin P-\85. 1990. Ritstj\97rar: D\97ra Hafsteinsd\97ttir og Sigr\92Ýur HarÝard\97ttir. \85rn og \85rlygur hf., Reykjav\92k.
+    * êvar Bj\9arnsson. [òtg\87fu\87\97ßekkt]. M\87lsaga fyrir framhaldssk\97la. 2. \9ctg\87fa. Offsetfj\9alritun hf., Reykjav\92k.
+
+[breyta]
+
+Tengt efni
+
+    * êslenska stafr\97fiÝ
+    * G¾salappir
+    * H\87fr\97nska
+
+[breyta]
+
+Tenglar
+Wiktionary merkiÝ
+OrÝab\97kaskilgreiningu fyrir êslenska er aÝ finna \87 Wiktionary.
+
+    * Ritreglur ê samr¾mi viÝ auglàsingar menntam\87lar\87Ýuneytis nr. 132/1974, 133/1974, 184/1974 og 261/1977
+    * Bragfr¾Ýi og H\87ttatal
+    * IÝunn - Kv¾Ýamannaf\8elag
+    * êslenskuskor H\87sk\97la êslands
+    * M\87lsh¾ttir (I)
+    * M\87lsh¾ttir (II)
+    * Merking mannanafna
+    * Nokkur erfiÝ atriÝi \9cr daglegu m\87li tekin fyrir
+    * êslenska - Þàskt t\92marit fyrir \92slenskunema
+    * êslensk M\87lst\9aÝ -  mislegt varÝandi \92slenska m\87lfr¾Ýi, orÝab¾kur o.fl.
+
+[breyta]
+
+OrÝab¾kur
+
+    * OrÝab\97k H\87sk\97lans
+    * OrÝabanki êslenskar M\87lst\9aÝvar
+          o Landaheiti og h\9afuÝstaÝaheiti
+    * Hugtakasafn ÞàÝingamiÝst\9aÝvar utanr\92kisr\87Ýuneytisins
+    * A Concise Dictionary of Old Icelandic (innsk\9annuÝ) eftir Geir T. Zo\91ga fr\87 \87rinu 1910.
+    * An Icelandic-English Dictionary (innsk\9annuÝ) eftir GuÝbrand Vigf\9csson og Richard Cleasby, gefin \9ct 1874.
+    * St\97r ensk-\92slenskur orÝalisti
+    * Annar st\97r ensk-\92slenskur orÝalisti (html \9ctg\87fa)
+    * Altnordisches W\9arterbuch
+
+[breyta]
+
+êÝorÝ
+
+    * Skr\87 êslenskrar m\87lst\9aÝvar yfir \92ÝorÝas\9afn
+    * OrÝasafn Hins \92slenska st¾rÝfr¾Ýif\8elags (leit)
+    * Tenglar KDE verkefnisins
+    * OrÝalisti LêSU
+    * OrÝasafn l¾knaritara
+    * OrÝasafn Lyfjastofnunar (yfirlit)
+    * Hugt\9a\92 l\92fr¾nni efnafr¾Ýi
+    * JarÝfr¾ÝiorÝ: [3] [4]
+    * T\9alvunarfr¾ÝiorÝ: [5]
+    * VeÝurfr¾ÝiorÝ (html \9ctg\87fa)
+    * Hugtakasafn ÞàÝingamiÝst\9aÝvar utanr\92kisr\87Ýuneytis
+    * êslenskir fuglar
+    * Hugt\9a\92 vatnafr¾Ýi og skyldum greinum
+    * Sj\87vardàraorÝab\97k Hafranns\97knarstofnunar êslands
+
+Af ãhttp://is.wikipedia.org/wiki/%C3%8DslenskaÒ
+
+Flokkar: êslenska | Norr¾n tungum\87l | Germ\9ansk tungum\87l
diff --git a/mcs/class/I18N/West/Test/texts/icelandic-utf8.txt b/mcs/class/I18N/West/Test/texts/icelandic-utf8.txt
new file mode 100644 (file)
index 0000000..705f2ad
--- /dev/null
@@ -0,0 +1,172 @@
+This text is copied from Wikipedia, http://is.wikipedia.org/wiki/%C3%8Dslenska
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Íslenska
+Af Wikipedia, frjálsa alfræðiritinu
+Jump to: navigation, search
+Íslenska (Íslenska)
+Talað hvar:   Íslandi
+Heimshluti:    Norður Evrópu
+Fjöldi málhafa:      um 300.000
+Sæti:         
+Ætt:  Indóevrópsk
+ Germönsk
+  Norðurgermönsk
+   Vesturnorrænt
+    Íslenska
+Opinber staða
+Opinbert tungumál:    
+Stýrt af:     Íslensk málstöð
+Tungumálakóðar
+ISO 639-1:     is
+ISO 639-2:     ice og isl
+SIL:   ICE
+Tungumál – Listi yfir tungumál
+
+Íslenska er tungumál með fjórum föllum (nefnifalli, þolfalli, þágufalli og eignarfalli) sem aðallega er talað og ritað á Íslandi. Það er indó-evrópskt, germanskt og vesturnorrænt. Af öðrum málum er færeyska skyldust íslensku.
+Efnisyfirlit
+[fela]
+
+    * 1 Saga íslensku
+    * 2 Breytingar
+    * 3 Málfræði
+    * 4 Mállýskur
+    * 5 Íslenska utan Íslands
+    * 6 Merk rit, rituð á íslensku
+    * 7 Heimildir
+    * 8 Tengt efni
+    * 9 Tenglar
+          o 9.1 Orðabækur
+                + 9.1.1 Íðorð
+
+[breyta]
+
+Saga íslensku
+
+Íslenska á rætur að rekja til máls norskra landnámsmanna á 9. öld. Á þeim tíma sem hefur liðið hafa orðið talsverðar breytingar á tungumálinu, einkum á orðaforða og framburði, en lítt á málfræði, eins og kemur fram að neðan. Breytingar þessar, einkum á orðaforða, má rekja til breyttra lifnaðarhátta, breytinga á samfélaginu, nýrrar tækni og þekkingar, sem og áhrifa annara tungumála á íslensku, einkum ensku og dönsku. Til hægðarauka er sögu íslenskunnar skipt í þrjú skeið: fornmál til um 1350, miðmál frá 1350 til um 1550 (eða 1600) og nýmál frá lokum miðmáls.
+[breyta]
+
+Breytingar
+
+Íslenskt ritmál hefur lítið breyst síðan á landnámsöld með þeim afleiðingum að Íslendingar geta enn í dag - með herkjum og skrekkjum - lesið forn rit á borð við Landnámu, Snorra-Eddu og Íslendingasögurnar. Samræmd stafsetning auðveldar lesturinn þó talsvert, auk þess sem orðaforði þessara rita er heldur takmarkaður. Meiri breytingar hafa orðið á framburði, svo miklar að Íslendingur 20. aldar myndi trúlega ekki skilja Íslending 13. aldar, gætu þeir talað saman.
+
+Helstu breytingar á málinu ná því til orðaforða og framburðar, en minni breytingar hafa orðið á málfræði. (Sjá nánar í sögu íslenskunnar.)
+
+Ýmsar ástæður eru fyrir því hversu vel málið hefur varðveist. Hefðbundna skýringin er auðvitað einangrun landsins, en líklega hefur fullmikið verið gert úr því og er sú skýring ein tæpast fullnægjandi. Önnur ástæða sem oft er nefnd er sú að málið hafi varðveist í skinnhandritunum, hvort sem var um afþreyingarbókmenntir að ræða eða fræði. Handritin hafi verið lesin og innihald þeirra flutt fyrir þá sem ekki voru læsir, þannig hafi mál þeirra varðveist og orðaforði handritanna haldist í málinu. Ennfremur hafi lærðir Íslendingar skrifað að miklu leyti á móðurmálinu, allt frá því að Ari fróði og Fyrsti málfræðingurinn skráðu sín rit, þess vegna hafi latínuáhrif orðið minni en víða annars staðar. Kirkjunnar menn á Íslandi voru líka fljótir að tileinka sér aðferðir Marteins Lúthers og Biblían var snemma þýdd á íslensku. Biblíur og önnur trúarrit voru því snemma til á íslensku á helstu fræðasetrum landsins og prestar boðuðu Guðs orð á íslensku. Þessa kenningu má helst styðja með því að bera okkur saman við þjóðir sem ekki áttu Biblíu á eigin tungu, t.d. Norðmenn, en þeir notuðust við danska Biblíu. Orsakir þeirrar þróunar sem varð á íslensku verða seint útskýrðar til hlítar, en þeir þættir sem nefndir eru hér að ofan hafa allir haft einhver áhrif.
+
+Margir Íslendingar telja íslenskuna vera „upprunalegra“ mál en flest önnur, og að hún hafi breyst minna. Það er ekki alls kostar rétt, og má í því sambandi nefna að íslenskan hefur einungis fjögur föll af átta úr indóevrópska frummálinu, á meðan flest slavnesk mál hafa sex föll, og pólska sjö. Þýska hefur einnig fjögur föll eins og íslenska, og varðveitt eru rit á fornháþýsku sem eru mun eldri en íslensku handritin, eða frá áttundu öld. Í Grikklandi er enn töluð gríska, rétt eins og fyrir þrjú þúsund árum og svo má lengi telja. Öll þessi mál eiga það þó sameiginlegt að hafa breyst að einhverju leyti, og er íslenskan þar engin undantekning. *[1]
+[breyta]
+
+Málfræði
+
+
+Orðflokkar í íslensku Orðflokkur   Dæmi   Hlutverk
+Nafnorð       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að tilgreina einstaka hluti, eða flokka hluta, jafnt raunverulega sem ímyndaða.
+Sagnorð       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að gefa til kynna aðgerð.
+Lýsingarorð  Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að lýsa einhverjum hlut nánar. Oftast notað með nafnorði.
+Fornöfn       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Gefa til kynna með almennum hætti um hvern eða hvað setningin á við.
+Greinir        Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að gera nafnorð ákveðin. Greinir getur verið viðskeyttur eða settur fyrir framan nafnorð sem sér orð.
+Töluorð      Sautján stórir fuglar hoppa til hinna þriggja merku manna sem standa í garðinum. Þeir eru með tvo poka af fræjum handa fuglunum.        Gefa til kynna fjölda eða magn.
+Smáorð
+Forsetningar   Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Hafa áhrif á merkingu fallorðs í setningu.
+Atviksorð             
+Nafnháttarmerki       Stóri fuglinn er að hoppa til hins merka manns sem stendur í garðinum. Hann er að gefa öðrum fuglum fræ.        Nafnháttarmerkið er orðið „að“ á undan sagnorði í nafnhætti. Sögn í nafnhætti er án tíðar og endar oftast á „a“.
+Samtengingar   Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Tengir saman setningar til að mynda málsgrein. Skiptist í aðaltengingar og aukatengingar.
+Upphrópanir           
+
+Ath: Þetta þarfnast yfirferðar.
+[breyta]
+
+Mállýskur
+
+Ýmis svæðisbundin afbrigði mynduðust í málinu, þrátt fyrir hinar litlu breytingar, en deildar meiningar eru um hvort sá munur geti kallast mállýskumunur. Hingað til hefur yfirleitt verið einblínt á framburðarmun þó einnig hafi einhver munur verið á orðanotkun. Málhreinsunarmönnum á fyrri hluta tuttugustu aldar þóttu sumar framburðarmállýskurnar ljótar og gengu hart fram í að útrýma þeim, sérstaklega flámæli. Skólarnir voru meðal annars notaðir í þeim tilgangi.
+
+Mállýskumunur hefur dofnað talsvert á Íslandi á tuttugustu öld og sumar framburðarmállýskurnar eru nánast horfnar úr málinu.
+
+Helstu íslensku framburðarmállýskurnar eru (voru) Skaftfellskur einhljóðaframburður, Vestfirskur einhljóðaframburður, harðmæli og raddaður framburður, ngl-framburður, bð- og gð-framburður, hv-framburður og rn- og rl-framburður.
+[breyta]
+
+Íslenska utan Íslands
+
+Íslenska er töluð af áhugamönnum og fólki af íslensku bergi brotið víðsvegar um heim. Mest er af íslenskumælandi fólki í Kanada og Bandaríkjunum, einna helst í Gimli í Manitoba, en þangað fluttist stór hópur Íslendinga (kallaðir Vesturfarar) við lok 19. aldar. Svo er að nefna þá er leggja nám á íslensku erlendis, t.d. þá sem læra í gegnum íslensku kennsluvef Háskóla Íslands [2], sem kallast Icelandic Online og sem erlendir aðilar tóku þátt í, m.a. háskóli í Wisconsin í Bandaríkjunum.
+[breyta]
+
+Merk rit, rituð á íslensku
+
+    * (ritaðar) um 1190–1320: Íslendingasögurnar
+    * um 1140: Fyrsta málfræðiritgerðin
+    * 1952: Gerpla Halldórs Laxness (skrifuð í stíl íslendingasagna)
+
+[breyta]
+
+Heimildir
+
+    * Gyldendals Tibinds Leksikon. 1977. Aðalritstjóri: Jørgen Bang, cand. mag.. Gyldendalske Boghandel, Nordisk Forlag A.S. Kaupmannahöfn.
+    * Heimir Pálsson. 1999. Frá lærdómsöld til raunsæis - Íslenskar bókmenntir 1550-1900. Vaka-Helgafell hf., Reykjavík.
+    * Íslensk orðabók. 1985. Árni Böðvarsson ritstýrði. Bókaútgáfa Menningarsjóðs, Reykjavík.
+    * Íslenska Alfræðiorðabókin A-G. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Íslenska Alfræðiorðabókin H-O. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Íslenska Alfræðiorðabókin P-Ö. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Ívar Björnsson. [Útgáfuár óþekkt]. Málsaga fyrir framhaldsskóla. 2. útgáfa. Offsetfjölritun hf., Reykjavík.
+
+[breyta]
+
+Tengt efni
+
+    * Íslenska stafrófið
+    * Gæsalappir
+    * Háfrónska
+
+[breyta]
+
+Tenglar
+Wiktionary merkið
+Orðabókaskilgreiningu fyrir Íslenska er að finna á Wiktionary.
+
+    * Ritreglur Í samræmi við auglýsingar menntamálaráðuneytis nr. 132/1974, 133/1974, 184/1974 og 261/1977
+    * Bragfræði og Háttatal
+    * Iðunn - Kvæðamannafélag
+    * Íslenskuskor Háskóla Íslands
+    * Málshættir (I)
+    * Málshættir (II)
+    * Merking mannanafna
+    * Nokkur erfið atriði úr daglegu máli tekin fyrir
+    * Íslenska - Þýskt tímarit fyrir íslenskunema
+    * Íslensk Málstöð - Ýmislegt varðandi íslenska málfræði, orðabækur o.fl.
+
+[breyta]
+
+Orðabækur
+
+    * Orðabók Háskólans
+    * Orðabanki Íslenskar Málstöðvar
+          o Landaheiti og höfuðstaðaheiti
+    * Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytisins
+    * A Concise Dictionary of Old Icelandic (innskönnuð) eftir Geir T. Zoëga frá árinu 1910.
+    * An Icelandic-English Dictionary (innskönnuð) eftir Guðbrand Vigfússon og Richard Cleasby, gefin út 1874.
+    * Stór ensk-íslenskur orðalisti
+    * Annar stór ensk-íslenskur orðalisti (html útgáfa)
+    * Altnordisches Wörterbuch
+
+[breyta]
+
+Íðorð
+
+    * Skrá Íslenskrar málstöðvar yfir íðorðasöfn
+    * Orðasafn Hins íslenska stærðfræðifélags (leit)
+    * Tenglar KDE verkefnisins
+    * Orðalisti LÍSU
+    * Orðasafn læknaritara
+    * Orðasafn Lyfjastofnunar (yfirlit)
+    * Hugtök í lífrænni efnafræði
+    * Jarðfræðiorð: [3] [4]
+    * Tölvunarfræðiorð: [5]
+    * Veðurfræðiorð (html útgáfa)
+    * Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytis
+    * Íslenskir fuglar
+    * Hugtök í vatnafræði og skyldum greinum
+    * Sjávardýraorðabók Hafrannsóknarstofnunar Íslands
+
+Af „http://is.wikipedia.org/wiki/%C3%8Dslenska“
+
+Flokkar: Íslenska | Norræn tungumál | Germönsk tungumál
diff --git a/mcs/class/I18N/West/Test/texts/icelandic2-861.txt b/mcs/class/I18N/West/Test/texts/icelandic2-861.txt
new file mode 100644 (file)
index 0000000..5a012af
--- /dev/null
@@ -0,0 +1,173 @@
+This text is copied from Wikipedia, http://is.wikipedia.org/wiki/%C3%8Dslenska
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+replaced some characters (" and -)
+
+¥slenska
+Af Wikipedia, frj lsa alfr\91\8ciritinu
+Jump to: navigation, search
+¥slenska (¥slenska)
+Tala\8c hvar:    ¥slandi
+Heimshluti:    Nor\8cur Evr¢pu
+Fj\94ldi m lhafa:        um 300.000
+S\91ti:  
+\92tt:   Ind¢evr¢psk
+ Germ\94nsk
+  Nor\8curgerm\94nsk
+   Vesturnorr\91nt
+    ¥slenska
+Opinber sta\8ca
+Opinbert tungum l:     
+St\98rt af:      ¥slensk m lst\94\8c
+Tungum lak¢\8car
+ISO 639-1:     is
+ISO 639-2:     ice og isl
+SIL:   ICE
+Tungum l - Listi yfir tungum l
+
+¥slenska er tungum l me\8c fj¢rum f\94llum (nefnifalli, \95olfalli, \95 gufalli og eignarfalli) sem a\8callega er tala\8c og rita\8c   ¥slandi. \8da\8c er ind¢-evr¢pskt, germanskt og vesturnorr\91nt. Af \94\8crum m lum er f\91reyska skyldust ¡slensku.
+Efnisyfirlit
+[fela]
+
+    * 1 Saga ¡slensku
+    * 2 Breytingar
+    * 3 M lfr\91\8ci
+    * 4 M ll\98skur
+    * 5 ¥slenska utan ¥slands
+    * 6 Merk rit, ritu\8c   ¡slensku
+    * 7 Heimildir
+    * 8 Tengt efni
+    * 9 Tenglar
+          o 9.1 Or\8cab\91kur
+                + 9.1.1 ¥\8cor\8c
+
+[breyta]
+
+Saga ¡slensku
+
+¥slenska   r\91tur a\8c rekja til m ls norskra landn msmanna   9. \94ld. ¤ \95eim t¡ma sem hefur li\8ci\8c hafa or\8ci\8c talsver\8car breytingar   tungum linu, einkum   or\8cafor\8ca og frambur\8ci, en l¡tt   m lfr\91\8ci, eins og kemur fram a\8c ne\8can. Breytingar \95essar, einkum   or\8cafor\8ca, m  rekja til breyttra lifna\8carh tta, breytinga   samf\82laginu, n\98rrar t\91kni og \95ekkingar, sem og  hrifa annara tungum la   ¡slensku, einkum ensku og d\94nsku. Til h\91g\8carauka er s\94gu ¡slenskunnar skipt ¡ \95rj£ skei\8c: fornm l til um 1350, mi\8cm l fr  1350 til um 1550 (e\8ca 1600) og n\98m l fr  lokum mi\8cm ls.
+[breyta]
+
+Breytingar
+
+¥slenskt ritm l hefur l¡ti\8c breyst s¡\8can   landn ms\94ld me\8c \95eim aflei\8cingum a\8c ¥slendingar geta enn ¡ dag - me\8c herkjum og skrekkjum - lesi\8c forn rit   bor\8c vi\8c Landn mu, Snorra-Eddu og ¥slendingas\94gurnar. Samr\91md stafsetning au\8cveldar lesturinn \95¢ talsvert, auk \95ess sem or\8cafor\8c\95essara rita er heldur takmarka\8cur. Meiri breytingar hafa or\8ci\8c   frambur\8ci, svo miklar a\8c ¥slendingur 20. aldar myndi tr£lega ekki skilja ¥slending 13. aldar, g\91tu \95eir tala\8c saman.
+
+Helstu breytingar   m linu n  \95v¡ til or\8cafor\8ca og frambur\8car, en minni breytingar hafa or\8ci\8c   m lfr\91\8ci. (Sj  n nar ¡ s\94gu ¡slenskunnar.)
+
+\97msar  st\91\8cur eru fyrir \95v¡ hversu vel m li\8c hefur var\8cveist. Hef\8cbundna sk\98ringin er au\8cvita\8c einangrun landsins, en l¡klega hefur fullmiki\8c veri\8c gert £r \95v¡ og er s£ sk\98ring ein t\91past fulln\91gjandi. \99nnur  st\91\8ca sem oft er nefnd er s£ a\8c m li\8c hafi var\8cveist ¡ skinnhandritunum, hvort sem var um af\95reyingarb¢kmenntir a\8c r\91\8ca e\8ca fr\91\8ci. Handritin hafi veri\8c lesin og innihald \95eirra flutt fyrir \95  sem ekki voru l\91sir, \95annig hafi m l \95eirra var\8cveist og or\8cafor\8ci handritanna haldist ¡ m linu. Ennfremur hafi l\91r\8cir ¥slendingar skrifa\8c a\8c miklu leyti   m¢\8curm linu, allt fr  \95v¡ a\8c Ari fr¢\8ci og Fyrsti m lfr\91\8cingurinn skr \8cu s¡n rit, \95ess vegna hafi lat¡nu hrif or\8ci\8c minni en v¡\8ca annars sta\8car. Kirkjunnar menn   ¥slandi voru l¡ka flj¢tir a\8c tileinka s\82r a\8cfer\8cir Marteins L£thers og Bibl¡an var snemma \95\98dd   ¡slensku. Bibl¡ur og \94nnur tr£arrit voru \95v¡ snemma til   ¡slensku   helstu fr\91\8casetrum landsins og prestar bo\8cu\8cu Gu\8cs or\8c   ¡slensku. \8dessa kenningu m  helst sty\8cja me\8c \95v¡ a\8c bera okkur saman vi\8c \95\8cir sem ekki  ttu Bibl¡u   eigin tungu, t.d. Nor\8cmenn, en \95eir notu\8cust vi\8c danska Bibl¡u. Orsakir \95eirrar \95r¢unar sem var\8c   ¡slensku ver\8ca seint £tsk\98r\8car til hl¡tar, en \95eir \95\91ttir sem nefndir eru h\82r a\8c ofan hafa allir haft einhver  hrif.
+
+Margir ¥slendingar telja ¡slenskuna vera "upprunalegra" m l en flest \94nnur, og a\8c h£n hafi breyst minna. \8da\8c er ekki alls kostar r\82tt, og m  ¡ \95v¡ sambandi nefna a\8c ¡slenskan hefur einungis fj\94gur f\94ll af  tta £r ind¢evr¢pska frumm linu,   me\8can flest slavnesk m l hafa sex f\94ll, og p¢lska sj\94\8d\98ska hefur einnig fj\94gur f\94ll eins og ¡slenska, og var\8cveitt eru rit   fornh \95\98sku sem eru mun eldri en ¡slensku handritin, e\8ca fr   ttundu \94ld. ¥ Grikklandi er enn t\94lu\8c gr¡ska, r\82tt eins og fyrir \95rj£ \95£sund  rum og svo m  lengi telja. \99ll \95essi m l eiga \95a\8c \95¢ sameiginlegt a\8c hafa breyst a\8c einhverju leyti, og er ¡slenskan \95ar engin undantekning. *[1]
+[breyta]
+
+M lfr\91\8ci
+
+
+Or\8cflokkar ¡ ¡slensku Or\8cflokkur       D\91mi    Hlutverk
+Nafnor\8c        St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       A\8c tilgreina einstaka hluti, e\8ca flokka hluta, jafnt raunverulega sem ¡mynda\8ca.
+Sagnor\8c        St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       A\8c gefa til kynna a\8cger\8c.
+L\98singaror\8c    St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       A\8c l\98sa einhverjum hlut n nar. Oftast nota\8c me\8c nafnor\8ci.
+Forn\94fn        St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       Gefa til kynna me\8c almennum h\91tti um hvern e\8ca hva\8c setningin   vi\8c.
+Greinir        St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       A\8c gera nafnor\8c  kve\8cin. Greinir getur veri\8c vi\8cskeyttur e\8ca settur fyrir framan nafnor\8c sem s\82r or\8c.
+T\94luor\8c        Sautj n st¢rir fuglar hoppa til hinna \95riggja merku manna sem standa ¡ gar\8cinum. \8deir eru me\8c tvo poka af fr\91jum handa fuglunum.        Gefa til kynna fj\94lda e\8ca magn.
+Sm or\8c
+Forsetningar   St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       Hafa  hrif   merkingu fallor\8cs ¡ setningu.
+Atviksor\8c              
+Nafnh ttarmerki        St¢ri fuglinn er a\8c hoppa til hins merka manns sem stendur ¡ gar\8cinum. Hann er a\8c gefa \94\8crum fuglum fr\91.        Nafnh ttarmerki\8c er or\8ci\8c "a\8c"   undan sagnor\8ci ¡ nafnh\91tti. S\94gn ¡ nafnh\91tti er  n t¡\8car og endar oftast   "a".
+Samtengingar   St¢ri fuglinn hoppar til hins merka manns sem stendur ¡ gar\8cinum. Hann er me\8c fr\91 handa fuglinum.       Tengir saman setningar til a\8c mynda m lsgrein. Skiptist ¡ a\8caltengingar og aukatengingar.
+Upphr¢panir            
+
+Ath: \8detta \95arfnast yfirfer\8car.
+[breyta]
+
+M ll\98skur
+
+\97mis sv\91\8cisbundin afbrig\8ci myndu\8cust ¡ m linu, \95r tt fyrir hinar litlu breytingar, en deildar meiningar eru um hvort s  munur geti kallast m ll\98skumunur. Hinga\8c til hefur yfirleitt veri\8c einbl¡nt   frambur\8carmun \95¢ einnig hafi einhver munur veri\8c   or\8canotkun. M lhreinsunarm\94nnum   fyrri hluta tuttugustu aldar \95¢ttu sumar frambur\8carm ll\98skurnar lj¢tar og gengu hart fram ¡ a\8c £tr\98ma \95eim, s\82rstaklega fl m\91li. Sk¢larnir voru me\8cal annars nota\8cir ¡ \95eim tilgangi.
+
+M ll\98skumunur hefur dofna\8c talsvert   ¥slandi   tuttugustu \94ld og sumar frambur\8carm ll\98skurnar eru n nast horfnar £r m linu.
+
+Helstu ¡slensku frambur\8carm ll\98skurnar eru (voru) Skaftfellskur einhlj¢\8caframbur\8cur, Vestfirskur einhlj¢\8caframbur\8cur, har\8cm\91li og radda\8cur frambur\8cur, ngl-frambur\8cur, b\8c- og g\8c-frambur\8cur, hv-frambur\8cur og rn- og rl-frambur\8cur.
+[breyta]
+
+¥slenska utan ¥slands
+
+¥slenska er t\94lu\8c af  hugam\94nnum og f¢lki af ¡slensku bergi broti\8c v¡\8csvegar um heim. Mest er af ¡slenskum\91landi f¢lki ¡ Kanada og Bandar¡kjunum, einna helst ¡ Gimli ¡ Manitoba, en \95anga\8c fluttist st¢r h¢pur ¥slendinga (kalla\8cir Vesturfarar) vi\8c lok 19. aldar. Svo er a\8c nefna \95  er leggja n m   ¡slensku erlendis, t.d. \95  sem l\91ra ¡ gegnum ¡slensku kennsluvef H sk¢la ¥slands [2], sem kallast Icelandic Online og sem erlendir a\8cilar t¢ku \95 tt ¡, m.a. h sk¢li ¡ Wisconsin ¡ Bandar¡kjunum.
+[breyta]
+
+Merk rit, ritu\8c   ¡slensku
+
+    * (rita\8car) um 1190-1320: ¥slendingas\94gurnar
+    * um 1140: Fyrsta m lfr\91\8ciritger\8cin
+    * 1952: Gerpla Halld¢rs Laxness (skrifu\8c ¡ st¡l ¡slendingasagna)
+
+[breyta]
+
+Heimildir
+
+    * Gyldendals Tibinds Leksikon. 1977. A\8calritstj¢ri: J\9brgen Bang, cand. mag.. Gyldendalske Boghandel, Nordisk Forlag A.S. Kaupmannah\94fn.
+    * Heimir P lsson. 1999. Fr  l\91rd¢ms\94ld til rauns\91is - ¥slenskar b¢kmenntir 1550-1900. Vaka-Helgafell hf., Reykjav¡k.
+    * ¥slensk or\8cab¢k. 1985. ¤rni B\94\8cvarsson ritst\98r\8ci. B¢ka£tg fa Menningarsj¢\8cs, Reykjav¡k.
+    * ¥slenska Alfr\91\8cior\8cab¢kin A-G. 1990. Ritstj¢rar: D¢ra Hafsteinsd¢ttir og Sigr¡\8cur Har\8card¢ttir. \99rn og \99rlygur hf., Reykjav¡k.
+    * ¥slenska Alfr\91\8cior\8cab¢kin H-O. 1990. Ritstj¢rar: D¢ra Hafsteinsd¢ttir og Sigr¡\8cur Har\8card¢ttir. \99rn og \99rlygur hf., Reykjav¡k.
+    * ¥slenska Alfr\91\8cior\8cab¢kin P-\99. 1990. Ritstj¢rar: D¢ra Hafsteinsd¢ttir og Sigr¡\8cur Har\8card¢ttir. \99rn og \99rlygur hf., Reykjav¡k.
+    * ¥var Bj\94rnsson. [§tg fu r ¢\95ekkt]. M lsaga fyrir framhaldssk¢la. 2. £tg fa. Offsetfj\94lritun hf., Reykjav¡k.
+
+[breyta]
+
+Tengt efni
+
+    * ¥slenska stafr¢fi\8c
+    * G\91salappir
+    * H fr¢nska
+
+[breyta]
+
+Tenglar
+Wiktionary merki\8c
+Or\8cab¢kaskilgreiningu fyrir ¥slenska er a\8c finna   Wiktionary.
+
+    * Ritreglur ¥ samr\91mi vi\8c augl\98singar menntam lar \8cuneytis nr. 132/1974, 133/1974, 184/1974 og 261/1977
+    * Bragfr\91\8ci og H ttatal
+    * I\8cunn - Kv\91\8camannaf\82lag
+    * ¥slenskuskor H sk¢la ¥slands
+    * M lsh\91ttir (I)
+    * M lsh\91ttir (II)
+    * Merking mannanafna
+    * Nokkur erfi\8c atri\8ci £r daglegu m li tekin fyrir
+    * ¥slenska - \8d\98skt t¡marit fyrir ¡slenskunema
+    * ¥slensk M lst\94\8c - \97mislegt var\8candi ¡slenska m lfr\91\8ci, or\8cab\91kur o.fl.
+
+[breyta]
+
+Or\8cab\91kur
+
+    * Or\8cab¢k H sk¢lans
+    * Or\8cabanki ¥slenskar M lst\94\8cvar
+          o Landaheiti og h\94fu\8csta\8caheiti
+    * Hugtakasafn \8d\98\8cingami\8cst\94\8cvar utanr¡kisr \8cuneytisins
+    * A Concise Dictionary of Old Icelandic (innsk\94nnu\8c) eftir Geir T. Zo\89ga fr   rinu 1910.
+    * An Icelandic-English Dictionary (innsk\94nnu\8c) eftir Gu\8cbrand Vigf£sson og Richard Cleasby, gefin £t 1874.
+    * St¢r ensk-¡slenskur or\8calisti
+    * Annar st¢r ensk-¡slenskur or\8calisti (html £tg fa)
+    * Altnordisches W\94rterbuch
+
+[breyta]
+
\8cor\8c
+
+    * Skr  ¥slenskrar m lst\94\8cvar yfir ¡\8cor\8cas\94fn
+    * Or\8casafn Hins ¡slenska st\91r\8cfr\91\8cif\82lags (leit)
+    * Tenglar KDE verkefnisins
+    * Or\8calisti L¥SU
+    * Or\8casafn l\91knaritara
+    * Or\8casafn Lyfjastofnunar (yfirlit)
+    * Hugt\94k ¡ l¡fr\91nni efnafr\91\8ci
+    * Jar\8cfr\91\8cior\8c: [3] [4]
+    * T\94lvunarfr\91\8cior\8c: [5]
+    * Ve\8curfr\91\8cior\8c (html £tg fa)
+    * Hugtakasafn \8d\98\8cingami\8cst\94\8cvar utanr¡kisr \8cuneytis
+    * ¥slenskir fuglar
+    * Hugt\94k ¡ vatnafr\91\8ci og skyldum greinum
+    * Sj vard\98raor\8cab¢k Hafranns¢knarstofnunar ¥slands
+
+Af "http://is.wikipedia.org/wiki/%C3%8Dslenska"
+
+Flokkar: ¥slenska | Norr\91n tungum l | Germ\94nsk tungum l
diff --git a/mcs/class/I18N/West/Test/texts/icelandic2-utf8.txt b/mcs/class/I18N/West/Test/texts/icelandic2-utf8.txt
new file mode 100644 (file)
index 0000000..35f12ee
--- /dev/null
@@ -0,0 +1,173 @@
+This text is copied from Wikipedia, http://is.wikipedia.org/wiki/%C3%8Dslenska
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+replaced some characters (" and -)
+
+Íslenska
+Af Wikipedia, frjálsa alfræðiritinu
+Jump to: navigation, search
+Íslenska (Íslenska)
+Talað hvar:   Íslandi
+Heimshluti:    Norður Evrópu
+Fjöldi málhafa:      um 300.000
+Sæti:         
+Ætt:  Indóevrópsk
+ Germönsk
+  Norðurgermönsk
+   Vesturnorrænt
+    Íslenska
+Opinber staða
+Opinbert tungumál:    
+Stýrt af:     Íslensk málstöð
+Tungumálakóðar
+ISO 639-1:     is
+ISO 639-2:     ice og isl
+SIL:   ICE
+Tungumál - Listi yfir tungumál
+
+Íslenska er tungumál með fjórum föllum (nefnifalli, þolfalli, þágufalli og eignarfalli) sem aðallega er talað og ritað á Íslandi. Það er indó-evrópskt, germanskt og vesturnorrænt. Af öðrum málum er færeyska skyldust íslensku.
+Efnisyfirlit
+[fela]
+
+    * 1 Saga íslensku
+    * 2 Breytingar
+    * 3 Málfræði
+    * 4 Mállýskur
+    * 5 Íslenska utan Íslands
+    * 6 Merk rit, rituð á íslensku
+    * 7 Heimildir
+    * 8 Tengt efni
+    * 9 Tenglar
+          o 9.1 Orðabækur
+                + 9.1.1 Íðorð
+
+[breyta]
+
+Saga íslensku
+
+Íslenska á rætur að rekja til máls norskra landnámsmanna á 9. öld. Á þeim tíma sem hefur liðið hafa orðið talsverðar breytingar á tungumálinu, einkum á orðaforða og framburði, en lítt á málfræði, eins og kemur fram að neðan. Breytingar þessar, einkum á orðaforða, má rekja til breyttra lifnaðarhátta, breytinga á samfélaginu, nýrrar tækni og þekkingar, sem og áhrifa annara tungumála á íslensku, einkum ensku og dönsku. Til hægðarauka er sögu íslenskunnar skipt í þrjú skeið: fornmál til um 1350, miðmál frá 1350 til um 1550 (eða 1600) og nýmál frá lokum miðmáls.
+[breyta]
+
+Breytingar
+
+Íslenskt ritmál hefur lítið breyst síðan á landnámsöld með þeim afleiðingum að Íslendingar geta enn í dag - með herkjum og skrekkjum - lesið forn rit á borð við Landnámu, Snorra-Eddu og Íslendingasögurnar. Samræmd stafsetning auðveldar lesturinn þó talsvert, auk þess sem orðaforði þessara rita er heldur takmarkaður. Meiri breytingar hafa orðið á framburði, svo miklar að Íslendingur 20. aldar myndi trúlega ekki skilja Íslending 13. aldar, gætu þeir talað saman.
+
+Helstu breytingar á málinu ná því til orðaforða og framburðar, en minni breytingar hafa orðið á málfræði. (Sjá nánar í sögu íslenskunnar.)
+
+Ýmsar ástæður eru fyrir því hversu vel málið hefur varðveist. Hefðbundna skýringin er auðvitað einangrun landsins, en líklega hefur fullmikið verið gert úr því og er sú skýring ein tæpast fullnægjandi. Önnur ástæða sem oft er nefnd er sú að málið hafi varðveist í skinnhandritunum, hvort sem var um afþreyingarbókmenntir að ræða eða fræði. Handritin hafi verið lesin og innihald þeirra flutt fyrir þá sem ekki voru læsir, þannig hafi mál þeirra varðveist og orðaforði handritanna haldist í málinu. Ennfremur hafi lærðir Íslendingar skrifað að miklu leyti á móðurmálinu, allt frá því að Ari fróði og Fyrsti málfræðingurinn skráðu sín rit, þess vegna hafi latínuáhrif orðið minni en víða annars staðar. Kirkjunnar menn á Íslandi voru líka fljótir að tileinka sér aðferðir Marteins Lúthers og Biblían var snemma þýdd á íslensku. Biblíur og önnur trúarrit voru því snemma til á íslensku á helstu fræðasetrum landsins og prestar boðuðu Guðs orð á íslensku. Þessa kenningu má helst styðja með því að bera okkur saman við þjóðir sem ekki áttu Biblíu á eigin tungu, t.d. Norðmenn, en þeir notuðust við danska Biblíu. Orsakir þeirrar þróunar sem varð á íslensku verða seint útskýrðar til hlítar, en þeir þættir sem nefndir eru hér að ofan hafa allir haft einhver áhrif.
+
+Margir Íslendingar telja íslenskuna vera "upprunalegra" mál en flest önnur, og að hún hafi breyst minna. Það er ekki alls kostar rétt, og má í því sambandi nefna að íslenskan hefur einungis fjögur föll af átta úr indóevrópska frummálinu, á meðan flest slavnesk mál hafa sex föll, og pólska sjö. Þýska hefur einnig fjögur föll eins og íslenska, og varðveitt eru rit á fornháþýsku sem eru mun eldri en íslensku handritin, eða frá áttundu öld. Í Grikklandi er enn töluð gríska, rétt eins og fyrir þrjú þúsund árum og svo má lengi telja. Öll þessi mál eiga það þó sameiginlegt að hafa breyst að einhverju leyti, og er íslenskan þar engin undantekning. *[1]
+[breyta]
+
+Málfræði
+
+
+Orðflokkar í íslensku Orðflokkur   Dæmi   Hlutverk
+Nafnorð       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að tilgreina einstaka hluti, eða flokka hluta, jafnt raunverulega sem ímyndaða.
+Sagnorð       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að gefa til kynna aðgerð.
+Lýsingarorð  Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að lýsa einhverjum hlut nánar. Oftast notað með nafnorði.
+Fornöfn       Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Gefa til kynna með almennum hætti um hvern eða hvað setningin á við.
+Greinir        Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Að gera nafnorð ákveðin. Greinir getur verið viðskeyttur eða settur fyrir framan nafnorð sem sér orð.
+Töluorð      Sautján stórir fuglar hoppa til hinna þriggja merku manna sem standa í garðinum. Þeir eru með tvo poka af fræjum handa fuglunum.        Gefa til kynna fjölda eða magn.
+Smáorð
+Forsetningar   Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Hafa áhrif á merkingu fallorðs í setningu.
+Atviksorð             
+Nafnháttarmerki       Stóri fuglinn er að hoppa til hins merka manns sem stendur í garðinum. Hann er að gefa öðrum fuglum fræ.        Nafnháttarmerkið er orðið "að" á undan sagnorði í nafnhætti. Sögn í nafnhætti er án tíðar og endar oftast á "a".
+Samtengingar   Stóri fuglinn hoppar til hins merka manns sem stendur í garðinum. Hann er með fræ handa fuglinum.  Tengir saman setningar til að mynda málsgrein. Skiptist í aðaltengingar og aukatengingar.
+Upphrópanir           
+
+Ath: Þetta þarfnast yfirferðar.
+[breyta]
+
+Mállýskur
+
+Ýmis svæðisbundin afbrigði mynduðust í málinu, þrátt fyrir hinar litlu breytingar, en deildar meiningar eru um hvort sá munur geti kallast mállýskumunur. Hingað til hefur yfirleitt verið einblínt á framburðarmun þó einnig hafi einhver munur verið á orðanotkun. Málhreinsunarmönnum á fyrri hluta tuttugustu aldar þóttu sumar framburðarmállýskurnar ljótar og gengu hart fram í að útrýma þeim, sérstaklega flámæli. Skólarnir voru meðal annars notaðir í þeim tilgangi.
+
+Mállýskumunur hefur dofnað talsvert á Íslandi á tuttugustu öld og sumar framburðarmállýskurnar eru nánast horfnar úr málinu.
+
+Helstu íslensku framburðarmállýskurnar eru (voru) Skaftfellskur einhljóðaframburður, Vestfirskur einhljóðaframburður, harðmæli og raddaður framburður, ngl-framburður, bð- og gð-framburður, hv-framburður og rn- og rl-framburður.
+[breyta]
+
+Íslenska utan Íslands
+
+Íslenska er töluð af áhugamönnum og fólki af íslensku bergi brotið víðsvegar um heim. Mest er af íslenskumælandi fólki í Kanada og Bandaríkjunum, einna helst í Gimli í Manitoba, en þangað fluttist stór hópur Íslendinga (kallaðir Vesturfarar) við lok 19. aldar. Svo er að nefna þá er leggja nám á íslensku erlendis, t.d. þá sem læra í gegnum íslensku kennsluvef Háskóla Íslands [2], sem kallast Icelandic Online og sem erlendir aðilar tóku þátt í, m.a. háskóli í Wisconsin í Bandaríkjunum.
+[breyta]
+
+Merk rit, rituð á íslensku
+
+    * (ritaðar) um 1190-1320: Íslendingasögurnar
+    * um 1140: Fyrsta málfræðiritgerðin
+    * 1952: Gerpla Halldórs Laxness (skrifuð í stíl íslendingasagna)
+
+[breyta]
+
+Heimildir
+
+    * Gyldendals Tibinds Leksikon. 1977. Aðalritstjóri: Jørgen Bang, cand. mag.. Gyldendalske Boghandel, Nordisk Forlag A.S. Kaupmannahöfn.
+    * Heimir Pálsson. 1999. Frá lærdómsöld til raunsæis - Íslenskar bókmenntir 1550-1900. Vaka-Helgafell hf., Reykjavík.
+    * Íslensk orðabók. 1985. Árni Böðvarsson ritstýrði. Bókaútgáfa Menningarsjóðs, Reykjavík.
+    * Íslenska Alfræðiorðabókin A-G. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Íslenska Alfræðiorðabókin H-O. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Íslenska Alfræðiorðabókin P-Ö. 1990. Ritstjórar: Dóra Hafsteinsdóttir og Sigríður Harðardóttir. Örn og Örlygur hf., Reykjavík.
+    * Ívar Björnsson. [Útgáfuár óþekkt]. Málsaga fyrir framhaldsskóla. 2. útgáfa. Offsetfjölritun hf., Reykjavík.
+
+[breyta]
+
+Tengt efni
+
+    * Íslenska stafrófið
+    * Gæsalappir
+    * Háfrónska
+
+[breyta]
+
+Tenglar
+Wiktionary merkið
+Orðabókaskilgreiningu fyrir Íslenska er að finna á Wiktionary.
+
+    * Ritreglur Í samræmi við auglýsingar menntamálaráðuneytis nr. 132/1974, 133/1974, 184/1974 og 261/1977
+    * Bragfræði og Háttatal
+    * Iðunn - Kvæðamannafélag
+    * Íslenskuskor Háskóla Íslands
+    * Málshættir (I)
+    * Málshættir (II)
+    * Merking mannanafna
+    * Nokkur erfið atriði úr daglegu máli tekin fyrir
+    * Íslenska - Þýskt tímarit fyrir íslenskunema
+    * Íslensk Málstöð - Ýmislegt varðandi íslenska málfræði, orðabækur o.fl.
+
+[breyta]
+
+Orðabækur
+
+    * Orðabók Háskólans
+    * Orðabanki Íslenskar Málstöðvar
+          o Landaheiti og höfuðstaðaheiti
+    * Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytisins
+    * A Concise Dictionary of Old Icelandic (innskönnuð) eftir Geir T. Zoëga frá árinu 1910.
+    * An Icelandic-English Dictionary (innskönnuð) eftir Guðbrand Vigfússon og Richard Cleasby, gefin út 1874.
+    * Stór ensk-íslenskur orðalisti
+    * Annar stór ensk-íslenskur orðalisti (html útgáfa)
+    * Altnordisches Wörterbuch
+
+[breyta]
+
+Íðorð
+
+    * Skrá Íslenskrar málstöðvar yfir íðorðasöfn
+    * Orðasafn Hins íslenska stærðfræðifélags (leit)
+    * Tenglar KDE verkefnisins
+    * Orðalisti LÍSU
+    * Orðasafn læknaritara
+    * Orðasafn Lyfjastofnunar (yfirlit)
+    * Hugtök í lífrænni efnafræði
+    * Jarðfræðiorð: [3] [4]
+    * Tölvunarfræðiorð: [5]
+    * Veðurfræðiorð (html útgáfa)
+    * Hugtakasafn Þýðingamiðstöðvar utanríkisráðuneytis
+    * Íslenskir fuglar
+    * Hugtök í vatnafræði og skyldum greinum
+    * Sjávardýraorðabók Hafrannsóknarstofnunar Íslands
+
+Af "http://is.wikipedia.org/wiki/%C3%8Dslenska"
+
+Flokkar: Íslenska | Norræn tungumál | Germönsk tungumál
diff --git a/mcs/class/I18N/West/Test/texts/italian-28593.txt b/mcs/class/I18N/West/Test/texts/italian-28593.txt
new file mode 100644 (file)
index 0000000..c4f41e5
--- /dev/null
@@ -0,0 +1,165 @@
+Lingua italiana
+Da Wikipedia, l'enciclopedia libera.
+Vai a: Navigazione, cerca
+
+La lingua italiana è l'idioma di it.wiki, la versione che state sfogliando di Wikipedia.
+Italiano (Italiano)
+Parlato in:    Italia ed altri 29 paesi.
+Persone:       70 milioni
+Classifica:    19
+Famiglie linguistiche:         Indoeuropee
+
+ Italiche
+  romanze
+   Italiano
+Stati ufficiali
+Paesi:         Unione europea, Italia, San Marino, Slovenia, Croazia, Città del Vaticano, Svizzera
+Regolata da:   Accademia della Crusca
+Classificazione
+ISO 639-1      it
+ISO 639-2      ita
+SIL    ITN
+Estratto in lingua
+Dichiarazione Universale dei Diritti dell'Uomo - Art.1
+{{{estratto}}}
+Lingua - Elenco delle lingue - Linguistica
+Un grafema fonetico    Questa pagina potrebbe contenere caratteri Unicode.
+Wikipedia:Progetto Lingue      Si invita a seguire lo schema del Progetto Lingue
+
+L'Italiano (Ascolta ascolta?) è una lingua appartenente al gruppo delle lingue romanze della famiglia delle lingue indoeuropee. Esiste un gran numero di dialetti neo-romanzi.
+
+L'italiano moderno è, come tutte le lingue nazionali, un dialetto che è riuscito a far carriera; ad imporsi, cioè, come lingua ufficiale di una regione molto più vasta di quella originaria. In questo caso fu il dialetto fiorentino, parlato a Firenze, a prevalere, non tanto per ragioni politiche - come spesso capitava - ma per il prestigio culturale di cui era portatore. Il toscano, ed il fiorentino illustre (in quanto arricchito di prestiti dal siciliano, francese e latino) in particolare, era in effetti la lingua nella quale scrissero Dante Alighieri, Francesco Petrarca e Giovanni Boccaccio, considerati i tre massimi scrittori italiani. Naturalmente, era anche la lingua colta della città di Firenze, stimata per la sua prosperità culturale lungo i secoli e per la sua splendida architettura.
+Indice
+[nascondi]
+
+    * 1 Influenze linguistiche
+    * 2 Dialetti
+    * 3 Presenza nel mondo
+    * 4 Fonetica
+          o 4.1 Vocali
+          o 4.2 Consonanti
+    * 5 Alfabeto
+    * 6 Voci correlate
+
+[modifica]
+
+Influenze linguistiche
+
+Prima dell'avvento dell'Impero romano, è l'etrusco ad essere parlato in Toscana e nel Lazio settentrionale ("Tuscia"). Se la lingua etrusca è stata cancellata nel corso di qualche secolo dall'avvento del latino, dopo la conquista romana, la sua influenza può esser rimasta nel sostrato del toscano, ma la questione è ampiamente dibattuta. Il latino volgare divenne ben presto la lingua parlata in Italia e in gran parte d'Europa. Data la durata e la qualità della dominazione romana sul Continente, è facile capire perché il latino sia la base di moltissime lingue europee. Dopo la caduta dell'Impero Romano d'Occidente, nel 476, la Toscana vide arrivare gli Ostrogoti e i Longobardi (secoli V e VI), popolazioni provenienti dal nord e dall'est dell'Europa. Esse influenzarono la lingua della regione solo nel lessico, le altre caratteristiche restarono più o meno immutate. Il toscano resta una delle parlate romanze più conservative e vicine al latino.
+[modifica]
+
+Dialetti
+
+I numerosi dialetti italo-romanzi possono essere classificati in base alle loro comuni origine linguistiche. Provengono tutti dal latino, ma i sostrati delle lingue precedenti alla conquista romana e soprattutto i superstrati dovuti ai contatti con vari popoli hanno differenziato da regione a regione lo sviluppo di ogni parlata locale. Recentemente si tende a isolare i dialetti settentrionali (romanzi occidentali) da quelli centro-meridionali ("romanzi orientali"): la distinzione viene amplificata soprattutto per motivi politici, supponendo un'origine "celtica" dei dialetti settentrionali. In realtà il sostrato celtico (ammesso che sia esistito) può aver influito sui dialetti "gallo-italici", non certo sul veneto; che i dialetti settentrionali (anche quelli cosiddetti "gallo-italici") sono pienamente romanzi e non celtici; che i dialetti settentrionali condividono molte caratteristiche morfologiche con i dialetti del resto d'Italia (come i plurali non sigmatici); che soltanto fonologicamente si può parlare di "romanzo occidentale", ma la caduta delle vocali atone non avviene solo al Nord ma anche in molte parti del Sud specialmente in Campania, Molise e Puglia. E' altresì vero che i dialetti del Nord sono anche definiti gallo-italici o gallo-romanzi non per questioni "politiche", ma per la presenza delle cosiddette vocali turbate come ö ed ü in Lombardia, Emilia-Romagna (province di Piacenza e Parma), Piemonte e Liguria; per la presenza di strutture grammaticali note come "gallicismi" e riscontrabili anche in francese o spagnolo: sun/sum dré a mangià/mangiä/maià/magnà/magnar/magnär/magner come je suis en tren de manger in francese o estoy en tren de comer in spagnolo; per la possibilità della formulazione delle frasi interrogative tramite una sorta di "inversione" (fenomeno diffuso in Lombardia ed Emilia-Romagna) come in francese (piacentino "mangi?": te a t' mang? che può essere reso con te mangiat?); la vocale a accentata tende a diventare ä oppure è specialmente in varie zone del Piemonte e dell'Emilia-Romagna (altro elemento riscontrabile anche in francese); presenza della nasalizzazione della n (come in francese) in vari dialetti. Ovviamente, queste caratteristiche che mettono in luce alcuni riflessi di un'antica lingua celtica, la lingua di sostrato del territorio, non sono riscontrabili (almeno così massicciamente e contemporaneamente) in Veneto, Trentino e Friuli-Venezia Giulia che sarebbero inscritte in un'area linguistica non gallo-romanza. La presenza di vocali turbate ö ed ü che per alcuni studiosi è il residuo di un substrato celtico, per altri sarebbe invece un superstrato germanico portato con le invasioni barbariche alla caduta dell'Impero Romano. Il tratto più caratteristico è la lenizione, una caratteristica tipicamente romanza-occidentale. Un tipo di lenizione si è comunque recentemente sviluppato anche al sud, sia pur con caratteristiche diverse, ed in Toscana (attestata dal XVI secolo) con modalità particolarissime che le hanno fruttato il nome di "gorgia". Al giorno d'oggi molti linguisti sono concordi nel raggruppare gli idiomi gallo-italici italiani, quelli retoromanzi e veneti in un unico sistema: il sistema linguistico reto-cisalpino (Atti del convengo internazionale degli studi sulle lingue romanze dell'Italia del Nord, Trento, 21-23 ottobre 1993) non certo per ragioni "politiche" o per volontà di secessione dal resto della penisola. Secondo questa teoria, gli idiomi retoromanzi costituiscono una varietà più conservativa di una lingua "padana" comune (da intendersi "della Val Padana", "settentrionale" e non da interpretare con riferimenti alla politica) assestatasi nell'alto medioevo. Viene aggiunto che la variante centro-occidentale di questa lingua ha in seguito assorbito numerose innovazioni di origine francese, dando luogo agli idiomi del gruppo cisalpino (idiomi galloromanzi italiani e veneto). Molti linguisti sono concordi nel sostenere che i cosiddetti "dialetti" del Nord, delle province di Massa Carrara, Pesaro Urbino, Campania, Puglia meridionale (Salento), Basilicata, Calabria e Sicilia non siano da considerarsi tali, bensì vere e proprie lingue strutturalmente separate dall'italiano (così le classifica e definisce l'Atlante Linguistico Ethnologue). Inoltre, come tali sono annotate nell'Unesco Red Book of Endangered Languages che le riconosce come lingue regionali minoritarie. La ragione è che esse, secondo certi studiosi, non sarebbero varietà locali o sociali (dialetti, appunto) dell'italiano, ma sistemi linguistici autonomi con altra origine, diversa da quella del toscano, altra grammatica, e dunque non solo per i vari gradi di intelligibilità tra di loro o con l'italiano. Così come qualcuno forzatamente sostiene un'origine celtica dei dialetti settentrionali o gallo-italici per ragioni politiche, c'è anche chi, per opposte vedute politiche pretende di discriminare le lingue, siano esse del Nord o del Sud, sulla base della loro pretesa inferiorità.
+
+
+    * Dialetti settentrionali (romanzo occidentale con elementi di transizione verso il romanzo orientale)
+          o Gallo-italici:
+                + piemontese (Torino, Asti, Cuneo, Alessandria, Vercelli)
+                + lombardo orientale (Bergamo, Brescia, Crema)
+                + lombardo occidentale o insubre (Insubria)(Milano, Monza, Varese, Como, Lecco, Sondrio, Lodi, Novara, Verbania, Canton Ticino)
+                + genovese o ligure (Genova, La Spezia, Savona, Imperia, Appennino Alessandrino, Appennino Piacentino)
+                + emiliano (Pavia, Oltrepò Pavese, Piacenza, Mantova, Parma, Reggio Emilia, Modena, Ferrara, Bologna)
+                + romagnolo (Ravenna, Forlì, Cesena, Rimini, Pesaro, Urbino, Repubblica di San Marino)
+          o veneto (Venezia, Treviso, Padova, Vicenza, Verona, Belluno, Rovigo, Trento, Trieste e Venezia Giulia)
+          o friulano (Friuli Venezia Giulia: Udine, Pordenone)
+          o istrioto
+    * Dialetti centro-meridionali (romanzo orientale)
+          o Dialetti toscani
+                + toscano (Firenze, Siena, Pisa, Lucca, Arezzo)
+                + corso (Corsica)
+          o Centro :
+                + romanesco (Roma)
+                + viterbese
+                + umbro
+                + marchigiano (centrale) (Marche)
+                + cicolano-reatino-aquilano
+                + aquilano (L'Aquila)
+          o Sud:
+                + abruzzese (Pescara)
+
+    *
+          o
+                + campano (Napoli)
+                + lucano
+                + pugliese- Salento escluso (Bari)
+          o Estremo sud:
+                + salentino (Lecce)
+                + calabrese (Reggio Calabria)
+                + siciliano (Palermo)
+
+(Nota: il pantesco, dialetto siciliano di Pantelleria, ha forti influssi arabi)
+
+I dialetti della Sardegna (sassarese, logudorese e campidanese, il gallurese invece, simile al corso oltremontano, appartiene alla categoria dei dialetti italiani centromeridionali) e gli idiomi retoromanzi (romancio, ladino, friulano) non possono a rigore essere considerati dialetti "italiani", anche se qualche linguista ritiene che quest'ultimi siano i residui di una "latinità occidentale" che in passato comprendeva tutta la pianura padana, formando così un diasistema che andava dall'Istria fino alla Spagna (Alicante), lasciando probabilmente fuori il veneto, l'idioma romanzo occidentale più simile al romanzo orientale, sia per la fonotassi che perla morfologia e anche il lessico.
+[modifica]
+
+Presenza nel mondo
+
+L'italiano è unica lingua ufficiale in Italia e San Marino. Nella Città del Vaticano è usata correntemente ed è la lingua coufficiale della Santa Sede con il latino. È una lingua ufficiale (insieme allo sloveno) in qualche comune costiero della Slovenia e in Istria (Croazia) accanto al croato. È anche una delle lingue ufficiali in Svizzera (10% dei parlanti) - e precisamente nel Canton Ticino e nei Grigioni- insieme a Tedesco (63%), Francese (25%) e Romancio.
+L'italiano è però diffusissimo a Malta, dove molti lo parlano e più o meno tutti lo capiscono (il presidente maltese in carica dal 1999 si chiama Guido de Marco), e dove fu lingua ufficiale fino al 1931, nelle zone costiere della Dalmazia (Croazia) e in Albania. Buona diffusione ha anche nelle ex-colonie italiane in Africa: Libia (dove è lingua di lavoro, insieme all'inglese), Eritrea, Etiopia e Somalia (in quest'ultimo Paese è stata lingua ufficiale fino al 1963 e usata nell'insegnamento universitario fino al 1991, allo scoppio della guerra civile). In altre nazioni, a causa della forte e prolungata emigrazione italiana nel mondo, esistono importanti comunità italiane (Stati Uniti, Sud America (specialmente Brasile e Argentina), Australia, Canada, Francia, Germania e Belgio soprattutto), che oggi cercano di recuperare e tramandare a figli e nipoti la loro cultura e lingua d'origine.
+Notiamo infine come la lingua italiana, pur classificandosi solo al 19° posto tra le lingue più parlate al mondo (70 milioni di parlanti circa), è la terza più studiata come lingua straniera, dopo inglese e francese e prima di tedesco e spagnolo. Questo grazie al fascino che l'Italia ha nel mondo e all'opera preziosa degli Istituti italiani di cultura. Considerando coloro che lo parlano come seconda lingua, il numero sale a 120 milioni.
+
+Secondo uno studio della Unione Europea, è al secondo posto come lingua più parlata nell'ambito europeo (16%), accanto a francese e inglese, ma diventa la quarta (18%) se si considerano le lingue parlate e studiate [1].
+
+Purtroppo, nel 2005, l'italiano è uscito dal gruppo ristretto delle lingue stabili dell'Unione Europea, al quale appartengono l'inglese, il francese e il tedesco ([2])
+[modifica]
+
+Fonetica
+[modifica]
+
+Vocali
+fonema         parole
+[a]    nave, galassia
+[e]    pianeta, rete
+[?]    sfera, zero
+[i]    mito, riso
+[o]    confronto, ordine
+[?]    vuoto, bucolico
+[u]    numero, nulla
+
+Nota:
+
+È possibile ascoltare anche la vocale [?], come completamento del suono di una consonante. Essa nella lingua scritta viene o tralasciata o trascritta come 'e'.
+
+Esempio:
+
+    "La C di 'cento' si legge 'ce'"
+
+        in cui "ce" viene solitamente letto [??] piuttosto che [?e]
+
+[modifica]
+
+Consonanti
+
+Tra parentesi quadre gli allofoni di [n] alveolare.
+       Bilabiale       Labiodentale    Dentale         Alveolare       Postalveolare   Palatale        Velare
+Nasali                 m               [?]             [n]             n                               ?               [?]
+Occlusive      p       b                       t       d                                                       k       g
+Fricative                      f       v                       s       z       ?                                       
+Affricate                                      ?       ?                       ?       ?                               
+Vibranti                                                               r                                               
+Vibrati                                                                ?                                               
+Laterali                                                               l                               ?               
+Approssimanti                                                                                          j               w
+[modifica]
+
+Alfabeto
+
+L'italiano utilizza 21 lettere dell'alfabeto latino. In effetti k, j, w, x, y esistono solo in parole d'origine straniera o come varianti grafiche di scrittura (ad es. in Pirandello gioja invece di gioia). Esistono accenti grafici sulle vocali: in particolare quello acuto (´) solo sulla e (raramente sulla o e sulla a; una grafia ricercata li esigerebbe anche su i e u dal momento che sono sempre "vocali chiuse") e quello grave (`) su tutte le altre. L'accento circonflesso (^) serve per indicare la contrazione di due vocali, in particolare due /i/. L'accento grafico è obbligatorio sulle parole tronche (o ossitone o meglio ancora "ultimali"), che hanno cioè l'accento sull'ultima sillaba e finiscono per vocale. Altrove l'accento grafico è facoltativo, ma utile per distinguere parole altrimenti omografe.
+[modifica]
+
+Voci correlate
+
+    * Lingue parlate in Italia
+    * Grammatica italiana
+    * Lingua volgare
+    * Placiti cassinesi
+    * Indovinello veronese
+
+
+Lingue ufficiali dell'Unione Europea   
+Ceco | Danese | Estone | Finnico | Francese | Greco | Inglese | Italiano | Lettone | Lituano | Maltese | Olandese | Polacco | Portoghese | Slovacco | Sloveno | Spagnolo | Svedese | Tedesco | Ungherese
+
+Ricavato da "http://it.wikipedia.org/wiki/Lingua_italiana"
+
+Categorie: Lingua italiana | Lingue | Lingue romanze
diff --git a/mcs/class/I18N/West/Test/texts/italian-utf8.txt b/mcs/class/I18N/West/Test/texts/italian-utf8.txt
new file mode 100644 (file)
index 0000000..a2d6f57
--- /dev/null
@@ -0,0 +1,165 @@
+Lingua italiana
+Da Wikipedia, l'enciclopedia libera.
+Vai a: Navigazione, cerca
+
+La lingua italiana è l'idioma di it.wiki, la versione che state sfogliando di Wikipedia.
+Italiano (Italiano)
+Parlato in:    Italia ed altri 29 paesi.
+Persone:       70 milioni
+Classifica:    19
+Famiglie linguistiche:         Indoeuropee
+
+ Italiche
+  romanze
+   Italiano
+Stati ufficiali
+Paesi:         Unione europea, Italia, San Marino, Slovenia, Croazia, Città del Vaticano, Svizzera
+Regolata da:   Accademia della Crusca
+Classificazione
+ISO 639-1      it
+ISO 639-2      ita
+SIL    ITN
+Estratto in lingua
+Dichiarazione Universale dei Diritti dell'Uomo - Art.1
+{{{estratto}}}
+Lingua - Elenco delle lingue - Linguistica
+Un grafema fonetico    Questa pagina potrebbe contenere caratteri Unicode.
+Wikipedia:Progetto Lingue      Si invita a seguire lo schema del Progetto Lingue
+
+L'Italiano (Ascolta ascolta?) è una lingua appartenente al gruppo delle lingue romanze della famiglia delle lingue indoeuropee. Esiste un gran numero di dialetti neo-romanzi.
+
+L'italiano moderno è, come tutte le lingue nazionali, un dialetto che è riuscito a far carriera; ad imporsi, cioè, come lingua ufficiale di una regione molto più vasta di quella originaria. In questo caso fu il dialetto fiorentino, parlato a Firenze, a prevalere, non tanto per ragioni politiche - come spesso capitava - ma per il prestigio culturale di cui era portatore. Il toscano, ed il fiorentino illustre (in quanto arricchito di prestiti dal siciliano, francese e latino) in particolare, era in effetti la lingua nella quale scrissero Dante Alighieri, Francesco Petrarca e Giovanni Boccaccio, considerati i tre massimi scrittori italiani. Naturalmente, era anche la lingua colta della città di Firenze, stimata per la sua prosperità culturale lungo i secoli e per la sua splendida architettura.
+Indice
+[nascondi]
+
+    * 1 Influenze linguistiche
+    * 2 Dialetti
+    * 3 Presenza nel mondo
+    * 4 Fonetica
+          o 4.1 Vocali
+          o 4.2 Consonanti
+    * 5 Alfabeto
+    * 6 Voci correlate
+
+[modifica]
+
+Influenze linguistiche
+
+Prima dell'avvento dell'Impero romano, è l'etrusco ad essere parlato in Toscana e nel Lazio settentrionale ("Tuscia"). Se la lingua etrusca è stata cancellata nel corso di qualche secolo dall'avvento del latino, dopo la conquista romana, la sua influenza può esser rimasta nel sostrato del toscano, ma la questione è ampiamente dibattuta. Il latino volgare divenne ben presto la lingua parlata in Italia e in gran parte d'Europa. Data la durata e la qualità della dominazione romana sul Continente, è facile capire perché il latino sia la base di moltissime lingue europee. Dopo la caduta dell'Impero Romano d'Occidente, nel 476, la Toscana vide arrivare gli Ostrogoti e i Longobardi (secoli V e VI), popolazioni provenienti dal nord e dall'est dell'Europa. Esse influenzarono la lingua della regione solo nel lessico, le altre caratteristiche restarono più o meno immutate. Il toscano resta una delle parlate romanze più conservative e vicine al latino.
+[modifica]
+
+Dialetti
+
+I numerosi dialetti italo-romanzi possono essere classificati in base alle loro comuni origine linguistiche. Provengono tutti dal latino, ma i sostrati delle lingue precedenti alla conquista romana e soprattutto i superstrati dovuti ai contatti con vari popoli hanno differenziato da regione a regione lo sviluppo di ogni parlata locale. Recentemente si tende a isolare i dialetti settentrionali (romanzi occidentali) da quelli centro-meridionali ("romanzi orientali"): la distinzione viene amplificata soprattutto per motivi politici, supponendo un'origine "celtica" dei dialetti settentrionali. In realtà il sostrato celtico (ammesso che sia esistito) può aver influito sui dialetti "gallo-italici", non certo sul veneto; che i dialetti settentrionali (anche quelli cosiddetti "gallo-italici") sono pienamente romanzi e non celtici; che i dialetti settentrionali condividono molte caratteristiche morfologiche con i dialetti del resto d'Italia (come i plurali non sigmatici); che soltanto fonologicamente si può parlare di "romanzo occidentale", ma la caduta delle vocali atone non avviene solo al Nord ma anche in molte parti del Sud specialmente in Campania, Molise e Puglia. E' altresì vero che i dialetti del Nord sono anche definiti gallo-italici o gallo-romanzi non per questioni "politiche", ma per la presenza delle cosiddette vocali turbate come ö ed ü in Lombardia, Emilia-Romagna (province di Piacenza e Parma), Piemonte e Liguria; per la presenza di strutture grammaticali note come "gallicismi" e riscontrabili anche in francese o spagnolo: sun/sum dré a mangià/mangiä/maià/magnà/magnar/magnär/magner come je suis en tren de manger in francese o estoy en tren de comer in spagnolo; per la possibilità della formulazione delle frasi interrogative tramite una sorta di "inversione" (fenomeno diffuso in Lombardia ed Emilia-Romagna) come in francese (piacentino "mangi?": te a t' mang? che può essere reso con te mangiat?); la vocale a accentata tende a diventare ä oppure è specialmente in varie zone del Piemonte e dell'Emilia-Romagna (altro elemento riscontrabile anche in francese); presenza della nasalizzazione della n (come in francese) in vari dialetti. Ovviamente, queste caratteristiche che mettono in luce alcuni riflessi di un'antica lingua celtica, la lingua di sostrato del territorio, non sono riscontrabili (almeno così massicciamente e contemporaneamente) in Veneto, Trentino e Friuli-Venezia Giulia che sarebbero inscritte in un'area linguistica non gallo-romanza. La presenza di vocali turbate ö ed ü che per alcuni studiosi è il residuo di un substrato celtico, per altri sarebbe invece un superstrato germanico portato con le invasioni barbariche alla caduta dell'Impero Romano. Il tratto più caratteristico è la lenizione, una caratteristica tipicamente romanza-occidentale. Un tipo di lenizione si è comunque recentemente sviluppato anche al sud, sia pur con caratteristiche diverse, ed in Toscana (attestata dal XVI secolo) con modalità particolarissime che le hanno fruttato il nome di "gorgia". Al giorno d'oggi molti linguisti sono concordi nel raggruppare gli idiomi gallo-italici italiani, quelli retoromanzi e veneti in un unico sistema: il sistema linguistico reto-cisalpino (Atti del convengo internazionale degli studi sulle lingue romanze dell'Italia del Nord, Trento, 21-23 ottobre 1993) non certo per ragioni "politiche" o per volontà di secessione dal resto della penisola. Secondo questa teoria, gli idiomi retoromanzi costituiscono una varietà più conservativa di una lingua "padana" comune (da intendersi "della Val Padana", "settentrionale" e non da interpretare con riferimenti alla politica) assestatasi nell'alto medioevo. Viene aggiunto che la variante centro-occidentale di questa lingua ha in seguito assorbito numerose innovazioni di origine francese, dando luogo agli idiomi del gruppo cisalpino (idiomi galloromanzi italiani e veneto). Molti linguisti sono concordi nel sostenere che i cosiddetti "dialetti" del Nord, delle province di Massa Carrara, Pesaro Urbino, Campania, Puglia meridionale (Salento), Basilicata, Calabria e Sicilia non siano da considerarsi tali, bensì vere e proprie lingue strutturalmente separate dall'italiano (così le classifica e definisce l'Atlante Linguistico Ethnologue). Inoltre, come tali sono annotate nell'Unesco Red Book of Endangered Languages che le riconosce come lingue regionali minoritarie. La ragione è che esse, secondo certi studiosi, non sarebbero varietà locali o sociali (dialetti, appunto) dell'italiano, ma sistemi linguistici autonomi con altra origine, diversa da quella del toscano, altra grammatica, e dunque non solo per i vari gradi di intelligibilità tra di loro o con l'italiano. Così come qualcuno forzatamente sostiene un'origine celtica dei dialetti settentrionali o gallo-italici per ragioni politiche, c'è anche chi, per opposte vedute politiche pretende di discriminare le lingue, siano esse del Nord o del Sud, sulla base della loro pretesa inferiorità.
+
+
+    * Dialetti settentrionali (romanzo occidentale con elementi di transizione verso il romanzo orientale)
+          o Gallo-italici:
+                + piemontese (Torino, Asti, Cuneo, Alessandria, Vercelli)
+                + lombardo orientale (Bergamo, Brescia, Crema)
+                + lombardo occidentale o insubre (Insubria)(Milano, Monza, Varese, Como, Lecco, Sondrio, Lodi, Novara, Verbania, Canton Ticino)
+                + genovese o ligure (Genova, La Spezia, Savona, Imperia, Appennino Alessandrino, Appennino Piacentino)
+                + emiliano (Pavia, Oltrepò Pavese, Piacenza, Mantova, Parma, Reggio Emilia, Modena, Ferrara, Bologna)
+                + romagnolo (Ravenna, Forlì, Cesena, Rimini, Pesaro, Urbino, Repubblica di San Marino)
+          o veneto (Venezia, Treviso, Padova, Vicenza, Verona, Belluno, Rovigo, Trento, Trieste e Venezia Giulia)
+          o friulano (Friuli Venezia Giulia: Udine, Pordenone)
+          o istrioto
+    * Dialetti centro-meridionali (romanzo orientale)
+          o Dialetti toscani
+                + toscano (Firenze, Siena, Pisa, Lucca, Arezzo)
+                + corso (Corsica)
+          o Centro :
+                + romanesco (Roma)
+                + viterbese
+                + umbro
+                + marchigiano (centrale) (Marche)
+                + cicolano-reatino-aquilano
+                + aquilano (L'Aquila)
+          o Sud:
+                + abruzzese (Pescara)
+
+    *
+          o
+                + campano (Napoli)
+                + lucano
+                + pugliese- Salento escluso (Bari)
+          o Estremo sud:
+                + salentino (Lecce)
+                + calabrese (Reggio Calabria)
+                + siciliano (Palermo)
+
+(Nota: il pantesco, dialetto siciliano di Pantelleria, ha forti influssi arabi)
+
+I dialetti della Sardegna (sassarese, logudorese e campidanese, il gallurese invece, simile al corso oltremontano, appartiene alla categoria dei dialetti italiani centromeridionali) e gli idiomi retoromanzi (romancio, ladino, friulano) non possono a rigore essere considerati dialetti "italiani", anche se qualche linguista ritiene che quest'ultimi siano i residui di una "latinità occidentale" che in passato comprendeva tutta la pianura padana, formando così un diasistema che andava dall'Istria fino alla Spagna (Alicante), lasciando probabilmente fuori il veneto, l'idioma romanzo occidentale più simile al romanzo orientale, sia per la fonotassi che perla morfologia e anche il lessico.
+[modifica]
+
+Presenza nel mondo
+
+L'italiano è unica lingua ufficiale in Italia e San Marino. Nella Città del Vaticano è usata correntemente ed è la lingua coufficiale della Santa Sede con il latino. È una lingua ufficiale (insieme allo sloveno) in qualche comune costiero della Slovenia e in Istria (Croazia) accanto al croato. È anche una delle lingue ufficiali in Svizzera (10% dei parlanti) - e precisamente nel Canton Ticino e nei Grigioni- insieme a Tedesco (63%), Francese (25%) e Romancio.
+L'italiano è però diffusissimo a Malta, dove molti lo parlano e più o meno tutti lo capiscono (il presidente maltese in carica dal 1999 si chiama Guido de Marco), e dove fu lingua ufficiale fino al 1931, nelle zone costiere della Dalmazia (Croazia) e in Albania. Buona diffusione ha anche nelle ex-colonie italiane in Africa: Libia (dove è lingua di lavoro, insieme all'inglese), Eritrea, Etiopia e Somalia (in quest'ultimo Paese è stata lingua ufficiale fino al 1963 e usata nell'insegnamento universitario fino al 1991, allo scoppio della guerra civile). In altre nazioni, a causa della forte e prolungata emigrazione italiana nel mondo, esistono importanti comunità italiane (Stati Uniti, Sud America (specialmente Brasile e Argentina), Australia, Canada, Francia, Germania e Belgio soprattutto), che oggi cercano di recuperare e tramandare a figli e nipoti la loro cultura e lingua d'origine.
+Notiamo infine come la lingua italiana, pur classificandosi solo al 19° posto tra le lingue più parlate al mondo (70 milioni di parlanti circa), è la terza più studiata come lingua straniera, dopo inglese e francese e prima di tedesco e spagnolo. Questo grazie al fascino che l'Italia ha nel mondo e all'opera preziosa degli Istituti italiani di cultura. Considerando coloro che lo parlano come seconda lingua, il numero sale a 120 milioni.
+
+Secondo uno studio della Unione Europea, è al secondo posto come lingua più parlata nell'ambito europeo (16%), accanto a francese e inglese, ma diventa la quarta (18%) se si considerano le lingue parlate e studiate [1].
+
+Purtroppo, nel 2005, l’italiano è uscito dal gruppo ristretto delle lingue stabili dell’Unione Europea, al quale appartengono l’inglese, il francese e il tedesco ([2])
+[modifica]
+
+Fonetica
+[modifica]
+
+Vocali
+fonema         parole
+[a]    nave, galassia
+[e]    pianeta, rete
+[ɛ]   sfera, zero
+[i]    mito, riso
+[o]    confronto, ordine
+[ɔ]   vuoto, bucolico
+[u]    numero, nulla
+
+Nota:
+
+È possibile ascoltare anche la vocale [ə], come completamento del suono di una consonante. Essa nella lingua scritta viene o tralasciata o trascritta come 'e'.
+
+Esempio:
+
+    "La C di 'cento' si legge 'ce'"
+
+        in cui "ce" viene solitamente letto [ʧə] piuttosto che [ʧe]
+
+[modifica]
+
+Consonanti
+
+Tra parentesi quadre gli allofoni di [n] alveolare.
+       Bilabiale       Labiodentale    Dentale         Alveolare       Postalveolare   Palatale        Velare
+Nasali                 m               [ɱ]            [n]             n                               ɲ              [ŋ]
+Occlusive      p       b                       t       d                                                       k       g
+Fricative                      f       v                       s       z       ʃ                                      
+Affricate                                      ʦ      ʣ                      ʧ      ʤ                              
+Vibranti                                                               r                                               
+Vibrati                                                                ɾ                                              
+Laterali                                                               l                               ʎ              
+Approssimanti                                                                                          j               w
+[modifica]
+
+Alfabeto
+
+L'italiano utilizza 21 lettere dell'alfabeto latino. In effetti k, j, w, x, y esistono solo in parole d'origine straniera o come varianti grafiche di scrittura (ad es. in Pirandello gioja invece di gioia). Esistono accenti grafici sulle vocali: in particolare quello acuto (´) solo sulla e (raramente sulla o e sulla a; una grafia ricercata li esigerebbe anche su i e u dal momento che sono sempre "vocali chiuse") e quello grave (`) su tutte le altre. L'accento circonflesso (^) serve per indicare la contrazione di due vocali, in particolare due /i/. L'accento grafico è obbligatorio sulle parole tronche (o ossitone o meglio ancora "ultimali"), che hanno cioè l'accento sull'ultima sillaba e finiscono per vocale. Altrove l'accento grafico è facoltativo, ma utile per distinguere parole altrimenti omografe.
+[modifica]
+
+Voci correlate
+
+    * Lingue parlate in Italia
+    * Grammatica italiana
+    * Lingua volgare
+    * Placiti cassinesi
+    * Indovinello veronese
+
+
+Lingue ufficiali dell'Unione Europea   
+Ceco | Danese | Estone | Finnico | Francese | Greco | Inglese | Italiano | Lettone | Lituano | Maltese | Olandese | Polacco | Portoghese | Slovacco | Sloveno | Spagnolo | Svedese | Tedesco | Ungherese
+
+Ricavato da "http://it.wikipedia.org/wiki/Lingua_italiana"
+
+Categorie: Lingua italiana | Lingue | Lingue romanze
diff --git a/mcs/class/I18N/West/Test/texts/latin-28605.txt b/mcs/class/I18N/West/Test/texts/latin-28605.txt
new file mode 100644 (file)
index 0000000..10d8ef8
--- /dev/null
@@ -0,0 +1,67 @@
+"Æ", capital AE diphthong (ligature)
+"Á", capital A, acute accent
+"Â", capital A, circumflex accent
+"À", capital A, grave accent
+"Å", capital A, ring
+"Ã", capital A, tilde
+"Ä", capital A, dieresis or umlaut mark
+"Ç", capital C, cedilla
+"Ð", capital Eth, Icelandic
+"É", capital E, acute accent
+"Ê", capital E, circumflex accent
+"È", capital E, grave accent
+"Ë", capital E, dieresis or umlaut mark
+"Í", capital I, acute accent
+"Î", capital I, circumflex accent
+"Ì", capital I, grave accent
+"Ï", capital I, dieresis or umlaut mark
+"Ñ", capital N, tilde
+"Ó", capital O, acute accent
+"Ô", capital O, circumflex accent
+"Ò", capital O, grave accent
+"Ø", capital O, slash
+"Õ", capital O, tilde
+"Ö", capital O, dieresis or umlaut mark
+"Þ", capital THORN, Icelandic
+"Ú", capital U, acute accent
+"Û", capital U, circumflex accent
+"Ù", capital U, grave accent
+"Ü", capital U, dieresis or umlaut mark
+"Ý", capital Y, acute accent
+"á", small a, acute accent
+"â", small a, circumflex accent
+"æ", small ae diphthong (ligature)
+"à", small a, grave accent
+"&", ampersand
+"å", small a, ring
+"ã", small a, tilde
+"ä", small a, dieresis or umlaut mark
+"ç", small c, cedilla
+"é", small e, acute accent
+"ê", small e, circumflex accent
+"è", small e, grave accent
+"ð", small eth, Icelandic
+"ë", small e, dieresis or umlaut mark
+">", greater than
+"í", small i, acute accent
+"î", small i, circumflex accent
+"ì", small i, grave accent
+"ï", small i, dieresis or umlaut mark
+"<", less than
+" ", nbsp, non breaking space
+"ñ", small n, tilde
+"ó", small o, acute accent
+"ô", small o, circumflex accent
+"ò", small o, grave accent
+"ø", small o, slash
+"õ", small o, tilde
+"ö", small o, dieresis or umlaut mark
+""", quote, '"'
+"ß", small sharp s, German (sz ligature)
+"þ", small thorn, Icelandic
+"ú", small u, acute accent
+"û", small u, circumflex accent
+"ù", small u, grave accent
+"ü", small u, dieresis or umlaut mark
+"ý", small y, acute accent
+"ÿ", small y, dieresis or umlaut mark 
diff --git a/mcs/class/I18N/West/Test/texts/latin-850.txt b/mcs/class/I18N/West/Test/texts/latin-850.txt
new file mode 100644 (file)
index 0000000..6b196ba
--- /dev/null
@@ -0,0 +1,67 @@
+"\92", capital AE diphthong (ligature)
+"µ", capital A, acute accent
+"¶", capital A, circumflex accent
+"·", capital A, grave accent
+"\8f", capital A, ring
+"Ç", capital A, tilde
+"\8e", capital A, dieresis or umlaut mark
+"\80", capital C, cedilla
+"Ñ", capital Eth, Icelandic
+"\90", capital E, acute accent
+"Ò", capital E, circumflex accent
+"Ô", capital E, grave accent
+"Ó", capital E, dieresis or umlaut mark
+"Ö", capital I, acute accent
+"×", capital I, circumflex accent
+"Þ", capital I, grave accent
+"Ø", capital I, dieresis or umlaut mark
+"¥", capital N, tilde
+"à", capital O, acute accent
+"â", capital O, circumflex accent
+"ã", capital O, grave accent
+"\9d", capital O, slash
+"å", capital O, tilde
+"\99", capital O, dieresis or umlaut mark
+"è", capital THORN, Icelandic
+"é", capital U, acute accent
+"ê", capital U, circumflex accent
+"ë", capital U, grave accent
+"\9a", capital U, dieresis or umlaut mark
+"í", capital Y, acute accent
+" ", small a, acute accent
+"\83", small a, circumflex accent
+"\91", small ae diphthong (ligature)
+"\85", small a, grave accent
+"&", ampersand
+"\86", small a, ring
+"Æ", small a, tilde
+"\84", small a, dieresis or umlaut mark
+"\87", small c, cedilla
+"\82", small e, acute accent
+"\88", small e, circumflex accent
+"\8a", small e, grave accent
+"Ð", small eth, Icelandic
+"\89", small e, dieresis or umlaut mark
+">", greater than
+"¡", small i, acute accent
+"\8c", small i, circumflex accent
+"\8d", small i, grave accent
+"\8b", small i, dieresis or umlaut mark
+"<", less than
+" ", nbsp, non breaking space
+"¤", small n, tilde
+"¢", small o, acute accent
+"\93", small o, circumflex accent
+"\95", small o, grave accent
+"\9b", small o, slash
+"ä", small o, tilde
+"\94", small o, dieresis or umlaut mark
+""", quote, '"'
+"á", small sharp s, German (sz ligature)
+"ç", small thorn, Icelandic
+"£", small u, acute accent
+"\96", small u, circumflex accent
+"\97", small u, grave accent
+"\81", small u, dieresis or umlaut mark
+"ì", small y, acute accent
+"\98", small y, dieresis or umlaut mark 
diff --git a/mcs/class/I18N/West/Test/texts/latin-utf8.txt b/mcs/class/I18N/West/Test/texts/latin-utf8.txt
new file mode 100644 (file)
index 0000000..57336fa
--- /dev/null
@@ -0,0 +1,67 @@
+"Æ", capital AE diphthong (ligature)
+"Á", capital A, acute accent
+"Â", capital A, circumflex accent
+"À", capital A, grave accent
+"Å", capital A, ring
+"Ã", capital A, tilde
+"Ä", capital A, dieresis or umlaut mark
+"Ç", capital C, cedilla
+"Ð", capital Eth, Icelandic
+"É", capital E, acute accent
+"Ê", capital E, circumflex accent
+"È", capital E, grave accent
+"Ë", capital E, dieresis or umlaut mark
+"Í", capital I, acute accent
+"Î", capital I, circumflex accent
+"Ì", capital I, grave accent
+"Ï", capital I, dieresis or umlaut mark
+"Ñ", capital N, tilde
+"Ó", capital O, acute accent
+"Ô", capital O, circumflex accent
+"Ò", capital O, grave accent
+"Ø", capital O, slash
+"Õ", capital O, tilde
+"Ö", capital O, dieresis or umlaut mark
+"Þ", capital THORN, Icelandic
+"Ú", capital U, acute accent
+"Û", capital U, circumflex accent
+"Ù", capital U, grave accent
+"Ü", capital U, dieresis or umlaut mark
+"Ý", capital Y, acute accent
+"á", small a, acute accent
+"â", small a, circumflex accent
+"æ", small ae diphthong (ligature)
+"à", small a, grave accent
+"&", ampersand
+"å", small a, ring
+"ã", small a, tilde
+"ä", small a, dieresis or umlaut mark
+"ç", small c, cedilla
+"é", small e, acute accent
+"ê", small e, circumflex accent
+"è", small e, grave accent
+"ð", small eth, Icelandic
+"ë", small e, dieresis or umlaut mark
+">", greater than
+"í", small i, acute accent
+"î", small i, circumflex accent
+"ì", small i, grave accent
+"ï", small i, dieresis or umlaut mark
+"<", less than
+" ", nbsp, non breaking space
+"ñ", small n, tilde
+"ó", small o, acute accent
+"ô", small o, circumflex accent
+"ò", small o, grave accent
+"ø", small o, slash
+"õ", small o, tilde
+"ö", small o, dieresis or umlaut mark
+""", quote, '"'
+"ß", small sharp s, German (sz ligature)
+"þ", small thorn, Icelandic
+"ú", small u, acute accent
+"û", small u, circumflex accent
+"ù", small u, grave accent
+"ü", small u, dieresis or umlaut mark
+"ý", small y, acute accent
+"ÿ", small y, dieresis or umlaut mark 
diff --git a/mcs/class/I18N/West/Test/texts/nordic-865.txt b/mcs/class/I18N/West/Test/texts/nordic-865.txt
new file mode 100644 (file)
index 0000000..b23634d
--- /dev/null
@@ -0,0 +1,23 @@
+Nordgermanske spr\86k
+Fra Wikipedia, den frie encyklopedi.
+G\86 til: navigasjon, s\9bk
+
+Nordgermanske spr\86k er en undergruppe i den germanske spr\86kgruppe, og stammer fra et felles urnordisk spr\86k. I dag er de forskjellige spr\86kene norsk (bokm\86l/riksm\86l og nynorsk), svensk (ogs\86 finlandsvensk), dansk, f\91r\9bysk og islandsk. Til sammen har i overkant av 20 millioner mennesker et av de nordgermanske spr\86k som sitt morsm\86l. De kalles noen ganger skandinaviske, s\91rlig utenfor Norden, selv om dette er misvisende, da de skandinaviske spr\86kene er kun norsk, dansk og svensk.
+
+Blant de folkegrupper i Norden som ikke bruker et nordgermansk spr\86k som morsm\86l er gr\9bnlenderne, samene og finnene. Det finnes ogs\86 mindre folkegrupper som heller ikke bruker nordgermanske spr\86k, her kan blant andre nevnes kvener, tatere og sig\9bynere. I det tyvende \86rhundret har det ogs\86 kommet en rekke andre folkegrupper til de nordiske land.
+
+De nordiske spr\86kene inndeles i to undergrupper:
+
+    * vestnordiske spr\86k som utgj\9bres av
+          o f\91r\9bysk
+          o islandsk
+          o nynorsk
+
+    * \9bstnordiske eller kontinentalnordiske spr\86k som utgj\9bres av
+          o dansk
+                + norsk bokm\86l/riksm\86l
+          o svensk (ogs\86 finlandsvensk)
+
+Hentet fra "http://no.wikipedia.org/wiki/Nordgermanske_spr%C3%A5k"
+
+Kategori: Germanske spr\86k
diff --git a/mcs/class/I18N/West/Test/texts/nordic-utf8.txt b/mcs/class/I18N/West/Test/texts/nordic-utf8.txt
new file mode 100644 (file)
index 0000000..4d90b43
--- /dev/null
@@ -0,0 +1,23 @@
+Nordgermanske språk
+Fra Wikipedia, den frie encyklopedi.
+Gå til: navigasjon, søk
+
+Nordgermanske språk er en undergruppe i den germanske språkgruppe, og stammer fra et felles urnordisk språk. I dag er de forskjellige språkene norsk (bokmål/riksmål og nynorsk), svensk (også finlandsvensk), dansk, færøysk og islandsk. Til sammen har i overkant av 20 millioner mennesker et av de nordgermanske språk som sitt morsmål. De kalles noen ganger skandinaviske, særlig utenfor Norden, selv om dette er misvisende, da de skandinaviske språkene er kun norsk, dansk og svensk.
+
+Blant de folkegrupper i Norden som ikke bruker et nordgermansk språk som morsmål er grønlenderne, samene og finnene. Det finnes også mindre folkegrupper som heller ikke bruker nordgermanske språk, her kan blant andre nevnes kvener, tatere og sigøynere. I det tyvende århundret har det også kommet en rekke andre folkegrupper til de nordiske land.
+
+De nordiske språkene inndeles i to undergrupper:
+
+    * vestnordiske språk som utgjøres av
+          o færøysk
+          o islandsk
+          o nynorsk
+
+    * østnordiske eller kontinentalnordiske språk som utgjøres av
+          o dansk
+                + norsk bokmål/riksmål
+          o svensk (også finlandsvensk)
+
+Hentet fra "http://no.wikipedia.org/wiki/Nordgermanske_spr%C3%A5k"
+
+Kategori: Germanske språk
diff --git a/mcs/class/I18N/West/Test/texts/norwegian-1252.txt b/mcs/class/I18N/West/Test/texts/norwegian-1252.txt
new file mode 100644 (file)
index 0000000..3d46828
--- /dev/null
@@ -0,0 +1,87 @@
+It is copied from Wikipedia, http://no.wikipedia.org/wiki/Norsk_spr%C3%A5k
+Authored under GFDL license: 
+
+Norsk språk
+Fra Wikipedia, den frie encyklopedi.
+Gå til: navigasjon, søk
+Denne artikkelen dekker et viktig tema, men har for dårlig standard og trenger en opprydning for å fikse dette.
+Se hvordan man redigerer en side og stilmanualen for hjelp, og eventuelt artikkelens diskusjonsside.
+
+Norsk er et skandinavisk språk i den germanske grenen av den indo-europeiske språkfamilie. Norsk er utviklet fra norrønt, men senere sterkt påvirket av dansk og nedertysk. Språket tales av 4,5 millioner i Norge, og av omkring en million utenfor landet. Av disse har omkring 4,3 millioner språket som førstespråk. Det finnes anslagsvis omkring 250 000 norsktalende utenfor Norges grenser, flest i Nord-Amerika. Talt norsk og svensk er gjensidig forståelige nesten uten problemer, dette gjelder også for norsk og dansk, men i litt mindre grad. Til gjengjeld er skriftlig norsk (spesielt bokmål og riksmål) og dansk svært likt; se avsnittet målformer under.
+Innhold
+[skjul]
+
+    * 1 Genetisk klassifisering
+    * 2 Fonetikk og uttale
+    * 3 Målformer
+          o 3.1 Bokmål og riksmål
+          o 3.2 Nynorsk og høgnorsk
+          o 3.3 Samnorsk
+    * 4 Dialekter
+    * 5 Se også
+
+[rediger]
+
+Genetisk klassifisering
+
+Skandinaviske språk klassifiseres gjerne i to grupper: vestskandinavisk (insulær) og østskandinavisk (kontinental). Klassifikasjonen er basert på fonologiske forandringer fra norrønt. For eksempel heter det bru i vestskandinaviske språk, men bro i østskandinaviske språk. Derfor regnes islandsk og færøysk til vestskandinaviske språk, mens svensk og dansk regnes til østskandinaviske språk. En slik klassifikasjon er ikke særlig relevant for norsk som helhet, fordi grensen mellom vest- og østskandinavisk går tvers gjennom det norske dialektkontinuumet. Det nærmeste en kommer å klassifisere norsk på dette nivået, er å sortere standard sørøstnorsk inn under østskandinavisk, og de fleste vestnorske dialekter inn under vestskandinavisk.
+[rediger]
+
+Fonetikk og uttale
+
+I norsk er det stor forskjell i fonetikken i de forskjellige dialektene. De østnorske dialektene har postalveolare eller retroflekse språklyder i ord som "barn", "bart" og "burde". De vestnorske dialektene mangler oftest disse lydene. Det samme gjelder tykk L, en relativt sjelden språklyd på verdensbasis. Den er særlig vanlig i trønderske dialekter i ord som for eksempel "klær", "sol" og "kule". Det er også dialekter som har palataliserte dentaler og skarre-r. Norsk har, som skandinavisk i sin allminnelighet, relativt mange ulike vokaler og bruker, utover det latinske basisalfabetet, tegnene æ, ø og å.
+
+Norsk og svensk skiller seg ut fra de fleste større europeiske språk ved å være tonespråk. Andre språk i Europa med større eller mindre innslag av leksikalsk betydningsskillende ordintonasjon inkluderer estisk, baltiske språk og noen sydslaviske språk. Dansk og tyske dialekter omkring Köln har såkalt stød, eller glottal lukkelyd, som reflekterer et tidligere tonesystem.
+[rediger]
+
+Målformer
+
+Norsk språk har to offisielle målformer (skriftnormaler); bokmål og nynorsk. Det finnes i tillegg en uoffisiell normert skriftnormal, riksmål, og et lite mindretall holder fast ved en eldre nynorsknormering under navnet høgnorsk.
+
+Majoriteten av den norske befolkningen (88-90 %) skriver enten bokmål eller riksmål. Andelen nynorskbrukere nådde en topp på rundt en tredjedel før krigen, men har i etterkrigstiden vært i jevn tilbakegang og er idag falt til 10-12 %.
+[rediger]
+
+Bokmål og riksmål
+
+Bokmål og riksmål er basert på den danske skrifttradisjonen, som følge av at dansk i løpet av senmiddelalderen kom til å bli landets offisielle språk. Forskjellen mellom skriftlig dansk og norsk bokmål/riksmål er idag ikke stor. Først i begynnelsen av det tyvende århundre har språket blitt tillempet i forhold til det danske. Hovedforkjemperen for denne retningen i norsk skriftnormering var Knud Knudsen (1812-1895), som ønsket en regulering «efter den almindeligste Udtale af Ordene i de Dannedes Mund». Eventyrsamlingene til Asbjørnsen og Moe bidro ytterligere til at norske ord kom inn i skriftspråket.
+
+Dette språket ble i praksis delt da riksmål offisielt skiftet navn til bokmål i 1929. Som følge av myndighetenes samnorskpolitikk ble det offisielle bokmålet avvist av store deler av befolkningen, som opprettholdt riksmålet som egen norm. Riksmålet normeres av Det Norske Akademi for Sprog og Litteratur, og benyttes bl.a. av store aviser som Aftenposten.
+[rediger]
+
+Nynorsk og høgnorsk
+
+Det andre offisielle skriftnormalen er nynorsk, som ble utviklet av Ivar Aasen i 1842-73 utfra norske dialekter, og i opposisjon til borgerskapets og byenes dansknære språk.
+
+Også av dette språket eksisterer det en uoffisiell norm, høgnorsk, som i likhet med riksmål har brutt med den offisielle normeringen og opprettholder et mer tradisjonelt Aasen-landsmål.
+[rediger]
+
+Samnorsk
+
+Samnorsk var et planlagt språk som skulle oppstå ved sammensmeltning av bokmål og nynorsk. Samnorsktanken er idag offisielt forlatt, men dominerte offisiell norsk språkpolitikk i store deler av det tyvende århundre, spesielt 1955-1965.
+[rediger]
+
+Dialekter
+
+Norsk talespråk er i synkront perspektiv kjennetegnet av relativt store dialektforskjeller og sterke, livskraftige dialekter, spesielt sett i forhold til det lave folketallet i Norge. Dialektforskjellene kan blant annet tilskrives store geografiske avstander, og at fjellandskapet har begrenset kontakten mellom folk i tidligere tider. Det spesielle med Norge er likevel den sterke stillingen dialektbruk har fått i nyere tid, også i mer formelle sammenhenger. Et norsk standardtalemål eksisterer, men er først og fremst knyttet til riksmålet og moderate former for bokmål slik enkelte taler på Østlandet. Det har ellers ingen formell stilling, og brukes knapt i andre deler av landet. Også på nynorsk finnes det et standardtalemål, dette er gjerne knyttet til høgnorskbevegelsen.
+
+En skiller mellom to store dialektgrupper i Norge, østnorsk og vestnorsk. Til østnorsk regnes Østlandet, Trøndelag og Nordmøre; til vestnorsk regnes Agder-fylkene, Vestlandet inkludert Sunnmøre og Romsdal, og Nord-Norge. (Det må likevel nevnes at både romsdalsdialekten og dialektene i store deler av Nordland står i en mellomstilling i forhold til denne oppdelingen.) Et viktig kriterium for skillet er den såkalte jamvektsloven (likevektsloven): i østnorske dialekter ble de trykklette vokalene a og u (og i noen grad i) fra norrønt svekket til e eller fullt bortfall i ord med lange (og dermed mer betonte) rotstavelser, men holdt seg uendret i ord med korte rotstavelser (gjelder ikke alle østnorske dialekter). Denne forskjellen finnes ikke i vestnorsk. Et annet kriterium er at mange østnorske dialekter har tykk L der skriftbildet har «l» eller «rd», men vestnorske dialekter har oftest ikke dette trekket.
+[rediger]
+
+Se også
+
+    * Bokmål
+    * Landsmål
+    * Nynorsk
+    * Riksmål
+    * Russenorsk
+    * Samnorsk
+    * Norsk språkutvikling 1850 - 1900
+    * Det Norske Akademi for Sprog og Litteratur (1953-)
+    * Noregs mållag (1906-)
+    * Norsk rettskrivning
+    * Norsk språknemnd (1952-1972)
+    * Norsk språkråd (1972-2004)
+
+Hentet fra «http://no.wikipedia.org/wiki/Norsk_spr%C3%A5k»
+
+Kategorier: Viktig opprydning | Norsk språk | Germanske språk
diff --git a/mcs/class/I18N/West/Test/texts/norwegian-utf8.txt b/mcs/class/I18N/West/Test/texts/norwegian-utf8.txt
new file mode 100644 (file)
index 0000000..1c2d8e2
--- /dev/null
@@ -0,0 +1,87 @@
+It is copied from Wikipedia, http://no.wikipedia.org/wiki/Norsk_spr%C3%A5k
+Authored under GFDL license: 
+
+Norsk språk
+Fra Wikipedia, den frie encyklopedi.
+Gå til: navigasjon, søk
+Denne artikkelen dekker et viktig tema, men har for dårlig standard og trenger en opprydning for å fikse dette.
+Se hvordan man redigerer en side og stilmanualen for hjelp, og eventuelt artikkelens diskusjonsside.
+
+Norsk er et skandinavisk språk i den germanske grenen av den indo-europeiske språkfamilie. Norsk er utviklet fra norrønt, men senere sterkt påvirket av dansk og nedertysk. Språket tales av 4,5 millioner i Norge, og av omkring en million utenfor landet. Av disse har omkring 4,3 millioner språket som førstespråk. Det finnes anslagsvis omkring 250 000 norsktalende utenfor Norges grenser, flest i Nord-Amerika. Talt norsk og svensk er gjensidig forståelige nesten uten problemer, dette gjelder også for norsk og dansk, men i litt mindre grad. Til gjengjeld er skriftlig norsk (spesielt bokmål og riksmål) og dansk svært likt; se avsnittet målformer under.
+Innhold
+[skjul]
+
+    * 1 Genetisk klassifisering
+    * 2 Fonetikk og uttale
+    * 3 Målformer
+          o 3.1 Bokmål og riksmål
+          o 3.2 Nynorsk og høgnorsk
+          o 3.3 Samnorsk
+    * 4 Dialekter
+    * 5 Se også
+
+[rediger]
+
+Genetisk klassifisering
+
+Skandinaviske språk klassifiseres gjerne i to grupper: vestskandinavisk (insulær) og østskandinavisk (kontinental). Klassifikasjonen er basert på fonologiske forandringer fra norrønt. For eksempel heter det bru i vestskandinaviske språk, men bro i østskandinaviske språk. Derfor regnes islandsk og færøysk til vestskandinaviske språk, mens svensk og dansk regnes til østskandinaviske språk. En slik klassifikasjon er ikke særlig relevant for norsk som helhet, fordi grensen mellom vest- og østskandinavisk går tvers gjennom det norske dialektkontinuumet. Det nærmeste en kommer å klassifisere norsk på dette nivået, er å sortere standard sørøstnorsk inn under østskandinavisk, og de fleste vestnorske dialekter inn under vestskandinavisk.
+[rediger]
+
+Fonetikk og uttale
+
+I norsk er det stor forskjell i fonetikken i de forskjellige dialektene. De østnorske dialektene har postalveolare eller retroflekse språklyder i ord som "barn", "bart" og "burde". De vestnorske dialektene mangler oftest disse lydene. Det samme gjelder tykk L, en relativt sjelden språklyd på verdensbasis. Den er særlig vanlig i trønderske dialekter i ord som for eksempel "klær", "sol" og "kule". Det er også dialekter som har palataliserte dentaler og skarre-r. Norsk har, som skandinavisk i sin allminnelighet, relativt mange ulike vokaler og bruker, utover det latinske basisalfabetet, tegnene æ, ø og å.
+
+Norsk og svensk skiller seg ut fra de fleste større europeiske språk ved å være tonespråk. Andre språk i Europa med større eller mindre innslag av leksikalsk betydningsskillende ordintonasjon inkluderer estisk, baltiske språk og noen sydslaviske språk. Dansk og tyske dialekter omkring Köln har såkalt stød, eller glottal lukkelyd, som reflekterer et tidligere tonesystem.
+[rediger]
+
+Målformer
+
+Norsk språk har to offisielle målformer (skriftnormaler); bokmål og nynorsk. Det finnes i tillegg en uoffisiell normert skriftnormal, riksmål, og et lite mindretall holder fast ved en eldre nynorsknormering under navnet høgnorsk.
+
+Majoriteten av den norske befolkningen (88-90 %) skriver enten bokmål eller riksmål. Andelen nynorskbrukere nådde en topp på rundt en tredjedel før krigen, men har i etterkrigstiden vært i jevn tilbakegang og er idag falt til 10-12 %.
+[rediger]
+
+Bokmål og riksmål
+
+Bokmål og riksmål er basert på den danske skrifttradisjonen, som følge av at dansk i løpet av senmiddelalderen kom til å bli landets offisielle språk. Forskjellen mellom skriftlig dansk og norsk bokmål/riksmål er idag ikke stor. Først i begynnelsen av det tyvende århundre har språket blitt tillempet i forhold til det danske. Hovedforkjemperen for denne retningen i norsk skriftnormering var Knud Knudsen (1812-1895), som ønsket en regulering «efter den almindeligste Udtale af Ordene i de Dannedes Mund». Eventyrsamlingene til Asbjørnsen og Moe bidro ytterligere til at norske ord kom inn i skriftspråket.
+
+Dette språket ble i praksis delt da riksmål offisielt skiftet navn til bokmål i 1929. Som følge av myndighetenes samnorskpolitikk ble det offisielle bokmålet avvist av store deler av befolkningen, som opprettholdt riksmålet som egen norm. Riksmålet normeres av Det Norske Akademi for Sprog og Litteratur, og benyttes bl.a. av store aviser som Aftenposten.
+[rediger]
+
+Nynorsk og høgnorsk
+
+Det andre offisielle skriftnormalen er nynorsk, som ble utviklet av Ivar Aasen i 1842-73 utfra norske dialekter, og i opposisjon til borgerskapets og byenes dansknære språk.
+
+Også av dette språket eksisterer det en uoffisiell norm, høgnorsk, som i likhet med riksmål har brutt med den offisielle normeringen og opprettholder et mer tradisjonelt Aasen-landsmål.
+[rediger]
+
+Samnorsk
+
+Samnorsk var et planlagt språk som skulle oppstå ved sammensmeltning av bokmål og nynorsk. Samnorsktanken er idag offisielt forlatt, men dominerte offisiell norsk språkpolitikk i store deler av det tyvende århundre, spesielt 1955-1965.
+[rediger]
+
+Dialekter
+
+Norsk talespråk er i synkront perspektiv kjennetegnet av relativt store dialektforskjeller og sterke, livskraftige dialekter, spesielt sett i forhold til det lave folketallet i Norge. Dialektforskjellene kan blant annet tilskrives store geografiske avstander, og at fjellandskapet har begrenset kontakten mellom folk i tidligere tider. Det spesielle med Norge er likevel den sterke stillingen dialektbruk har fått i nyere tid, også i mer formelle sammenhenger. Et norsk standardtalemål eksisterer, men er først og fremst knyttet til riksmålet og moderate former for bokmål slik enkelte taler på Østlandet. Det har ellers ingen formell stilling, og brukes knapt i andre deler av landet. Også på nynorsk finnes det et standardtalemål, dette er gjerne knyttet til høgnorskbevegelsen.
+
+En skiller mellom to store dialektgrupper i Norge, østnorsk og vestnorsk. Til østnorsk regnes Østlandet, Trøndelag og Nordmøre; til vestnorsk regnes Agder-fylkene, Vestlandet inkludert Sunnmøre og Romsdal, og Nord-Norge. (Det må likevel nevnes at både romsdalsdialekten og dialektene i store deler av Nordland står i en mellomstilling i forhold til denne oppdelingen.) Et viktig kriterium for skillet er den såkalte jamvektsloven (likevektsloven): i østnorske dialekter ble de trykklette vokalene a og u (og i noen grad i) fra norrønt svekket til e eller fullt bortfall i ord med lange (og dermed mer betonte) rotstavelser, men holdt seg uendret i ord med korte rotstavelser (gjelder ikke alle østnorske dialekter). Denne forskjellen finnes ikke i vestnorsk. Et annet kriterium er at mange østnorske dialekter har tykk L der skriftbildet har «l» eller «rd», men vestnorske dialekter har oftest ikke dette trekket.
+[rediger]
+
+Se også
+
+    * Bokmål
+    * Landsmål
+    * Nynorsk
+    * Riksmål
+    * Russenorsk
+    * Samnorsk
+    * Norsk språkutvikling 1850 - 1900
+    * Det Norske Akademi for Sprog og Litteratur (1953-)
+    * Noregs mållag (1906-)
+    * Norsk rettskrivning
+    * Norsk språknemnd (1952-1972)
+    * Norsk språkråd (1972-2004)
+
+Hentet fra «http://no.wikipedia.org/wiki/Norsk_spr%C3%A5k»
+
+Kategorier: Viktig opprydning | Norsk språk | Germanske språk
diff --git a/mcs/class/I18N/West/Test/texts/polish-1250.txt b/mcs/class/I18N/West/Test/texts/polish-1250.txt
new file mode 100644 (file)
index 0000000..004ae2b
--- /dev/null
@@ -0,0 +1,498 @@
+This text is copied from Wikipedia, http://pl.wikipedia.org/wiki/J%C4%99zyk_polski
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Jêzyk polski
+Z Wikipedii, wolnej encyklopedii.
+Jump to: navigation, search
+
+Jêzyk polski nale¿y wraz z jêzykami czeskim, s³owackim, pomorskim (którego dialekt kaszubski przez czê\9cæ polskich uczonych jest jeszcze czêsto traktowany jako dialekt jêzyka polskiego), dolno³u¿yckim, górno³u¿yckim oraz wymar³ym po³abskim do grupy jêzyków zachodnios³owiañskich, stanowi¹cych czê\9cæ rodziny jêzyków indoeuropejskich. Ocenia siê, ¿e jest on jêzykiem ojczystym oko³o 46 milionów ludzi na \9cwiecie, w tym g³ównie w Polsce oraz w\9cród Polaków za granic¹ (Polonia).
+Polski
+Obszar         Polska (38 mln) oraz Niemcy, Ukraina, Bia³oru\9c, Litwa, Rosja, Austria, Izrael, Stany Zjednoczone, Kanada, Australia i inne kraje
+Liczba mówi¹cych       46 milionów
+Ranking        25.
+Klasyfikacja genetyczna        Jêzyki indoeuropejskie
+*Jêzyki s³owiañskie
+**Jêzyki zachodnios³owiañskie
+***Jêzyk polski
+Alfabet        ³aciñski
+Status oficjalny
+Jêzyk urzêdowy         Polska, jeden z urzêdowych w Unii Europejskiej
+Regulowany przez       Rada Jêzyka Polskiego
+Kody jêzyka
+ISO 639-1      pl
+ISO 639-2      pol
+SIL    PQL
+W Wikipedii
+Patrz tak¿e: Jêzyk - Jêzyki \9cwiata
+Wikipedia
+Polska wersja jêzykowa Wikipedii
+
+
+W Wikis³owniku: S³ownik jêzyka polskiego
+Spis tre\9cci
+[schowaj]
+
+    * 1 Historia
+          o 1.1 Zarys fonetyki historycznej
+          o 1.2 Wp³ywy jêzyków obcych
+    * 2 Dialekty
+    * 3 Fonetyka
+          o 3.1 Samog³oski nosowe
+          o 3.2 Budowa sylab, d³ugo\9cæ samog³osek oraz miêkko\9cæ
+          o 3.3 Akcent
+    * 4 Gramatyka
+          o 4.1 Czê\9cci mowy
+          o 4.2 Liczby
+          o 4.3 Rodzaje
+          o 4.4 Przypadki
+                + 4.4.1 Mianownik
+                + 4.4.2 Dope³niacz
+                + 4.4.3 Celownik
+                + 4.4.4 Biernik
+                + 4.4.5 Narzêdnik
+                + 4.4.6 Miejscownik
+                + 4.4.7 Wo³acz
+          o 4.5 Czasownik
+          o 4.6 Czasy
+                + 4.6.1 Czas zaprzesz³y
+                + 4.6.2 Czas przesz³y
+                + 4.6.3 Czas tera\9fniejszy
+                + 4.6.4 Czas przysz³y prosty
+                + 4.6.5 Czas przysz³y z³o¿ony
+          o 4.7 Przymiotnik
+    * 5 Liczebnik
+    * 6 Aktualnie zachodz¹ce zmiany
+          o 6.1 Zmiany struktury dialektów
+          o 6.2 Zmiany gramatyczne
+          o 6.3 Zmiany leksykalne
+          o 6.4 Zmiany fonetyczne
+          o 6.5 Zmiany w postrzeganiu wulgaryzmów
+    * 7 Zobacz te¿
+          o 7.1 Linki zewnêtrzne
+
+[Edytuj]
+
+Historia
+[Edytuj]
+
+Zarys fonetyki historycznej
+
+Jêzyk polski wywodzi siê z jêzyka praindoeuropejskiego. Do najwa¿niejszych wczesnych zmian nale¿y palatalizacja indoeuropejska. Dawne miêkkie k, kh, g, gh przesz³y w jêzykach satem, takich jak praba³tos³owiañski, w s i z, za\9c w jêzykach kentum, takich jak ³acina i jêzyki germañskie, w k i g. W jêzyku pras³owiañskim wszystkie sylaby zamkniête przesz³y w otwarte. Poci¹gnê³o to za sob¹ powstanie samog³osek nosowych i zró¿nicowanie d³ugo\9cci samog³osek. Ukszta³towa³a siê te¿ opozycja spó³g³osek miêkkich i twardych. W jêzyku polskim zg³oskotwórcze r i l przesz³y w pary samog³oska + r lub odpowiednio l. Nast¹pi³ te¿ zanik iloczasu, a wiele spó³g³osek miêkkich zosta³o utwardzonych, np. miêkkie r przesz³o w ¿ (zapis rz). Wiele spó³g³osek miêkkich traci miêkko\9cæ w wyg³osie (np. koñcowe miêkkie w w nazwach typu Wroc³aw, w przypadkach zale¿nych nadal jest miêkkie - we Wroc³awiu).
+[Edytuj]
+
+Wp³ywy jêzyków obcych
+
+Wspó³czesny jêzyk polski wywodzi siê z dialektów u¿ywanych w Wielkopolsce i Ma³opolsce, w mniejszym stopniu na Mazowszu oraz z innych regionach. Na jêzyk polski wp³ywa³y inne jêzyki. Najwa¿niejszymi z nich by³y:
+
+    * niemiecki
+    * czeski
+    * ³acina
+    * w³oski
+    * francuski
+    * rosyjski
+    * angielski
+
+A tak¿e jêzyk ukraiñski za po\9crednictwem gwary kresowej.
+
+Obecnie obserwowaæ mo¿na du¿y wp³yw jêzyka angielskiego na jêzyk polski.
+[Edytuj]
+
+Dialekty
+
+W etnicznym jêzyku polskim wyró¿niamy:
+
+    * jêzyk literacki (dialekt kulturalny)
+    * dialekty ludowe
+    * gwary miejskie (np. gwara lwowska, gwara poznañska, gwara warszawska)
+    * gwary \9crodowiskowe (np. grypsera)
+
+Podstawowe dialekty jêzyka polskiego to:
+
+    * \9cl¹ski (zobacz te¿: jêzyk \9cl¹ski, gwara \9cl¹ska)
+    * wielkopolski
+    * ma³opolski (zobacz te¿: gwara krakowska, gwara podhalañska, gwara s¹decka)
+    * mazowiecki (zobacz te¿: gwara bia³ostocka)
+
+Poza tymi podstawowymi dialektami istniej¹ tak¿e dialekty mieszane, szczególnie na ziemiach poniemieckich.
+[Edytuj]
+
+Fonetyka
+[Edytuj]
+
+Samog³oski nosowe
+
+W jêzyku polskim wystêpuj¹ zachowane jeszcze z pras³owiañskiego samog³oski nosowe, które zanik³y w wiêkszo\9cci pozosta³ych jêzyków s³owiañskich (choæ mo¿na by³o resztkê ich znale\9fæ w dialektach macedoñskich i bu³garskich jeszcze w pocz¹tku minionego wieku). Samog³oski te to ¹ oraz ê. Jednak i w polskim zachodzi proces zaniku samog³osek nosowych. Samog³oski historycznie nosowe, w wielu kontekstach przechodz¹ w nienosowe, tak np.:
+Zjawisko       Przyk³ad
+Pisownia       Przewa¿aj¹ca wymowa
+Zanik nosowo\9cci ê w wyg³osie   siê     sie
+kobietê        kobiete
+widzê  widze
+
+Jednak samog³oski nosowe nie tylko zanikaj¹, ale te¿ tworz¹ siê tam, gdzie ich wcze\9cniej nie by³o, najczê\9cciej w pozycji przed /S/. Por. pisowniê nonsens i potoczn¹ wymowê n¹sês.
+[Edytuj]
+
+Budowa sylab, d³ugo\9cæ samog³osek oraz miêkko\9cæ
+
+We wspó³czesnym jêzyku polskim jest tylko jedna d³ugo\9cæ samog³osek. Nie znaczy to, ¿e nie wypowiada siê czasem jej d³u¿ej lub krócej a jedynie ¿e nie ma to wp³ywu na znaczenie. Historycznie polski by³ jêzykiem o dominuj¹cej budowie sylab CV (zakoñczone samog³osk¹, tak jak we w³oskim i japoñskim) i by³y 3 d³ugo\9cci samog³osek: krótkie, normalne, d³ugie. Istnia³y dwie samog³oski krótkie (jery)- miêkka i twarda. Samog³oski te zanik³y, przy czym jednocze\9cnie nastêpowa³o wyd³u¿enie samog³oski poprzedzaj¹cej, a dwie sylaby typu CV zmienia³y siê w jedn¹ CVC. Samog³oski krótkie przechodzi³y przy wyd³u¿eniu w miêkkie lub twarde e. Przy zaniku miêkkiej samog³oski krótkiej, ostatnia spó³g³oska zachowywa³a miêkko\9cæ. Tak np: "D (krótka samog³oska miêkka) N (krótka samog³oska miêkka)" przechodzi³o w "D (normalne E) (miêkkie N)" (dzieñ), natomiast "D (krótka samog³oska miêkka) N (miêkkie A)" w "D N (miêkkie A)" (dnia). D³ugie samog³oski przesz³y w swoje krótkie odpowiedniki, przy czym nastêpowa³o podniesienie wymowy. Podwy¿szone a, e i o, przez pewien czas stanowi¹ce osobne d\9fwiêki, przesz³y w a i e i u. To ostatnie nadal jest zaznaczane ortograficznie przez ó, przez pewien czas zaznaczano te¿ odrêbnymi znakami podwy¿szone a i e. Samog³osek wysokich i oraz u oczywi\9ccie nie mo¿na by³o podwy¿szyæ.
+[Edytuj]
+
+Akcent
+
+Akcent w jêzyku polskim ma charakter mieszany toniczno-dynamiczny. Nastêpuj¹ce trzy elementy tworz¹ akcent w wyrazie:
+
+    * pocz¹tek wyrazu cechuje wysoki poziom intesywno\9cci,
+    * podwy¿szenie tonu sylaby akcentowanej,
+    * wzd³u¿enie samog³oski akcentowanej i os³abienie artylkulacji na koñcu wyrazu.
+
+W wyrazach dwusylabowych (z akcentem na pierwszej sylabie) akcent ma charakter przede wszystkim dynamiczny, na ogó³ wystêpuje te¿ pewne wzd³u¿enie samog³oski (szczególnie je\9cli wyraz wymawiany jest w izolacji). Ró¿nice w wysoko\9cci tonu s¹ mniej regularne. Akcentowana sylaba przedostatnia w wyrazach ponad dwusylabowych ma wy¿szy ton ni¿ przynajmniej jedna z sylab j¹ otaczaj¹cych, równie¿ samog³oska akcentowana mo¿e ulec wzd³u¿eniu. W wyrazach czterosylabowych i d³u¿szych pojawia siê, oprócz akcentu na sylabie przedostatniej, akcent poboczny na sylabie pierwszej. Akcent poboczny objawia siê wy¿szym poziomem intensywno\9cci¹ ni¿ kolejne sylaby.
+
+Akcent w jêzyku polskim jest prawie zawsze paroksytoniczny, tzn. pada na przedostatni¹ sylabê wyrazu. Istnieje jednak spora grupa rzeczowników akcentownych proparoksytonicznie, tj. na sylabie trzeciej od koñca, m.in.
+
+    * rzeczowniki pochodzenia greckiego zakoñczone na -ika, -yka, np. GRAfika, FIzyka, (a tak¿e zakoñczone na -ik, -yk w przypadkach zale¿nych, które maj¹ o jedn¹ sylabê wiêcej ni¿ mianownik np. FIzyk, ale z FIzykiem).
+    * spora grupa tradycyjnie akcentowanych na trzeciej sylabie od koñca np. REgu³a, RYzyko, oKOlica, CZTErysta, NAuka, rzeczposPOlita.
+
+W zwi¹zku z siln¹ tendencj¹ do wyrównywnia akcentu w wy¿ej wymienionych typach wyrazów, s³owniki normatywne dopuszczaj¹ ich akcentowanie na sylabie przedostatniej w wymownie mniej starannej i sytuacjach bardziej swobodnych.
+
+Drug¹ grupê wyj¹tków od zasady tworz¹ niektóre formy czasowników, i tak:
+
+    * formy czasu przesz³ego akcentowane s¹ tak, jakby koñcówki osobowe -\9cmy,, -\9ccie nie nale¿a³y do wyrazu, np. czyTAli\9cmy
+    * formy trybu przypuszczaj¹cego, akcentowane s¹ tak, jakby koñcówki -bym, -bys, by\9c, by\9cmy, by\9ccie nie nale¿a³y do wyrazu, np. CZYta³bym, czyTAliby\9cmy,
+
+Mimo rozpowszechnienia akcentu paroksotonicznego (spowodowanego przede wszystkim pisowni¹) s³owniki zalecaj¹ opisany sposób akcentowania.
+[Edytuj]
+
+Gramatyka
+[Edytuj]
+
+Czê\9cci mowy
+
+Podstawowe czê\9cci mowy w jêzyku polskim to:
+
+    * rzeczownik - odmieniany przez liczby i przypadki, posiada sta³y rodzaj
+    * przymiotnik - odmieniany przez liczby i przypadki i rodzaje
+    * czasownik
+    * przys³ówek
+    * liczebnik
+    * zaimki ró¿nego rodzaju
+    * przyimki oraz inne niewielkie grupy
+
+[Edytuj]
+
+Liczby
+
+W jêzyku polskim s¹ 2 liczby - pojedyncza i mnoga, choæ osta³y siê te¿ nieliczne formy liczby podwójnej, szczególnie w okre\9cleniach czê\9cci cia³a wystêpuj¹cych parami. Mo¿na na przyk³ad porównaæ odmianê s³ów rêka (cechy liczby podwójnej) i mêka (odmiana normalna):
+Przypadek      Liczba pojedyncza       Liczba mnoga (z cechami form liczby podwójnej)  Liczba pojedyncza       Liczba mnoga
+Mianownik      rêka    rêce    mêka    mêki
+Dope³niacz     rêki    r¹k     mêki    m¹k lub mêk
+Celownik       rêce    rêkom   mêce    mêkom
+Biernik        rêkê    rêce    mêkê    mêki
+Narzêdnik      rêk¹    rêkoma lub rêkami       mêk¹    mêkami
+Miejscownik    rêce    rêkach  mêce    mêkach
+
+W liczbie mnogiej wyrazu rêka w rzeczywisto\9cci zachowa³y siê cechy form liczby podwójnej - miêkkie e zamiast twardego i w mianowniku i bierniku oraz -oma zamiast -ami w narzêdniku. Ta druga cecha jednak zanika i coraz czê\9cciej s³yszy siê formê rêkami. Innym reliktem liczby podwójnej s¹ formy typu chod\9fta, chod\9fwa, róbta, robita itp. S³owo róbta pierwotnie znaczy³o "(wy dwaj) róbcie".
+[Edytuj]
+
+Rodzaje
+
+Na podstawie kryterium zgodno\9cci z przymiotnikiem mo¿na wyró¿niæ 5 rodzajów:
+Rodzaj         Przyk³ad - biernik liczby pojedynczej   Przyk³ad - mianownik liczby mnogiej
+Wyraz okre\9claj¹cy      Wyraz okre\9clany         Wyraz okre\9claj¹cy       Wyraz okre\9clany
+Rodzaj mêski osobowy   nowego  pracownika      nowi    pracownicy
+Rodzaj mêski nieosobowy ¿ywotny        nowego  psa     nowe    psy
+Rodzaj mêski nieosobowy nie¿ywotny     nowy    stó³    nowe    sto³y
+Rodzaj ¿eñski  now¹    szafê   nowe    szafy
+Rodzaj nijaki  nowe    krzes³o         nowe    krzes³a
+
+Zwykle jednak wyró¿nia siê tylko jeden rodzaj mêski nieosobowy, a wiêc razem 4 rodzaje.
+[Edytuj]
+
+Przypadki
+
+Jest 7 przypadków (w nawiasach podano pytania przypadków):
+
+    * mianownik (kto? co?) jest
+    * dope³niacz (kogo? czego?) nie ma
+    * celownik (komu? czemu?) przygl¹dam siê
+    * biernik (kogo? co?) widzê, s³yszê
+    * narzêdnik (z kim? z czym?) idê, cieszê siê
+    * miejscownik (o kim? o czym?) mówiê, my\9c
+    * wo³acz (o!) ty mój
+
+Przyk³adowa odmiana przez przypadki:
+M.     nos     ojczyzna        jajko
+D.     nosa    ojczyzny        jajka
+C.     nosowi  ojczy\9fnie       jajku
+B.     nos     ojczyznê        jajko
+N.     nosem   ojczyzn¹        jajkiem
+Msc.   nosie   ojczy\9fnie       jajku
+W.     nosie!  ojczyzno!       jajko!
+
+Przymiotniki wykazuj¹ szcz¹tkowo, oprócz odmiany przymiotnikowej, równie¿ odmianê rzeczownikow¹. Formy te to np. nom. zdrów oraz dpn. i celownik w wyra¿eniach typu z grecka i po grecku. W liczbie mnogiej wo³acz jest zawsze równy mianownikowi.
+[Edytuj]
+
+Mianownik
+
+G³ównym zadaniem mianownika jest oznaczanie podmiotu. Mianownik jest w jêzyku polskim u¿ywany niezbyt czêsto (identycznie, jak i w innych jêzykach indoeuropejskich o rozbudowanej fleksji). Konstrukcje w których w jêzykach o podobnym systemie przypadków wystêpuje mianownik a w polskim inny przypadek to m.in.:
+
+    * w zdaniach postaci "X jest Y", np. "on jest lekarzem", Y wystêpuje w narzêdniku
+    * w negatywnych zdaniach egzystencjalnych podmiot wystêpuje w dope³niaczu, np. "doktora nie ma"
+
+Ponadto podmiot jest czêsto opuszczany a jego rolê przejmuje koñcówka osobowa czasownika. Z drugiej strony mianownik wystêpuje czêsto w funkcji wo³acza.
+[Edytuj]
+
+Dope³niacz
+
+Dope³niacz prawie nigdy nie jest równy mianownikowi. Jego podstawowa funkcja jest posesywna (odpowiada na pytania kogo? i czego?). W negatywnych zdaniach egzystencjalnych pe³ni funkcjê podmiotu ("nie ma go"), w innych zdaniach negatywnych funkcjê dope³nienia bli¿szego ("jem sa³atê", "nie jem sa³aty"). Dope³niacz mo¿e te¿ pe³niæ funkcjê dope³nienia bli¿szego w przypadku rzeczowników niepoliczalnych (np. "kupi³em cebuli"). Mo¿na sobie wyobraziæ, ¿e przed takim dope³nieniem wystêpuje "ukryty" rzeczownik okre\9claj¹cy ilo\9cæ ("kupi³em kilogram cebuli" czy te¿ "kupi³em trochê cebuli").
+[Edytuj]
+
+Celownik
+
+Celownik oznacza zwykle dope³nienie dalsze.
+[Edytuj]
+
+Biernik
+
+Biernik oznacza zwykle dope³nienie bli¿sze. W po³¹czeniach z przyimkiem oznacza zwykle kierunek zmiany. Biernik mo¿e przyjmowaæ trzy postacie:
+
+    * równy dope³niaczowi (rodzaj mêskoosobowy, w liczbie pojedynczej równie¿ mêsko¿ywotny)
+    * osobna forma (liczba pojedyncza rodzaju ¿eñskiego)
+    * równy mianownikowi (pozosta³e przypadki)
+
+Poniewa¿ bardzo czêsto jest równy dope³niaczowi lub mianownikowi, niewiele jest form w których mo¿na zast¹piæ biernik jednym z tych dwóch przypadków zmieniaj¹c znaczenie. Do nielicznych form w których wystêpuje konflikt jest zdanie z podmiotem i dope³nieniem bli¿szym. Je\9cli nie mo¿na stwierdziæ co jest podmiotem a co dope³nieniem bli¿szym, to podmiot zawsze wystêpuje jako pierwszy. Np. w zdaniu "psy goni¹ koty", choæ samodzielnie wyrazy "psy" oraz "koty" mog¹ byæ zarówno mianownikiem jak i biernikiem, jedynie "psy" mog¹ byæ podmiotem a jedynie "koty" dope³nieniem.
+[Edytuj]
+
+Narzêdnik
+
+Narzêdnik wystêpuje w wielu po³¹czeniach z przyimkami (np. "czapka z pomponikiem" - tzw. sociativus), ale te¿ samodzielnie jako okre\9clenie sposobu, narzêdzia, czasu itd. (np. "je\9cæ widelcem"), jako dope³nienie bli¿sze (np. "zarz¹dzaæ domem", "pracowaæ nocami") oraz w funkcji orzecznika (np. "jest marynarzem").
+[Edytuj]
+
+Miejscownik
+
+Miejscownik nigdy nie wystêpuje sam, jedynie w po³¹czeniach z przyimkami. Czêsto zast¹pienie miejscownika biernikiem powoduje zmianê znaczenia ze stanu w kierunek zmian, np. "na poczcie" (z miejscownikiem) oznacza po³o¿enie danego obiektu, za\9c na "na pocztê" (z biernikiem) oznacza kierunek zmiany po³o¿enia.
+[Edytuj]
+
+Wo³acz
+
+Wo³acz s³u¿y do bezpo\9crednich zwrotów do adresata, nie jest bezpo\9crednio czê\9cci¹ zdania. Wo³acz jest przypadkiem zanikaj¹cym. W wiêkszo\9cci sytuacji jego funkcje pe³ni mianownik. Dzieje siê tak w przypadku:
+
+    * przymiotników oraz rzeczowników o odmianie przymiotnikowej
+    * nazw w³asnych - formy "chod\9f tu £ukaszu" wystêpuj¹ o wiele rzadziej ni¿ "chod\9f tu £ukasz", a u¿ycie wo³acza dodaje wypowiedzi cech emocjonalnych
+    * liczby mnogiej
+    * rzeczowników rodzaju nijakiego
+
+Ostatnie dwie cechy charakteryzuj¹ tak¿e inne jêzyki indoeuropejskie, które we fleksji maj¹ wo³acz (przede wszystkim grekê i ³acinê), i s¹ zapewne odziedziczone z prajêzyka.
+
+Potocznie formy wo³acza mog¹ zastêpowaæ mianownik (np. "Jasiu przyszed³"). To te¿ jest chyba zjawisko prajêzykowe, które w innych jêzykach zanik³o. Jedynym przyk³adem ³aciñskim jest mianownik Iuppiter maj¹cy formê wo³acza (zwykle bywa odwrotnie, to wo³acz ma formê mianownika).
+[Edytuj]
+
+Czasownik
+
+Ka¿dy czasownik posiada aspekt - dokonany lub niedokonany. System czasów jest ró¿ny u czasowników dokonanych i niedokonanych. Od czasownika bazowego tworzy siê inne czasowniki przez dodawanie przedrostków. Tak tworzy siê te¿ formy dokonane z niedokonanych. Do\9cæ czêsto wystêpuje te¿ sytuacja, ¿e w z³o¿eniach czasownik niedokonany staje siê dokonanym, a forma niedokonana jest zupe³nie inna:
+
+    * X - czasownik bazowy o znaczeniu 1 w aspekcie niedokonanym
+    * przedrostek 1 + X - czasownik o znaczeniu 1 w aspekcie dokonanym
+    * przedrostek 2 + X - czasownik pochodny o znaczeniu 2 w aspekcie dokonanym!
+    * przedrostek 2 + Y - czasownik pochodny o znaczeniu 2 w aspekcie niedokonanym
+    * Y - forma nieistniej¹ca!
+
+Np.:
+
+    * robiæ - czasownik bazowy w aspekcie niedokonanym
+    * zrobiæ - ten sam czasownik w aspekcie dokonanym
+    * zarobiæ - czasownik pochodny w aspekcie dokonanym
+    * zarabiaæ - czasownik pochodny w aspekcie niedokonanym
+    * rabiaæ - forma nieistniej¹ca!
+
+[Edytuj]
+
+Czasy
+
+Istniej¹ nastêpuj¹ce czasy (ró¿ne formy maj¹ to samo znaczenie):
+
+    * czasy niedokonane
+          o przysz³y z³o¿ony
+                + forma imies³owowa - "bêdziemy robili"
+                + forma bezokolicznikowa - "bêdziemy robiæ"
+          o tera\9fniejszy - "robimy"
+          o przesz³y (niedokonany)
+                + forma \9cci¹gniêta - "robili\9cmy"
+                + forma z koñcówk¹ osobow¹ doczepion¹ do innego wyrazu - "¿e\9cmy robili", "my\9cmy robili", "gdyby\9cmy robili" itd.
+                + forma z pominiêt¹ koñcówk¹ osobow¹ - "my robili"
+          o zaprzesz³y (niedokonany) - "robi³em by³", "by³em robi³" itd.
+    * czasy dokonane
+          o przysz³y prosty - "zrobimy"
+          o przesz³y (dokonany)
+                + forma \9cci¹gniêta - "zrobili\9cmy"
+                + forma z koñcówk¹ osobow¹ doczepion¹ do innego wyrazu - "¿e\9cmy zrobili", "my\9cmy zrobili", "gdyby\9cmy zrobili" itd.
+                + forma z pominiêt¹ koñcówk¹ osobow¹ - "my zrobili"
+          o zaprzesz³y (dokonany) - "zrobi³em by³", "by³em zrobi³", "by³bym zrobi³" itd.
+
+Czasowniki w aspekcie dokonanym nie maj¹ form z³o¿onych czasu przysz³ego. Dlatego wystepuj¹ tylko w trzech czasach. W ten sposób w jêzyku polskim mo¿emy wyró¿niæ siedem czasów, choæ nale¿y zauwa¿yæ, ¿e:
+
+   1. Formy czasu tera\9fniejszego s¹ tworzone tak samo, jak formy czasu przysz³ego prostego.
+   2. Formy czasu przesz³ego niedokonanego s¹ tworzone tak samo, jak formy czasu przesz³ego dokonanego.
+   3. Formy czasu zaprzesz³ego niedokonanego s¹ tworzone tak samo, jak formy czasu zaprzesz³ego dokonanego.
+
+[Edytuj]
+
+Czas zaprzesz³y
+
+Oznacza zdarzenie które zasz³o przed innym zdarzeniem. Jest najrzadziej u¿ywanym czasem i jest na drodze do zupe³nego zaniku, jednak nadal mo¿na go niekiedy napotkaæ, szczególnie w trybie przypuszczaj¹cym (np. "by³by\9c zrobi³ X, to nie sta³oby siê Y"). Wiêkszo\9cæ u¿ytkowników nie wyczuwa jednak ró¿nicy znaczenia miêdzy wyra¿eniami w czasie zaprzesz³ym a wyra¿eniami w czasie przesz³ym.
+[Edytuj]
+
+Czas przesz³y
+
+Czas przesz³y oznacza zdarzenie które ju¿ zasz³o (dokonany) lub zachodzi³o (niedokonany). Nie jest to wprawdzie zbyt u¿yteczna definicja (polega na u¿yciu czasownika "zaj\9cæ" w odpowiednim czasie), jednak powinna byæ dla wiêkszo\9cci u¿ytkowników jêzyka polskiego zrozumia³a. Forma z pominiêt¹ koñcówk¹ osobow¹ wystêpuje tylko w przypadku zaznaczenia osoby przez odpowiedni zaimek: "my zrobili", nigdy samo "zrobili". Forma ta jest generalnie gwarowa i w powszechnym u¿yciu zanika. Koñcówka osobowa jest ruchoma - pierwotnie czas przesz³y sk³ada³ siê z imies³owu przesz³ego i czasownika pomocniczego. Mo¿e wystêpowaæ w po³¹czeniu z czasownikiem w formie przesz³ej, ze s³owem pomocniczym ¿e, lub z innymi s³owami. Mo¿liwe s¹ wiêc formy typu (koñcówka osobowa zaznaczona na czerwono):
+
+    * gdzie byli\9ccie
+    * gdzie ¿e\9ccie byli (w zasadzie gdzie¿-e\9ccie)
+    * gdzie\9ccie byli
+    * my\9cmy tego nie zrobili
+    * ryby\9cmy ³apali
+
+We wspó³czesnym jêzyku dominuje postaæ z koñcówk¹ doklejon¹ do imies³owu czasu przesz³ego. Inne formy maj¹ charakter potoczny lub s¹ stosowane do podkre\9clenia.
+[Edytuj]
+
+Czas tera\9fniejszy
+
+Pod wzglêdem formy jest identyczny jak czas przysz³y prosty. Formy czasu tera\9fniejszego oznaczaj¹ czynno\9cci lub stany:
+
+    * aktualne (np. Teraz jem \9cniadanie);
+    * omnitemporalne (np. Kwadrat ma cztery boki);
+    * habitualne (np. We wtorki chodzê na si³owniê).
+
+Marginalne jest u¿ycie form czasu tera\9fniejszego dla oznaczenia czynno\9cci lub stanów:
+
+    * przysz³ych (np. Jutro pracujê do ósmej);
+    * przesz³ych (np. To by³o tak: idê sobie ulic¹, a tu nagle jak nie wyskoczy pies bez kagañca).
+
+[Edytuj]
+
+Czas przysz³y prosty
+
+Pod wzglêdem formy jest identyczny jak czas tera\9fniejszy. Formy czasu przysz³ego prostego oznaczaj¹ czynno\9cci lub stany przysz³e (np. Za miesi¹c skoñczê szko³ê). Marginalne jest u¿ycie form czasu przysz³ego prostego dla oznaczenia czynno\9cci lub stanów:
+
+    * habitualnych (np. Zawsze, kiedy przyjdzie, wypija kieliszek wódki);
+    * omnitemporalnych (np. Nie rozpali siê ognia, je\9cli siê nie ma ¿adnych narzêdzi);
+    * przesz³ych (np. To by³o tak: idê sobie ulic¹, a tu nagle jak nie wyskoczy pies bez kagañca).
+
+[Edytuj]
+
+Czas przysz³y z³o¿ony
+
+Formy czasu przysz³ego z³o¿onego oznaczaj¹ czynno\9cci lub stany przysz³e. Nowsza forma imies³owowa (bêdzie robi³) wystêpuje czê\9cciej ni¿ dawniejsza forma bezokolicznikowa (bêdzie robiæ), szczególnie w rodzaju mêskim. W innych rodzajach forma bezokolicznikowa jest krótsza i wygodniejsza ni¿ imies³owowa (bêdzie robi³a).
+[Edytuj]
+
+Przymiotnik
+
+Prawie wszystkie przymiotniki odmieniaj¹ siê wed³ug jednego wzoru. Jednak ró¿nie modyfikuje siê ostatni¹ spó³g³oskê grupê spó³g³osek, co zaznaczone zosta³o ró¿nymi kolorami. Wo³acz jest zawsze równy mianownikowi.
+Przypadek      Liczba pojedyncza       Liczba mnoga
+Rodzaj ¿eñski  Rodzaj mêskoosobowy i mêsko¿ywotny      Rodzaj mêskorzeczowy    Rodzaj nijaki   Rodzaj mêskoosobowy     Pozosta³e rodzaje
+Mianownik      -a/-ia  -y/-i   -e/-ie  -i/-y   -e/-ie
+Dope³niacz     -ej/-iej        -ego/-iego      -ych/-ich
+Celownik       -ej/-iej        -emu/-iemu      -ym/-im
+Biernik        -¹/-i¹  -ego/-iego      -y/-i   -e/-ie  -ych/-ich       -e/-ie
+Narzêdnik      -¹/-i¹  -ym/-im         -ymi/-imi
+Miejscownik    -ej/-iej        -ym/-im         -ych/-ich
+
+W przypadku pól:
+
+    * Bia³ego - forma podstawowa przymiotnika (mianownik rodzaju ¿eñskiego)
+    * Zielonych - drug¹ formê (z "i") w przypadku przymiotników koñcz¹cych siê na "ka", "ga" lub "ia" w mianowniku rodzaju ¿eñskiego, formê bez "i" w pozosta³ych
+    * B³êkitnych - drug¹ formê (z "i") w przypadku przymiotników koñcz¹cych siê na "ia" w mianowniku rodzaju ¿eñskiego, formê bez "i" w pozosta³ych
+    * Czerwonego - nale¿y dokonaæ zmiêkczenia poprzedzaj¹cej grupy spó³g³osek i dodaæ "i" lub "y" zale¿nie od wyniku
+
+Przekszta³cenia zmiêkczaj¹ce to m.in. (w porównaniu z mianownikiem rodzaju mêskiego liczby pojedynczej):
+Zamiana "y" na "i"
+by     bi
+my     mi
+ny     ni
+wy     wi
+Wymiana spó³g³oski, "y" pozostaje "y"
+ry     rzy
+Wymiana spó³g³oski, "y" przechodzi w "i"
+³y     li
+szy    si
+chy    si
+¿y (czasem)    zi
+ty     ci
+sty    \9cci
+Wymiana spó³g³oski, "i" przechodzi w "y"
+ki     cy
+gi     dzy
+Bez zmian, z "i"
+pi     pi
+si     si
+wi     wi
+Bez zmian, z "y"
+rzy    rzy
+¿y (czasem)    ¿y
+[Edytuj]
+
+Liczebnik
+
+W jêzyku polskim wystêpuj¹ liczebniki typu:
+
+    * jeden - odmienny jak przymiotnik
+    * dwa, trzy - odmienne na swój sposób
+    * pierwszy, drugi, trzeci - odmieniane jak przymiotniki
+    * pojedynczy, podwójny, potrójny - odmieniane jak przymiotniki
+
+Wystêpuj¹ te¿ liczebniki u³amkowe:
+
+    * pó³tora - 3/2 (nie ma go w wiêkszo\9cci innych jêzyków europejskich)
+    * pó³ 1/2
+    * æwieræ - 1/4
+
+Do\9cæ ciekawym zjawiskiem jest skracanie liczebników w przypadku wyliczeñ czêsto u¿ywane przez dzieci. Wygl¹da to mniej wiêcej tak: dziesiêæ, jedna (jedena), dwana, trzyna, czterna, pietna, szesna, siedemna, osiemna, dziewietna, dwa, dwa jeden, dwa dwa itd.
+[Edytuj]
+
+Aktualnie zachodz¹ce zmiany
+
+Ka¿dy jêzyk podlega ci¹g³ym zmianom, z których niektóre w koñcu siê przyjmuj¹ g³êboko w jêzyku, inne za\9c maj¹ ograniczony wp³yw na jêzyk lub te¿ odchodz¹ zupe³nie w zapomnienie. Równie¿ we wspó³czesnej polszczy\9fnie zachodzi wiele zmian, zarówno gramatycznych jak i leksykalnych. Nie mo¿na z góry powiedzieæ ¿e jedne zmiany s¹ dobre a inne z³e - o tym które zwyci꿹 zdecyduj¹ dzisiejsi i przyszli u¿ytkownicy jêzyka polskiego.
+[Edytuj]
+
+Zmiany struktury dialektów
+
+W zwi¹zku z przesiedleniami ludno\9cci po drugiej wojnie \9cwiatowej, urbanizacj¹, wp³ywami kultury masowej (telewizja, prasa) oraz powszechnej edukacji prowadzonej w dialekcie ogólnym, jêzyk polski coraz bardziej siê ujednolica. Cechy gwar s¹ o wiele s³abiej widoczne u m³odszych u¿ytkowników jêzyka. Nie dotyczy to wszystkich gwar - np. gwarom góralskim i \9cl¹skim jak na razie wyginiêcie nie grozi, jednak wiêkszo\9cæ u¿ytkowników polszczyzny mówi dzi\9c wspólnym dialektem.
+[Edytuj]
+
+Zmiany gramatyczne
+
+Prawdopodobnie najbardziej rzucaj¹c¹ siê w oczy zmian¹ jest wypieranie rodzaju mêskorzeczowego przez mêsko¿ywotny. Wiele s³ów które dotychczas by³y jednoznacznie nie¿ywotne, w jêzyku potocznym, zw³aszcza w jêzyku m³odzie¿y, jest traktowane jako ¿ywotne. Objawia siê to tym, ¿e biernik jest równy dope³niaczowi nie za\9c jak dotychczas mianownikowi. Bardzo czêste s¹ formy "mieæ pomys³a" czy "obejrzeæ filma" (formy jak na razie wy³¹cznie potoczne). Wiêkszo\9cæ nowych s³ów odnosz¹cych siê do zjawisk niematerialnych przyjmuje rodzaj mêsko¿ywotny równie¿ w jêzyku oficjalnym. I tak formy "dostaæ e-maila/SMSa" s¹ znacznie bardziej popularne od form "dostaæ e-mail/SMS".
+[Edytuj]
+
+Zmiany leksykalne
+
+Nastêpuje zapo¿yczanie du¿ej ilo\9cci wyrazów angielskich, a jednocze\9cnie zanika wiele dawnych zapo¿yczeñ, g³ównie francuskich i rosyjskich. Ciekawym zjawiskiem jest zmiana wymowy niektórych francuskich zapo¿yczeñ z francuskiej na angielsk¹, np. image wymawia siê wspó³cze\9cnie raczej imid¿ ni¿ ima¿.
+[Edytuj]
+
+Zmiany fonetyczne
+
+W zwi¹zku z zapo¿yczeniami s³ów z jêzyka angielskiego o odmiennej fonetyce rozpowszechniaj¹ siê rzadko dotychczas spotykane po³¹czenia g³osek np. po g³oskach zêbowych t, d, s, z, r pojawia siê i (did¿ej, tir, ring).
+[Edytuj]
+
+Zmiany w postrzeganiu wulgaryzmów
+
+W ostatnich latach wiele s³ów przesz³o z jêzyka wulgarnego do zwyk³ego jêzyka potocznego. Przyk³adem mo¿e byæ np. przymiotnik "zajebisty". Wiele innych wyrazów, które pozosta³y wulgaryzmami ograniczy³o swoj¹ si³ê, np. wyraz "kurwa" jest czêsto u¿ywany w sytuacjach w których jeszcze nie tak dawno temu by³by uwa¿any za nie do pomy\9clenia. Z drugiej strony, w ramach politycznej poprawno\9cci, pewne s³owa uwa¿a siê za bardziej obra\9fliwe ni¿ kiedy\9c. Np. s³owa "peda³" wspó³cze\9cnie u¿ywaæ nie wypada (oprócz w znaczeniu czê\9cci roweru), zast¹pi³ je angielski "gej" lub "homoseksualista".
+[Edytuj]
+
+Zobacz te¿
+Wiki\9fród³a
+Zobacz w Wiki\9fród³ach tablicê czêsto\9cci wystêpowania liter w jêzyku polskim
+Wikicytaty
+Zobacz w Wikicytatach kolekcjê cytatów zwi¹zanych z jêzykiem polskim
+
+    * Zasady pisowni polskiej
+    * Rada Jêzyka Polskiego
+    * Jêzyk polskawy
+    * Powstanie i rozwój jêzyka polskiego
+
+[Edytuj]
+
+Linki zewnêtrzne
+
+    * ogólnopolskie forum jêzykoznawców - obszerna sekcja po\9cwiêcona jêzykowi polskiemu (english, deutch, français)
+    * Jêzyk polski w liceum
+    * Kurs jêzyka polskiego (po angielsku)
+    * Gramatyka jêzyka polskiego
diff --git a/mcs/class/I18N/West/Test/texts/polish-utf8.txt b/mcs/class/I18N/West/Test/texts/polish-utf8.txt
new file mode 100644 (file)
index 0000000..4e98498
--- /dev/null
@@ -0,0 +1,498 @@
+This text is copied from Wikipedia, http://pl.wikipedia.org/wiki/J%C4%99zyk_polski
+Authored under GFDL license: http://www.gnu.org/copyleft/fdl.html
+
+Język polski
+Z Wikipedii, wolnej encyklopedii.
+Jump to: navigation, search
+
+Język polski należy wraz z językami czeskim, słowackim, pomorskim (którego dialekt kaszubski przez część polskich uczonych jest jeszcze często traktowany jako dialekt języka polskiego), dolnołużyckim, górnołużyckim oraz wymarłym połabskim do grupy języków zachodniosłowiańskich, stanowiących część rodziny języków indoeuropejskich. Ocenia się, że jest on językiem ojczystym około 46 milionów ludzi na świecie, w tym głównie w Polsce oraz wśród Polaków za granicą (Polonia).
+Polski
+Obszar         Polska (38 mln) oraz Niemcy, Ukraina, Białoruś, Litwa, Rosja, Austria, Izrael, Stany Zjednoczone, Kanada, Australia i inne kraje
+Liczba mówiących     46 milionów
+Ranking        25.
+Klasyfikacja genetyczna        Języki indoeuropejskie
+*Języki słowiańskie
+**Języki zachodniosłowiańskie
+***Język polski
+Alfabet        łaciński
+Status oficjalny
+Język urzędowy       Polska, jeden z urzędowych w Unii Europejskiej
+Regulowany przez       Rada Języka Polskiego
+Kody języka
+ISO 639-1      pl
+ISO 639-2      pol
+SIL    PQL
+W Wikipedii
+Patrz także: Język - Języki świata
+Wikipedia
+Polska wersja językowa Wikipedii
+
+
+W Wikisłowniku: Słownik języka polskiego
+Spis treści
+[schowaj]
+
+    * 1 Historia
+          o 1.1 Zarys fonetyki historycznej
+          o 1.2 Wpływy języków obcych
+    * 2 Dialekty
+    * 3 Fonetyka
+          o 3.1 Samogłoski nosowe
+          o 3.2 Budowa sylab, długość samogłosek oraz miękkość
+          o 3.3 Akcent
+    * 4 Gramatyka
+          o 4.1 Części mowy
+          o 4.2 Liczby
+          o 4.3 Rodzaje
+          o 4.4 Przypadki
+                + 4.4.1 Mianownik
+                + 4.4.2 Dopełniacz
+                + 4.4.3 Celownik
+                + 4.4.4 Biernik
+                + 4.4.5 Narzędnik
+                + 4.4.6 Miejscownik
+                + 4.4.7 Wołacz
+          o 4.5 Czasownik
+          o 4.6 Czasy
+                + 4.6.1 Czas zaprzeszły
+                + 4.6.2 Czas przeszły
+                + 4.6.3 Czas teraźniejszy
+                + 4.6.4 Czas przyszły prosty
+                + 4.6.5 Czas przyszły złożony
+          o 4.7 Przymiotnik
+    * 5 Liczebnik
+    * 6 Aktualnie zachodzące zmiany
+          o 6.1 Zmiany struktury dialektów
+          o 6.2 Zmiany gramatyczne
+          o 6.3 Zmiany leksykalne
+          o 6.4 Zmiany fonetyczne
+          o 6.5 Zmiany w postrzeganiu wulgaryzmów
+    * 7 Zobacz też
+          o 7.1 Linki zewnętrzne
+
+[Edytuj]
+
+Historia
+[Edytuj]
+
+Zarys fonetyki historycznej
+
+Język polski wywodzi się z języka praindoeuropejskiego. Do najważniejszych wczesnych zmian należy palatalizacja indoeuropejska. Dawne miękkie k, kh, g, gh przeszły w językach satem, takich jak prabałtosłowiański, w s i z, zaś w językach kentum, takich jak łacina i języki germańskie, w k i g. W języku prasłowiańskim wszystkie sylaby zamknięte przeszły w otwarte. Pociągnęło to za sobą powstanie samogłosek nosowych i zróżnicowanie długości samogłosek. Ukształtowała się też opozycja spółgłosek miękkich i twardych. W języku polskim zgłoskotwórcze r i l przeszły w pary samogłoska + r lub odpowiednio l. Nastąpił też zanik iloczasu, a wiele spółgłosek miękkich zostało utwardzonych, np. miękkie r przeszło w ż (zapis rz). Wiele spółgłosek miękkich traci miękkość w wygłosie (np. końcowe miękkie w w nazwach typu Wrocław, w przypadkach zależnych nadal jest miękkie - we Wrocławiu).
+[Edytuj]
+
+Wpływy języków obcych
+
+Współczesny język polski wywodzi się z dialektów używanych w Wielkopolsce i Małopolsce, w mniejszym stopniu na Mazowszu oraz z innych regionach. Na język polski wpływały inne języki. Najważniejszymi z nich były:
+
+    * niemiecki
+    * czeski
+    * łacina
+    * włoski
+    * francuski
+    * rosyjski
+    * angielski
+
+A także język ukraiński za pośrednictwem gwary kresowej.
+
+Obecnie obserwować można duży wpływ języka angielskiego na język polski.
+[Edytuj]
+
+Dialekty
+
+W etnicznym języku polskim wyróżniamy:
+
+    * język literacki (dialekt kulturalny)
+    * dialekty ludowe
+    * gwary miejskie (np. gwara lwowska, gwara poznańska, gwara warszawska)
+    * gwary środowiskowe (np. grypsera)
+
+Podstawowe dialekty języka polskiego to:
+
+    * śląski (zobacz też: język śląski, gwara śląska)
+    * wielkopolski
+    * małopolski (zobacz też: gwara krakowska, gwara podhalańska, gwara sądecka)
+    * mazowiecki (zobacz też: gwara białostocka)
+
+Poza tymi podstawowymi dialektami istnieją także dialekty mieszane, szczególnie na ziemiach poniemieckich.
+[Edytuj]
+
+Fonetyka
+[Edytuj]
+
+Samogłoski nosowe
+
+W języku polskim występują zachowane jeszcze z prasłowiańskiego samogłoski nosowe, które zanikły w większości pozostałych języków słowiańskich (choć można było resztkę ich znaleźć w dialektach macedońskich i bułgarskich jeszcze w początku minionego wieku). Samogłoski te to ą oraz ę. Jednak i w polskim zachodzi proces zaniku samogłosek nosowych. Samogłoski historycznie nosowe, w wielu kontekstach przechodzą w nienosowe, tak np.:
+Zjawisko       Przykład
+Pisownia       Przeważająca wymowa
+Zanik nosowości ę w wygłosie        się    sie
+kobietę       kobiete
+widzę         widze
+
+Jednak samogłoski nosowe nie tylko zanikają, ale też tworzą się tam, gdzie ich wcześniej nie było, najczęściej w pozycji przed /S/. Por. pisownię nonsens i potoczną wymowę nąsęs.
+[Edytuj]
+
+Budowa sylab, długość samogłosek oraz miękkość
+
+We współczesnym języku polskim jest tylko jedna długość samogłosek. Nie znaczy to, że nie wypowiada się czasem jej dłużej lub krócej a jedynie że nie ma to wpływu na znaczenie. Historycznie polski był językiem o dominującej budowie sylab CV (zakończone samogłoską, tak jak we włoskim i japońskim) i były 3 długości samogłosek: krótkie, normalne, długie. Istniały dwie samogłoski krótkie (jery)- miękka i twarda. Samogłoski te zanikły, przy czym jednocześnie następowało wydłużenie samogłoski poprzedzającej, a dwie sylaby typu CV zmieniały się w jedną CVC. Samogłoski krótkie przechodziły przy wydłużeniu w miękkie lub twarde e. Przy zaniku miękkiej samogłoski krótkiej, ostatnia spółgłoska zachowywała miękkość. Tak np: "D (krótka samogłoska miękka) N (krótka samogłoska miękka)" przechodziło w "D (normalne E) (miękkie N)" (dzień), natomiast "D (krótka samogłoska miękka) N (miękkie A)" w "D N (miękkie A)" (dnia). Długie samogłoski przeszły w swoje krótkie odpowiedniki, przy czym następowało podniesienie wymowy. Podwyższone a, e i o, przez pewien czas stanowiące osobne dźwięki, przeszły w a i e i u. To ostatnie nadal jest zaznaczane ortograficznie przez ó, przez pewien czas zaznaczano też odrębnymi znakami podwyższone a i e. Samogłosek wysokich i oraz u oczywiście nie można było podwyższyć.
+[Edytuj]
+
+Akcent
+
+Akcent w języku polskim ma charakter mieszany toniczno-dynamiczny. Następujące trzy elementy tworzą akcent w wyrazie:
+
+    * początek wyrazu cechuje wysoki poziom intesywności,
+    * podwyższenie tonu sylaby akcentowanej,
+    * wzdłużenie samogłoski akcentowanej i osłabienie artylkulacji na końcu wyrazu.
+
+W wyrazach dwusylabowych (z akcentem na pierwszej sylabie) akcent ma charakter przede wszystkim dynamiczny, na ogół występuje też pewne wzdłużenie samogłoski (szczególnie jeśli wyraz wymawiany jest w izolacji). Różnice w wysokości tonu są mniej regularne. Akcentowana sylaba przedostatnia w wyrazach ponad dwusylabowych ma wyższy ton niż przynajmniej jedna z sylab ją otaczających, również samogłoska akcentowana może ulec wzdłużeniu. W wyrazach czterosylabowych i dłuższych pojawia się, oprócz akcentu na sylabie przedostatniej, akcent poboczny na sylabie pierwszej. Akcent poboczny objawia się wyższym poziomem intensywnością niż kolejne sylaby.
+
+Akcent w języku polskim jest prawie zawsze paroksytoniczny, tzn. pada na przedostatnią sylabę wyrazu. Istnieje jednak spora grupa rzeczowników akcentownych proparoksytonicznie, tj. na sylabie trzeciej od końca, m.in.
+
+    * rzeczowniki pochodzenia greckiego zakończone na -ika, -yka, np. GRAfika, FIzyka, (a także zakończone na -ik, -yk w przypadkach zależnych, które mają o jedną sylabę więcej niż mianownik np. FIzyk, ale z FIzykiem).
+    * spora grupa tradycyjnie akcentowanych na trzeciej sylabie od końca np. REguła, RYzyko, oKOlica, CZTErysta, NAuka, rzeczposPOlita.
+
+W związku z silną tendencją do wyrównywnia akcentu w wyżej wymienionych typach wyrazów, słowniki normatywne dopuszczają ich akcentowanie na sylabie przedostatniej w wymownie mniej starannej i sytuacjach bardziej swobodnych.
+
+Drugą grupę wyjątków od zasady tworzą niektóre formy czasowników, i tak:
+
+    * formy czasu przeszłego akcentowane są tak, jakby końcówki osobowe -śmy,, -ście nie należały do wyrazu, np. czyTAliśmy
+    * formy trybu przypuszczającego, akcentowane są tak, jakby końcówki -bym, -bys, byś, byśmy, byście nie należały do wyrazu, np. CZYtałbym, czyTAlibyśmy,
+
+Mimo rozpowszechnienia akcentu paroksotonicznego (spowodowanego przede wszystkim pisownią) słowniki zalecają opisany sposób akcentowania.
+[Edytuj]
+
+Gramatyka
+[Edytuj]
+
+Części mowy
+
+Podstawowe części mowy w języku polskim to:
+
+    * rzeczownik - odmieniany przez liczby i przypadki, posiada stały rodzaj
+    * przymiotnik - odmieniany przez liczby i przypadki i rodzaje
+    * czasownik
+    * przysłówek
+    * liczebnik
+    * zaimki różnego rodzaju
+    * przyimki oraz inne niewielkie grupy
+
+[Edytuj]
+
+Liczby
+
+W języku polskim są 2 liczby - pojedyncza i mnoga, choć ostały się też nieliczne formy liczby podwójnej, szczególnie w określeniach części ciała występujących parami. Można na przykład porównać odmianę słów ręka (cechy liczby podwójnej) i męka (odmiana normalna):
+Przypadek      Liczba pojedyncza       Liczba mnoga (z cechami form liczby podwójnej)         Liczba pojedyncza       Liczba mnoga
+Mianownik      ręka   ręce   męka   męki
+Dopełniacz    ręki   rąk    męki   mąk lub męk
+Celownik       ręce   rękom  męce   mękom
+Biernik        rękę  ręce   mękę  męki
+Narzędnik     ręką  rękoma lub rękami     męką  mękami
+Miejscownik    ręce   rękach         męce   mękach
+
+W liczbie mnogiej wyrazu ręka w rzeczywistości zachowały się cechy form liczby podwójnej - miękkie e zamiast twardego i w mianowniku i bierniku oraz -oma zamiast -ami w narzędniku. Ta druga cecha jednak zanika i coraz częściej słyszy się formę rękami. Innym reliktem liczby podwójnej są formy typu chodźta, chodźwa, róbta, robita itp. Słowo róbta pierwotnie znaczyło "(wy dwaj) róbcie".
+[Edytuj]
+
+Rodzaje
+
+Na podstawie kryterium zgodności z przymiotnikiem można wyróżnić 5 rodzajów:
+Rodzaj         Przykład - biernik liczby pojedynczej  Przykład - mianownik liczby mnogiej
+Wyraz określający    Wyraz określany        Wyraz określający     Wyraz określany
+Rodzaj męski osobowy  nowego  pracownika      nowi    pracownicy
+Rodzaj męski nieosobowy żywotny      nowego  psa     nowe    psy
+Rodzaj męski nieosobowy nieżywotny   nowy    stół  nowe    stoły
+Rodzaj żeński        nową   szafę  nowe    szafy
+Rodzaj nijaki  nowe    krzesło        nowe    krzesła
+
+Zwykle jednak wyróżnia się tylko jeden rodzaj męski nieosobowy, a więc razem 4 rodzaje.
+[Edytuj]
+
+Przypadki
+
+Jest 7 przypadków (w nawiasach podano pytania przypadków):
+
+    * mianownik (kto? co?) jest
+    * dopełniacz (kogo? czego?) nie ma
+    * celownik (komu? czemu?) przyglądam się
+    * biernik (kogo? co?) widzę, słyszę
+    * narzędnik (z kim? z czym?) idę, cieszę się
+    * miejscownik (o kim? o czym?) mówię, myślę
+    * wołacz (o!) ty mój
+
+Przykładowa odmiana przez przypadki:
+M.     nos     ojczyzna        jajko
+D.     nosa    ojczyzny        jajka
+C.     nosowi  ojczyźnie      jajku
+B.     nos     ojczyznę       jajko
+N.     nosem   ojczyzną       jajkiem
+Msc.   nosie   ojczyźnie      jajku
+W.     nosie!  ojczyzno!       jajko!
+
+Przymiotniki wykazują szczątkowo, oprócz odmiany przymiotnikowej, również odmianę rzeczownikową. Formy te to np. nom. zdrów oraz dpn. i celownik w wyrażeniach typu z grecka i po grecku. W liczbie mnogiej wołacz jest zawsze równy mianownikowi.
+[Edytuj]
+
+Mianownik
+
+Głównym zadaniem mianownika jest oznaczanie podmiotu. Mianownik jest w języku polskim używany niezbyt często (identycznie, jak i w innych językach indoeuropejskich o rozbudowanej fleksji). Konstrukcje w których w językach o podobnym systemie przypadków występuje mianownik a w polskim inny przypadek to m.in.:
+
+    * w zdaniach postaci "X jest Y", np. "on jest lekarzem", Y występuje w narzędniku
+    * w negatywnych zdaniach egzystencjalnych podmiot występuje w dopełniaczu, np. "doktora nie ma"
+
+Ponadto podmiot jest często opuszczany a jego rolę przejmuje końcówka osobowa czasownika. Z drugiej strony mianownik występuje często w funkcji wołacza.
+[Edytuj]
+
+Dopełniacz
+
+Dopełniacz prawie nigdy nie jest równy mianownikowi. Jego podstawowa funkcja jest posesywna (odpowiada na pytania kogo? i czego?). W negatywnych zdaniach egzystencjalnych pełni funkcję podmiotu ("nie ma go"), w innych zdaniach negatywnych funkcję dopełnienia bliższego ("jem sałatę", "nie jem sałaty"). Dopełniacz może też pełnić funkcję dopełnienia bliższego w przypadku rzeczowników niepoliczalnych (np. "kupiłem cebuli"). Można sobie wyobrazić, że przed takim dopełnieniem występuje "ukryty" rzeczownik określający ilość ("kupiłem kilogram cebuli" czy też "kupiłem trochę cebuli").
+[Edytuj]
+
+Celownik
+
+Celownik oznacza zwykle dopełnienie dalsze.
+[Edytuj]
+
+Biernik
+
+Biernik oznacza zwykle dopełnienie bliższe. W połączeniach z przyimkiem oznacza zwykle kierunek zmiany. Biernik może przyjmować trzy postacie:
+
+    * równy dopełniaczowi (rodzaj męskoosobowy, w liczbie pojedynczej również męskożywotny)
+    * osobna forma (liczba pojedyncza rodzaju żeńskiego)
+    * równy mianownikowi (pozostałe przypadki)
+
+Ponieważ bardzo często jest równy dopełniaczowi lub mianownikowi, niewiele jest form w których można zastąpić biernik jednym z tych dwóch przypadków zmieniając znaczenie. Do nielicznych form w których występuje konflikt jest zdanie z podmiotem i dopełnieniem bliższym. Jeśli nie można stwierdzić co jest podmiotem a co dopełnieniem bliższym, to podmiot zawsze występuje jako pierwszy. Np. w zdaniu "psy gonią koty", choć samodzielnie wyrazy "psy" oraz "koty" mogą być zarówno mianownikiem jak i biernikiem, jedynie "psy" mogą być podmiotem a jedynie "koty" dopełnieniem.
+[Edytuj]
+
+Narzędnik
+
+Narzędnik występuje w wielu połączeniach z przyimkami (np. "czapka z pomponikiem" - tzw. sociativus), ale też samodzielnie jako określenie sposobu, narzędzia, czasu itd. (np. "jeść widelcem"), jako dopełnienie bliższe (np. "zarządzać domem", "pracować nocami") oraz w funkcji orzecznika (np. "jest marynarzem").
+[Edytuj]
+
+Miejscownik
+
+Miejscownik nigdy nie występuje sam, jedynie w połączeniach z przyimkami. Często zastąpienie miejscownika biernikiem powoduje zmianę znaczenia ze stanu w kierunek zmian, np. "na poczcie" (z miejscownikiem) oznacza położenie danego obiektu, zaś na "na pocztę" (z biernikiem) oznacza kierunek zmiany położenia.
+[Edytuj]
+
+Wołacz
+
+Wołacz służy do bezpośrednich zwrotów do adresata, nie jest bezpośrednio częścią zdania. Wołacz jest przypadkiem zanikającym. W większości sytuacji jego funkcje pełni mianownik. Dzieje się tak w przypadku:
+
+    * przymiotników oraz rzeczowników o odmianie przymiotnikowej
+    * nazw własnych - formy "chodź tu Łukaszu" występują o wiele rzadziej niż "chodź tu Łukasz", a użycie wołacza dodaje wypowiedzi cech emocjonalnych
+    * liczby mnogiej
+    * rzeczowników rodzaju nijakiego
+
+Ostatnie dwie cechy charakteryzują także inne języki indoeuropejskie, które we fleksji mają wołacz (przede wszystkim grekę i łacinę), i są zapewne odziedziczone z prajęzyka.
+
+Potocznie formy wołacza mogą zastępować mianownik (np. "Jasiu przyszedł"). To też jest chyba zjawisko prajęzykowe, które w innych językach zanikło. Jedynym przykładem łacińskim jest mianownik Iuppiter mający formę wołacza (zwykle bywa odwrotnie, to wołacz ma formę mianownika).
+[Edytuj]
+
+Czasownik
+
+Każdy czasownik posiada aspekt - dokonany lub niedokonany. System czasów jest różny u czasowników dokonanych i niedokonanych. Od czasownika bazowego tworzy się inne czasowniki przez dodawanie przedrostków. Tak tworzy się też formy dokonane z niedokonanych. Dość często występuje też sytuacja, że w złożeniach czasownik niedokonany staje się dokonanym, a forma niedokonana jest zupełnie inna:
+
+    * X - czasownik bazowy o znaczeniu 1 w aspekcie niedokonanym
+    * przedrostek 1 + X - czasownik o znaczeniu 1 w aspekcie dokonanym
+    * przedrostek 2 + X - czasownik pochodny o znaczeniu 2 w aspekcie dokonanym!
+    * przedrostek 2 + Y - czasownik pochodny o znaczeniu 2 w aspekcie niedokonanym
+    * Y - forma nieistniejąca!
+
+Np.:
+
+    * robić - czasownik bazowy w aspekcie niedokonanym
+    * zrobić - ten sam czasownik w aspekcie dokonanym
+    * zarobić - czasownik pochodny w aspekcie dokonanym
+    * zarabiać - czasownik pochodny w aspekcie niedokonanym
+    * rabiać - forma nieistniejąca!
+
+[Edytuj]
+
+Czasy
+
+Istnieją następujące czasy (różne formy mają to samo znaczenie):
+
+    * czasy niedokonane
+          o przyszły złożony
+                + forma imiesłowowa - "będziemy robili"
+                + forma bezokolicznikowa - "będziemy robić"
+          o teraźniejszy - "robimy"
+          o przeszły (niedokonany)
+                + forma ściągnięta - "robiliśmy"
+                + forma z końcówką osobową doczepioną do innego wyrazu - "żeśmy robili", "myśmy robili", "gdybyśmy robili" itd.
+                + forma z pominiętą końcówką osobową - "my robili"
+          o zaprzeszły (niedokonany) - "robiłem był", "byłem robił" itd.
+    * czasy dokonane
+          o przyszły prosty - "zrobimy"
+          o przeszły (dokonany)
+                + forma ściągnięta - "zrobiliśmy"
+                + forma z końcówką osobową doczepioną do innego wyrazu - "żeśmy zrobili", "myśmy zrobili", "gdybyśmy zrobili" itd.
+                + forma z pominiętą końcówką osobową - "my zrobili"
+          o zaprzeszły (dokonany) - "zrobiłem był", "byłem zrobił", "byłbym zrobił" itd.
+
+Czasowniki w aspekcie dokonanym nie mają form złożonych czasu przyszłego. Dlatego wystepują tylko w trzech czasach. W ten sposób w języku polskim możemy wyróżnić siedem czasów, choć należy zauważyć, że:
+
+   1. Formy czasu teraźniejszego są tworzone tak samo, jak formy czasu przyszłego prostego.
+   2. Formy czasu przeszłego niedokonanego są tworzone tak samo, jak formy czasu przeszłego dokonanego.
+   3. Formy czasu zaprzeszłego niedokonanego są tworzone tak samo, jak formy czasu zaprzeszłego dokonanego.
+
+[Edytuj]
+
+Czas zaprzeszły
+
+Oznacza zdarzenie które zaszło przed innym zdarzeniem. Jest najrzadziej używanym czasem i jest na drodze do zupełnego zaniku, jednak nadal można go niekiedy napotkać, szczególnie w trybie przypuszczającym (np. "byłbyś zrobił X, to nie stałoby się Y"). Większość użytkowników nie wyczuwa jednak różnicy znaczenia między wyrażeniami w czasie zaprzeszłym a wyrażeniami w czasie przeszłym.
+[Edytuj]
+
+Czas przeszły
+
+Czas przeszły oznacza zdarzenie które już zaszło (dokonany) lub zachodziło (niedokonany). Nie jest to wprawdzie zbyt użyteczna definicja (polega na użyciu czasownika "zajść" w odpowiednim czasie), jednak powinna być dla większości użytkowników języka polskiego zrozumiała. Forma z pominiętą końcówką osobową występuje tylko w przypadku zaznaczenia osoby przez odpowiedni zaimek: "my zrobili", nigdy samo "zrobili". Forma ta jest generalnie gwarowa i w powszechnym użyciu zanika. Końcówka osobowa jest ruchoma - pierwotnie czas przeszły składał się z imiesłowu przeszłego i czasownika pomocniczego. Może występować w połączeniu z czasownikiem w formie przeszłej, ze słowem pomocniczym że, lub z innymi słowami. Możliwe są więc formy typu (końcówka osobowa zaznaczona na czerwono):
+
+    * gdzie byliście
+    * gdzie żeście byli (w zasadzie gdzież-eście)
+    * gdzieście byli
+    * myśmy tego nie zrobili
+    * rybyśmy łapali
+
+We współczesnym języku dominuje postać z końcówką doklejoną do imiesłowu czasu przeszłego. Inne formy mają charakter potoczny lub są stosowane do podkreślenia.
+[Edytuj]
+
+Czas teraźniejszy
+
+Pod względem formy jest identyczny jak czas przyszły prosty. Formy czasu teraźniejszego oznaczają czynności lub stany:
+
+    * aktualne (np. Teraz jem śniadanie);
+    * omnitemporalne (np. Kwadrat ma cztery boki);
+    * habitualne (np. We wtorki chodzę na siłownię).
+
+Marginalne jest użycie form czasu teraźniejszego dla oznaczenia czynności lub stanów:
+
+    * przyszłych (np. Jutro pracuję do ósmej);
+    * przeszłych (np. To było tak: idę sobie ulicą, a tu nagle jak nie wyskoczy pies bez kagańca).
+
+[Edytuj]
+
+Czas przyszły prosty
+
+Pod względem formy jest identyczny jak czas teraźniejszy. Formy czasu przyszłego prostego oznaczają czynności lub stany przyszłe (np. Za miesiąc skończę szkołę). Marginalne jest użycie form czasu przyszłego prostego dla oznaczenia czynności lub stanów:
+
+    * habitualnych (np. Zawsze, kiedy przyjdzie, wypija kieliszek wódki);
+    * omnitemporalnych (np. Nie rozpali się ognia, jeśli się nie ma żadnych narzędzi);
+    * przeszłych (np. To było tak: idę sobie ulicą, a tu nagle jak nie wyskoczy pies bez kagańca).
+
+[Edytuj]
+
+Czas przyszły złożony
+
+Formy czasu przyszłego złożonego oznaczają czynności lub stany przyszłe. Nowsza forma imiesłowowa (będzie robił) występuje częściej niż dawniejsza forma bezokolicznikowa (będzie robić), szczególnie w rodzaju męskim. W innych rodzajach forma bezokolicznikowa jest krótsza i wygodniejsza niż imiesłowowa (będzie robiła).
+[Edytuj]
+
+Przymiotnik
+
+Prawie wszystkie przymiotniki odmieniają się według jednego wzoru. Jednak różnie modyfikuje się ostatnią spółgłoskę grupę spółgłosek, co zaznaczone zostało różnymi kolorami. Wołacz jest zawsze równy mianownikowi.
+Przypadek      Liczba pojedyncza       Liczba mnoga
+Rodzaj żeński        Rodzaj męskoosobowy i męskożywotny   Rodzaj męskorzeczowy   Rodzaj nijaki   Rodzaj męskoosobowy    Pozostałe rodzaje
+Mianownik      -a/-ia  -y/-i   -e/-ie  -i/-y   -e/-ie
+Dopełniacz    -ej/-iej        -ego/-iego      -ych/-ich
+Celownik       -ej/-iej        -emu/-iemu      -ym/-im
+Biernik        -ą/-ią        -ego/-iego      -y/-i   -e/-ie  -ych/-ich       -e/-ie
+Narzędnik     -ą/-ią        -ym/-im         -ymi/-imi
+Miejscownik    -ej/-iej        -ym/-im         -ych/-ich
+
+W przypadku pól:
+
+    * Białego - forma podstawowa przymiotnika (mianownik rodzaju żeńskiego)
+    * Zielonych - drugą formę (z "i") w przypadku przymiotników kończących się na "ka", "ga" lub "ia" w mianowniku rodzaju żeńskiego, formę bez "i" w pozostałych
+    * Błękitnych - drugą formę (z "i") w przypadku przymiotników kończących się na "ia" w mianowniku rodzaju żeńskiego, formę bez "i" w pozostałych
+    * Czerwonego - należy dokonać zmiękczenia poprzedzającej grupy spółgłosek i dodać "i" lub "y" zależnie od wyniku
+
+Przekształcenia zmiękczające to m.in. (w porównaniu z mianownikiem rodzaju męskiego liczby pojedynczej):
+Zamiana "y" na "i"
+by     bi
+my     mi
+ny     ni
+wy     wi
+Wymiana spółgłoski, "y" pozostaje "y"
+ry     rzy
+Wymiana spółgłoski, "y" przechodzi w "i"
+ły    li
+szy    si
+chy    si
+ży (czasem)   zi
+ty     ci
+sty    ści
+Wymiana spółgłoski, "i" przechodzi w "y"
+ki     cy
+gi     dzy
+Bez zmian, z "i"
+pi     pi
+si     si
+wi     wi
+Bez zmian, z "y"
+rzy    rzy
+ży (czasem)   ży
+[Edytuj]
+
+Liczebnik
+
+W języku polskim występują liczebniki typu:
+
+    * jeden - odmienny jak przymiotnik
+    * dwa, trzy - odmienne na swój sposób
+    * pierwszy, drugi, trzeci - odmieniane jak przymiotniki
+    * pojedynczy, podwójny, potrójny - odmieniane jak przymiotniki
+
+Występują też liczebniki ułamkowe:
+
+    * półtora - 3/2 (nie ma go w większości innych języków europejskich)
+    * pół 1/2
+    * ćwierć - 1/4
+
+Dość ciekawym zjawiskiem jest skracanie liczebników w przypadku wyliczeń często używane przez dzieci. Wygląda to mniej więcej tak: dziesięć, jedna (jedena), dwana, trzyna, czterna, pietna, szesna, siedemna, osiemna, dziewietna, dwa, dwa jeden, dwa dwa itd.
+[Edytuj]
+
+Aktualnie zachodzące zmiany
+
+Każdy język podlega ciągłym zmianom, z których niektóre w końcu się przyjmują głęboko w języku, inne zaś mają ograniczony wpływ na język lub też odchodzą zupełnie w zapomnienie. Również we współczesnej polszczyźnie zachodzi wiele zmian, zarówno gramatycznych jak i leksykalnych. Nie można z góry powiedzieć że jedne zmiany są dobre a inne złe - o tym które zwyciężą zdecydują dzisiejsi i przyszli użytkownicy języka polskiego.
+[Edytuj]
+
+Zmiany struktury dialektów
+
+W związku z przesiedleniami ludności po drugiej wojnie światowej, urbanizacją, wpływami kultury masowej (telewizja, prasa) oraz powszechnej edukacji prowadzonej w dialekcie ogólnym, język polski coraz bardziej się ujednolica. Cechy gwar są o wiele słabiej widoczne u młodszych użytkowników języka. Nie dotyczy to wszystkich gwar - np. gwarom góralskim i śląskim jak na razie wyginięcie nie grozi, jednak większość użytkowników polszczyzny mówi dziś wspólnym dialektem.
+[Edytuj]
+
+Zmiany gramatyczne
+
+Prawdopodobnie najbardziej rzucającą się w oczy zmianą jest wypieranie rodzaju męskorzeczowego przez męskożywotny. Wiele słów które dotychczas były jednoznacznie nieżywotne, w języku potocznym, zwłaszcza w języku młodzieży, jest traktowane jako żywotne. Objawia się to tym, że biernik jest równy dopełniaczowi nie zaś jak dotychczas mianownikowi. Bardzo częste są formy "mieć pomysła" czy "obejrzeć filma" (formy jak na razie wyłącznie potoczne). Większość nowych słów odnoszących się do zjawisk niematerialnych przyjmuje rodzaj męskożywotny również w języku oficjalnym. I tak formy "dostać e-maila/SMSa" są znacznie bardziej popularne od form "dostać e-mail/SMS".
+[Edytuj]
+
+Zmiany leksykalne
+
+Następuje zapożyczanie dużej ilości wyrazów angielskich, a jednocześnie zanika wiele dawnych zapożyczeń, głównie francuskich i rosyjskich. Ciekawym zjawiskiem jest zmiana wymowy niektórych francuskich zapożyczeń z francuskiej na angielską, np. image wymawia się współcześnie raczej imidż niż imaż.
+[Edytuj]
+
+Zmiany fonetyczne
+
+W związku z zapożyczeniami słów z języka angielskiego o odmiennej fonetyce rozpowszechniają się rzadko dotychczas spotykane połączenia głosek np. po głoskach zębowych t, d, s, z, r pojawia się i (didżej, tir, ring).
+[Edytuj]
+
+Zmiany w postrzeganiu wulgaryzmów
+
+W ostatnich latach wiele słów przeszło z języka wulgarnego do zwykłego języka potocznego. Przykładem może być np. przymiotnik "zajebisty". Wiele innych wyrazów, które pozostały wulgaryzmami ograniczyło swoją siłę, np. wyraz "kurwa" jest często używany w sytuacjach w których jeszcze nie tak dawno temu byłby uważany za nie do pomyślenia. Z drugiej strony, w ramach politycznej poprawności, pewne słowa uważa się za bardziej obraźliwe niż kiedyś. Np. słowa "pedał" współcześnie używać nie wypada (oprócz w znaczeniu części roweru), zastąpił je angielski "gej" lub "homoseksualista".
+[Edytuj]
+
+Zobacz też
+Wikiźródła
+Zobacz w Wikiźródłach tablicę częstości występowania liter w języku polskim
+Wikicytaty
+Zobacz w Wikicytatach kolekcję cytatów związanych z językiem polskim
+
+    * Zasady pisowni polskiej
+    * Rada Języka Polskiego
+    * Język polskawy
+    * Powstanie i rozwój języka polskiego
+
+[Edytuj]
+
+Linki zewnętrzne
+
+    * ogólnopolskie forum językoznawców - obszerna sekcja poświęcona językowi polskiemu (english, deutch, français)
+    * Język polski w liceum
+    * Kurs języka polskiego (po angielsku)
+    * Gramatyka języka polskiego
diff --git a/mcs/class/I18N/West/Test/texts/portguese-860.txt b/mcs/class/I18N/West/Test/texts/portguese-860.txt
new file mode 100644 (file)
index 0000000..fffc853
--- /dev/null
@@ -0,0 +1,49 @@
+Writing system
+
+    Main article: Portuguese alphabet
+
+Portuguese is written using the Latin alphabet with 26 letters. Three of them (K, W and Y) are only used for non-Portuguese origin words, in terms like darwinismo (Darwinism, from English "Darwin"). It uses \87 and acute, grave, circumflex and tilde accents over vowels, as well as, in some forms and only in Brazil, diaeresis on a U as in ling\81¡stica (Linguistics, lingu¡stica is used in the rest of the Portuguese speaking nations).
+[edit]
+
+Written varieties and Spelling Reform
+
+As of 2005, Portuguese has two major written forms:
+
+    * European and African Portuguese
+    * Brazilian Portuguese
+
+Written varieties Portugal & Africa    Brazil  translation
+Different pronunciation
+Ant¢nio        Ant\93nio         Anthony
+V\82nus  V\88nus   Venus
+Facto  Fato    Fact
+Deaf consonants
+ac\87\84o  a\87\84o    action
+direc\87\84o       dire\87\84o         direction
+el\82ctrico      el\82trico        electric
+¢ptimo         ¢timo   very good
+Accents
+Frequente      Freq\81ente       Frequent
+ideia  id\82ia   idea
+
+In Brazil most first 'c's in 'cc', 'c\87' or 'ct'; and 'p's in 'pc', 'p\87' or 'pt' were eliminated from the language, since they are not pronounced in the cultivated spoken language, but are remnants from the language's Latin origin (though some continue to exist in cultivated Brazilian Portuguese, others in European Portuguese). An example is "facto" (in Portugal) and "fato" (in Brazil), both meaning fact -- one of the rare words that will continue to be accepted and is pronounced differently in both countries.
+
+Also, there are differences in accent marks, due to:
+
+   1. Different pronunciation: Brazil uses closed vowels in words such as "Ant\93nio" (Anthony) or "an\93nimo" (anonymous), whereas Portugal and Africa use open ones, "Ant¢nio" or "an¢nimo", respectively.
+   2. Easier reading: Because "qu" can be read in two different ways in Portuguese: "kw" or "k", Brazil uses the diaeresis (called 'trema' in Portuguese), instead of "cinquenta" they write "cinq\81enta". Currently, some press in Brazil has stopped using this accent mark. It was part of an orthographic agreement but abolished in Portugal.
+
+A 1990 Spelling Reform (Port. Reforma Ortogr fica), intended to create an International Portuguese Standard, was ratified by Brazil, Cape Verde, and Portugal. East Timor, not an original subscriber, will ratify shortly along with Guinea-Bissau. Brazil and East Timor were the biggest supporters of the reform and pressured the CPLP for a fast implementation, but the implementation date has not yet been set. In East Timor, both orthographies are currently being taught to children. Galiza was also invited to take part in the reform but the Galician government ignored the invitation (note that this government states that Galician and Portuguese are different languages). However, an unofficial commission formed by Galician linguists (supporting the unity of the language) was sent and participated in the reform. 2
+
+(NOTE: Removed non-convertible characters for testing Mono)
+
+Even if today's orthographies do not harm intelligibility between native speakers, the orthography of one country is considered incorrect in the other, leading to two different translations of the same book written in another language and it can confuse foreigners that are learning the language. One endeavour of this reform is to promote the language internationally, just like the spelling reforms of Spanish by the Real Academia Espa¤ola helped to promote the Spanish language. The language is not very popular internationally, even if it is the third-most-spoken Western language in the world, after English and Spanish. Another objective is Portugal's aid to Brazil and African countries in education of the Portuguese language to African and Amerindian populations, Brazil's educational aid to Africa and greater cultural and academic exchange.
+
+Another agreement was made for the new words that will come into the language.
+
+
+(snip)
+
+Retrieved from "http://en.wikipedia.org/wiki/Portuguese_language"
+
+Categories: Pages containing IPA | Portuguese language | Languages of Portugal | Languages of Brazil | Languages of Cape Verde | Languages of Macao | Guttural R
diff --git a/mcs/class/I18N/West/Test/texts/portguese-utf8.txt b/mcs/class/I18N/West/Test/texts/portguese-utf8.txt
new file mode 100644 (file)
index 0000000..075149b
--- /dev/null
@@ -0,0 +1,49 @@
+Writing system
+
+    Main article: Portuguese alphabet
+
+Portuguese is written using the Latin alphabet with 26 letters. Three of them (K, W and Y) are only used for non-Portuguese origin words, in terms like darwinismo (Darwinism, from English "Darwin"). It uses ç and acute, grave, circumflex and tilde accents over vowels, as well as, in some forms and only in Brazil, diaeresis on a U as in lingüística (Linguistics, linguística is used in the rest of the Portuguese speaking nations).
+[edit]
+
+Written varieties and Spelling Reform
+
+As of 2005, Portuguese has two major written forms:
+
+    * European and African Portuguese
+    * Brazilian Portuguese
+
+Written varieties Portugal & Africa    Brazil  translation
+Different pronunciation
+António       Antônio        Anthony
+Vénus         Vênus  Venus
+Facto  Fato    Fact
+Deaf consonants
+acção        ação  action
+direcção     direção       direction
+eléctrico     elétrico       electric
+óptimo        ótimo  very good
+Accents
+Frequente      Freqüente      Frequent
+ideia  idéia  idea
+
+In Brazil most first 'c's in 'cc', 'cç' or 'ct'; and 'p's in 'pc', 'pç' or 'pt' were eliminated from the language, since they are not pronounced in the cultivated spoken language, but are remnants from the language's Latin origin (though some continue to exist in cultivated Brazilian Portuguese, others in European Portuguese). An example is "facto" (in Portugal) and "fato" (in Brazil), both meaning fact -- one of the rare words that will continue to be accepted and is pronounced differently in both countries.
+
+Also, there are differences in accent marks, due to:
+
+   1. Different pronunciation: Brazil uses closed vowels in words such as "Antônio" (Anthony) or "anônimo" (anonymous), whereas Portugal and Africa use open ones, "António" or "anónimo", respectively.
+   2. Easier reading: Because "qu" can be read in two different ways in Portuguese: "kw" or "k", Brazil uses the diaeresis (called 'trema' in Portuguese), instead of "cinquenta" they write "cinqüenta". Currently, some press in Brazil has stopped using this accent mark. It was part of an orthographic agreement but abolished in Portugal.
+
+A 1990 Spelling Reform (Port. Reforma Ortográfica), intended to create an International Portuguese Standard, was ratified by Brazil, Cape Verde, and Portugal. East Timor, not an original subscriber, will ratify shortly along with Guinea-Bissau. Brazil and East Timor were the biggest supporters of the reform and pressured the CPLP for a fast implementation, but the implementation date has not yet been set. In East Timor, both orthographies are currently being taught to children. Galiza was also invited to take part in the reform but the Galician government ignored the invitation (note that this government states that Galician and Portuguese are different languages). However, an unofficial commission formed by Galician linguists (supporting the unity of the language) was sent and participated in the reform. 2
+
+(NOTE: Removed non-convertible characters for testing Mono)
+
+Even if today's orthographies do not harm intelligibility between native speakers, the orthography of one country is considered incorrect in the other, leading to two different translations of the same book written in another language and it can confuse foreigners that are learning the language. One endeavour of this reform is to promote the language internationally, just like the spelling reforms of Spanish by the Real Academia Española helped to promote the Spanish language. The language is not very popular internationally, even if it is the third-most-spoken Western language in the world, after English and Spanish. Another objective is Portugal's aid to Brazil and African countries in education of the Portuguese language to African and Amerindian populations, Brazil's educational aid to Africa and greater cultural and academic exchange.
+
+Another agreement was made for the new words that will come into the language.
+
+
+(snip)
+
+Retrieved from "http://en.wikipedia.org/wiki/Portuguese_language"
+
+Categories: Pages containing IPA | Portuguese language | Languages of Portugal | Languages of Brazil | Languages of Cape Verde | Languages of Macao | Guttural R
diff --git a/mcs/class/I18N/West/Test/texts/proto-slavic-utf8.txt b/mcs/class/I18N/West/Test/texts/proto-slavic-utf8.txt
new file mode 100644 (file)
index 0000000..1d27a80
--- /dev/null
@@ -0,0 +1,227 @@
+It is copied from Wikipedia, http://en.wikipedia.org/wiki/Proto-Slavic_language
+Authored under GFDL license: http://en.wikipedia.org/wiki/Wikipedia:Text_of_the_GNU_Free_Documentation_License
+
+Proto-Slavic language
+From Wikipedia, the free encyclopedia.
+Jump to: navigation, search
+
+Proto-Slavic is the proto-language from which Old Church Slavonic and other Slavic languages later emerged. It was spoken before the 7th century. No Proto-Slavic writings have been found, so the language has been reconstructed from a comparison of all the attested Slavic languages and of other Indo-European languages.
+Contents
+[hide]
+
+    * 1 Origin
+    * 2 Phonology
+          o 2.1 Vowels
+          o 2.2 Consonants
+          o 2.3 Origin of vowels
+                + 2.3.1 Other vocalic changes
+          o 2.4 Origin of consonants
+          o 2.5 Palatalizations
+    * 3 Loanwords
+    * 4 References
+    * 5 See also
+    * 6 External links
+
+[edit]
+
+Origin
+
+According to some estimations, the Proto-Slavic language developed on the turn of 2nd and 1st millennium BP. There is much debate whether Proto-Slavic branched off directly from Proto-Indo-European, or whether the language branched off later from Proto-Balto-Slavic. Those who deny existence of Proto-Balto-Slavic emphasize fair lexical differences between both groups.
+
+While Slavic and Baltic both underwent Satemization, they preserve much archaic vocabulary. This is especially true for kinship terms and words for parts of human body. See the List of common Indo-European roots for more information.
+
+During long time of its existence (probably 2000 years) the Proto-Slavic language underwent to various changes. This fact, as well as understanding of language processes in various ways by individual linguists, is the reason of different Proto-Slavic reconstructions. Some authors try to distinguish several (e.g. three) periods of the Proto-Slavic development but it is not the generally accepted approach.
+
+In the 5th or 6th century, Slavic tribes began to migrate in the wake of the Germanic migration period. These movements constitute the breakup of Proto-Slavic. The Bulgarians formed their first empire in 681, and in the late 9th century, the Bulgarian dialect spoken in Thessaloniki was recorded for the first time, beginning Old Church Slavonic literature. Old Church Slavonic cannot be viewed as Proto-Slavic itself, having been recorded at least two centuries after the breakup of Proto-Slavic, but it is still reasonably close, and there would probably have been mutual intellegibility between Old Church Slavonic and other Slavic dialects of those days.
+[edit]
+
+Phonology
+[edit]
+
+Vowels
+
+There were 11 vowels in Late Proto-Slavic: i, ь, e, ę, ě, a, o, ǫ, ъ, y, u. Explanations:
+
+    * ь, ъ - yers, or ultrashort vowels, probably close to IPA [ɪ], [ɯ] respectively;
+    * ę, ǫ - nasal e, o;
+    * ě - long vowel pronounced probably like [æ:];
+    * y - long vowel pronounced probably like [ɯ:]; according to some scholars, it was the diphtong [ɯi] rather;
+    * i, a, u were long vowels;
+    * e, o were short vowels;
+    * existence of syllabic sonants in Proto-Slavic is not generally accepted, they may have developed only in individual Slavic dialects (as many believe, no syllabic sonants were in East Slavic dialects); many scholars postulate the groups ъl, ьl, ъr, ьr instead of syllabic sonants l̥, ĺ̥, r̥, ŕ̥.
+
+[edit]
+
+Consonants
+Consonantal system in Late Proto-Slavic consonants     labial  dental  palatalized dental      alveolar        palatalized alveolar    palatal         velar
+stops  p, b    t, d                                    k, g
+affricates                     c, ʒ           č, ǯ           
+fricatives     v       s, z    s’            š, ž          x
+nasals         m       n                                        
+liquids                l               r               j        
+
+Remarks:
+
+    * x means a velar fricative, similar to Scottish ch;
+    * v must have been labial and similar to English w; the symbol v, however, is widely used;
+    * s’ is reconstructed on the basis of West Slavic š = East and South Slavic s;
+    * c means the affricate [ʦ], therefore not the same as the IPA [c];
+    * ʒ means its voiced counterpart [dz],
+    * š, č, ž and ǯ mean IPA [ʃ], [ʧ], [ʒ] and [ʤ] respectively; all these symbols are in common use in Slavistics.
+
+[edit]
+
+Origin of vowels
+
+    * i1 < PIE *ī, *ei;
+    * i2 < reduced *ai (*ăi or *ui) < PIE *ai, *oi;
+    * ь < *i < PIE *i;
+    * e < PIE *e;
+    * ę < PIE *en, *em;
+    * ě1 < PIE ē,
+    * ě2 < *ai < PIE *ai, *oi;
+    * a < *ā < PIE *ā, *ō;
+    * o < *a < PIE *a, *o, *ə;
+    * ǫ < *an, *am < PIE *an, *on, *am, *om;
+    * ъ < *u < PIE *u;
+    * y < PIE *ū;
+    * u < *au < PIE *au, *ou.
+
+    * The vowels i2, ě2 developed later than i1, ě1. In Late Proto-Slavic there were no differences in pronunciation between i1 and i2 as well as between ě1 and ě2. They had caused, however, different changes of preceding velars, see below.
+    * Late Proto-Slavic yers ь, ъ < earlier i, u developed also from reduced PIE *e, *o respectively. The reduction was probably a morphologic process rather than phonetic.
+    * We can observe similar reduction of *ā into *ū (and finally y) in some endings, esp. in closed syllables.
+    * The development of the Proto-Slavic i2 was also a morphologic phenomenon as it originated only in some endings.
+    * Another source of the Proto-Slavic y is *ō in Germanic loanwords - the borrowings took place when Proto-Slavic had not ō in native words any longer, as PIE *ō had already changed into *ā.
+    * PIE *ə disappeared without traces when in a non-initial syllable.
+    * PIE *eu probably developed into *jau in Early Proto-Slavic (or: during the Balto-Slavic epoch), and eventually into Proto-Slavic *ju.
+    * According to some authors, PIE long diphthongs *ēi, *āi, *ōi, *ēu, *āu, *ōu had twofold development in Early Proto-Slavic, namely they shortened in endings into simple *ei, *ai, *oi, *eu, *au, *ou but they lost their second element elsewhere and changed into *ē, *ā, *ō with further development like above.
+
+[edit]
+
+Other vocalic changes
+
+    * *jo, *jъ, *jy changed into *je, *jь, *ji;
+    * *o, *ъ, *y also changed into *e, *ь, *i after *c, *ʒ, *s’ which developed as the result of the 3rd palatalization;
+    * *e, *ě changed into *o, *a after *č, *ǯ, *š, *ž in some contexts / words;
+    * a similar change of *ě into *a after *j seems to have occurred in Proto-Slavic but next it can have been modified by analogy.
+
+[edit]
+
+Origin of consonants
+
+    * p < PIE *p;
+    * b < PIE *b, *bh;
+    * t < PIE *t;
+    * d < PIE *d, *dh;
+    * k < PIE *k, *kw;
+    * g < PIE *g, *gh, *gw, *gwh;
+    * s < PIE *s, *k’;
+    * z < PIE *g’, *g’h, *s [z] before a voiced consonant;
+    * x < PIE *s before a vowel when after *r, *u, *k, *i, probably also after *l; see Ruki;
+    * m < PIE *m;
+    * n < PIE *n;
+    * l < PIE *l;
+    * r < PIE *r;
+    * v < PIE *w;
+    * j < PIE *j.
+
+In some words the Proto-Slavic x developed from other PIE phonemes, like *kH, *ks, *sk.
+
+Moreover:
+
+    * c < k in the 2nd palatalization;
+    * ʒ < g in the 2nd palatalization;
+    * s’ < x in the 2nd palatalization;
+    * č < kj and k in the 1st palatalization;
+    * šč < stj, skj and sk in the 1st palatalization;
+    * žǯ < zdj, zgj and zg in the 1st palatalization;
+    * š < sj, xj and x in the 1st palatalization;
+    * ž < zj, gj and g in the 1st palatalization;
+    * initial j originated before the front vowels e, ě, ę (and before ь, i in some dialects).
+
+[edit]
+
+Palatalizations
+
+    * The 1st palatalization
+
+    *k, *g, *x > *č, *ǯ, *š before *i1, *ě1, *e, *ę, *ь;
+    next ǯ changed into ž everywhere except after z;
+    *kt, *gt > *tj before *i1, *ě1, *e, *ę, *ь (there are only examples for *kti).
+
+    * The 2nd palatalization
+
+    *k, *g, *x > *c, *ʒ, *s’ before *i2, *ě2;
+    *s’ mixed with s or š in individual Slavic dialects;
+    *ʒ simplified into z, except Polish;
+    also *kv, *gv, *xv > *cv, *ʒv, *s’v before *i2, *ě2 in some dialects (not in West Slavic and probably not in East Slavic - Russian examples may be of South Slavic origin);
+    as it seems, the 2nd palatalization did not occur in old northern Russian dialects.
+
+    * The 3rd palatalization
+
+    *k, *g, *x > *c, *ʒ, *s’ after front vowels (*i, *ь, *ě, *e, *ę) and *ьr (= *ŕ̥), before a vowel;
+    it was progressive contrary to the 1st and the 2nd palatalization;
+    it occurred inconsistently, only in certain words, and sometimes it was limited to some Proto-Slavic dialects;
+    sometimes a palatalized form and a non-palatalized one existed side-by-side even within the same dialect (ex. Old Church Slavonic sikъ || sicь 'such');
+    in fact, no examples are known for the 3rd palatalization after *ě, *e, and (few) examples after *ŕ̥ are limited to Old Church Slavonic.
+
+    * Consonants + j
+
+    *sj, *zj > *š, *ž;
+    *stj, *zdj > *šč, *žǯ;
+    *kj, *gj, *xj > *č, *ǯ, *š (next *ǯ > *ž);
+    *skj, *zgj > *šč, *žǯ;
+    *tj, *dj had been preserved and developed variously in individual Slavic dialects;
+    *rj, *lj, *nj had been preserved until the end of the Proto-Slavic epoch, next developed into palatalized *ŕ, *ĺ, *ń;
+    *pj, *bj, *vj, *mj had been preserved until the end of the Proto-Slavic epoch, next developed into *pĺ, *bĺ, *vĺ, *mĺ in most Slavic dialects (the range of the change is under discussion).
+
+[edit]
+
+Loanwords
+
+The lexical stock of Proto-Slavic also includes a number of loanwords from the languages of various tribes and peoples that the Proto-Slavs came into contact with. However, the list of the borrowings, their sources and other details are under discussion. According to most sources, the earliest traceable lexical or semantic borrowings were loans from the Northeastern Iranian languages spoken by the Scythian, Alanian, and Sarmatian tribes. Most of these borrowings appertain to the religious sphere: *bogъ 'God' (cf. also derivatives like *bogatъ 'rich', *ubogъ 'poor'), *gatati 'to divine', *divъ 'demon', *rajь 'paradise', *svętъ 'saint, holy', *zъlъ 'evil', *mogyla 'kurgan, tomb, grave' and so on. Yet non-religious terms such as *(j)aščerъ 'serpent', *toporъ 'axe', *nebo 'sky, heaven', *slovo 'word', *soxa 'primitive plough', *čaša 'goblet, bowl, cup; cranium' and (at least according to some scholars) *xata 'hut, house' are also of Iranian origin.
+
+It is generally acknowledged that of the various languages which left their mark on the early lexical stock, Germanic occupies a pivotal position, and many early Germanic loanwords into Proto-Slavic are known. Examples: *xlěbъ 'bread', *xlěvъ 'pigsty', *mečъ 'sword', *šelmъ 'helmet', *xъlmъ 'hill', *plugъ 'plough', *skotъ 'cattle', *bjudo 'bowl, basin; table', possibly also *melko 'milk', *smoky 'fig'. Younger Germanic (mainly Old High German) borrowings are *pěnęʒь 'penny, money', *kъnęʒь 'king, prince, priest' (< kuning), *istъba 'room, apartment' (< stuba), *bukъ 'beech-tree', *tjudjь 'foreign, stranger, somebody else's' (< *þiudisk, cf. diutisk, modern Deutsch 'German'). The original source of some of them may have been other languages from where they came into Slavic with Germanic mediation:
+
+    * Latin: *kupiti 'to buy' (cf. Latin caupō 'merchant' from Etruscan), *dъska 'board' (< Lat. discus through Old High German tisk), *popъ 'priest', *kotьlъ 'kettle', *cěsarjь 'king, imperator', *krьstъ 'cross' (< Lat. Chrīstus through Old High German Krist);
+    * Greek (with Gothic mediation): *cьrky 'church', *velьbǫdъ 'camel' (< Greek elephas 'elephant' through Gothic ulbandus);
+    * Celtic *lěkъ 'medicine', *tynъ 'fence' (cf. English town from the same source).
+
+Some Latin (including words from Balkan Romance) and Greek words entered Late Proto-Slavic even without Germanic mediation:
+
+    * Latin: *konopja (<Popular Latin *canapis), *palata/*polata 'tent' (< Lat. palātium), *poganъ 'pagan' (< pagānus), *kоlęda 'carol' (< Lat. calendae), *osьlъ 'ass, donkey';
+    * Greek: *korabjь 'ship' (Byzantine Greek karábion), *krabъ 'crab', *makъ 'poppy', *olkъtь 'elbow', *ogurъkъ/*ogurьcь 'cucumber'.
+
+There is a number of Proto-Slavic words which are suspected to be of yet other origin:
+
+    * Ugro-Finnic: *polъ 'half; sex', *(j)ama 'cave, den', *sani 'sledge, sleigh',
+    * Turkic: *kobyla 'mare', *xomǫto 'horse's yoke', *gatь 'dam', *xyzъ/*xyzja 'hut' (most scholars consider this word Germanic), *kъnęga/*kъniga 'book', *proso 'millet',
+    * Celtic: *sluga 'servant', *braga 'kind of beer', *gunja 'kind of a coat', *černъ 'molar'.
+
+Some words may also have originated from Dacian/North Thracian languages [1], or from the Baltic languages.
+[edit]
+
+References
+
+    * Moszyński, Leszek. Wstęp do filologii słowiańskiej. PWN. Warszawa, 1984.
+    * Paliga, Sorin. Phd linguistics. Lexicon Etymologum Elementorum Thraecorum. [1]
+    * Schenker, Alexander M. The Dawn of Slavic. Yale Language Series, 1995.
+    * Vasmer, Max. Russisches etymologisches Wörterbuch. Heidelberg, 1950-1958.
+
+[edit]
+
+See also
+
+    * Balto-Slavic languages
+    * Old Church Slavonic
+
+[edit]
+
+External links
+
+    * The Indo-European Etymological Dictionary (IED)
+    * Türkic, Slavic and Iranian
+
+Retrieved from "http://en.wikipedia.org/wiki/Proto-Slavic_language"
+
+Categories: Slavic languages | Proto-languages
\ No newline at end of file