/* LanguageTool, a natural language style checker
* Copyright (C) 2006 Daniel Naber (http://www.danielnaber.de)
*
* This library is free software; you can redistribute it and/or
* modify it under the terms of the GNU Lesser General Public
* License as published by the Free Software Foundation; either
* version 2.1 of the License, or (at your option) any later version.
*
* This library is distributed in the hope that it will be useful,
* but WITHOUT ANY WARRANTY; without even the implied warranty of
* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
* Lesser General Public License for more details.
*
* You should have received a copy of the GNU Lesser General Public
* License along with this library; if not, write to the Free Software
* Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301
* USA
*/
package org.languagetool.tokenizers.ro;
import junit.framework.TestCase;
import org.languagetool.Language;
import org.languagetool.TestTools;
import org.languagetool.language.Romanian;
import org.languagetool.tokenizers.SRXSentenceTokenizer;
import org.languagetool.tokenizers.SentenceTokenizer;
/**
* @author Ionuț Păduraru
*/
public class RomanianSentenceTokenizerTest extends TestCase {
Language lang = new Romanian();
// accept \n as paragraph:
private final SentenceTokenizer stokenizer = new SRXSentenceTokenizer(lang);
// accept only \n\n as paragraph:
private final SentenceTokenizer stokenizer2 = new SRXSentenceTokenizer(lang);
@Override
public final void setUp() {
stokenizer.setSingleLineBreaksMarksParagraph(true);
stokenizer2.setSingleLineBreaksMarksParagraph(false);
}
public final void testTokenize() {
testSplit(new String[] { "Aceasta este o propozitie fara diacritice. " });
testSplit(new String[] { "Aceasta este o fraza fara diacritice. ",
"Propozitia a doua, tot fara diacritice. " });
testSplit(new String[] { "Aceasta este o propoziție cu diacritice. " });
testSplit(new String[] { "Aceasta este o propoziție cu diacritice. ",
"Propoziția a doua, cu diacritice. " });
testSplit(new String[] { "O propoziție! ", "Și încă o propoziție. "});
testSplit(new String[] { "O propoziție... ", "Și încă o propoziție. "});
testSplit(new String[] { "La adresa http://www.archeus.ro găsiți resurse lingvistice. "});
testSplit(new String[] { "Data de 10.02.2009 nu trebuie să fie separator de propoziții. "});
testSplit(new String[] { "Astăzi suntem în data de 07.05.2007. "});
testSplit(new String[] { "Astăzi suntem în data de 07/05/2007. "});
testSplit(new String[] { "La anumărul (1) avem puține informații. "});
testSplit(new String[] { "To jest 1. wydanie." });
testSplit(new String[] { "La anumărul 1. avem puține informații. "});
testSplit(new String[] { "La anumărul 13. avem puține informații. "});
testSplit(new String[] { "La anumărul 1.3.3 avem puține informații. "});
testSplit(new String[] { "O singură propoziție... "});
testSplit(new String[] { "Colegii mei s-au dus... "});
testSplit(new String[] { "O singură propoziție!!! "});
testSplit(new String[] { "O singură propoziție??? "});
testSplit(new String[] { "Propoziții: una și alta. "});
testSplit(new String[] { "Domnu' a plecat. "});
testSplit(new String[] { "Profu' de istorie tre' să predea lecția. "});
testSplit(new String[] { "Sal'tare! "});
testSplit(new String[] { "'Neaţa! "});
testSplit(new String[] { "Deodat'apare un urs. "});
// accente
testSplit(new String[] { "A făcut două cópii. "});
testSplit(new String[] { "Ionel adúnă acum ceea ce Maria aduná înainte să vin eu. "});
// incomplete sentences, need to work for on-thy-fly checking of texts:
testSplit(new String[] { "Domnu' a plecat" });
testSplit(new String[] { "Domnu' a plecat. ",
"El nu a plecat" });
testSplit(new String[] { "Se pot întâlni și abrevieri precum S.U.A. " +
"sau B.C.R. într-o singură propoziție." });
testSplit(new String[] { "Se pot întâlni și abrevieri precum S.U.A. sau B.C.R. ",
"Aici sunt două propoziții." });
testSplit(new String[] { "Același lucru aici... ", "Aici sunt două propoziții." });
testSplit(new String[] { "Același lucru aici... dar cu o singură propoziție." });
testSplit(new String[] { "„O propoziție!” ", "O alta." });
testSplit(new String[] { "„O propoziție!!!” ", "O alta." });
testSplit(new String[] { "„O propoziție?” ", "O alta." });
testSplit(new String[] { "„O propoziție?!?” ", "O alta." });
testSplit(new String[] { "«O propoziție!» ", "O alta." });
testSplit(new String[] { "«O propoziție!!!» ", "O alta." });
testSplit(new String[] { "«O propoziție?» ", "O alta." });
testSplit(new String[] { "«O propoziție???» ", "O alta." });
testSplit(new String[] { "«O propoziție?!?» ", "O alta." });
testSplit(new String[] { "O primă propoziție. ", "(O alta.)" });
testSplit(new String[] { "A venit domnu' Vasile. " });
testSplit(new String[] { "A venit domnu' acela. " });
// one/two returns = paragraph = new sentence:
TestTools.testSplit(new String[] { "A venit domnul\n\n", "Vasile." }, stokenizer2);
TestTools.testSplit(new String[] { "A venit domnul\n", "Vasile." }, stokenizer);
TestTools.testSplit(new String[] { "A venit domnu'\n\n", "Vasile." }, stokenizer2);
TestTools.testSplit(new String[] { "A venit domnu'\n", "Vasile." }, stokenizer);
// Missing space after sentence end:
testSplit(new String[] { "El este din România!",
"Acum e plecat cu afaceri." });
testSplit(new String[] { "Temperatura este de 30°C.", "Este destul de cald." });
testSplit(new String[] { "A alergat 50 m. ",
"Deja a obosit." });
// From the abbreviation list:
testSplit(new String[] { "Pentru dvs. vom face o excepție." });
testSplit(new String[] { "Pt. dumneavoastră vom face o excepție." });
testSplit(new String[] { "Pt. dvs. vom face o excepție." });
// din punct de vedere
testSplit(new String[] { "A expus problema d.p.d.v. artistic." });
testSplit(new String[] { "A expus problema dpdv. artistic." });
// şi aşa mai departe.
testSplit(new String[] { "Are mere, pere, șamd. dar nu are alune." });
testSplit(new String[] { "Are mere, pere, ș.a.m.d. dar nu are alune." });
testSplit(new String[] { "Are mere, pere, ș.a.m.d. ", "În schimb, nu are alune." });
// şi celelalte
testSplit(new String[] { "Are mere, pere, ş.c.l. dar nu are alune." });
testSplit(new String[] { "Are mere, pere, ş.c.l. ", "Nu are alune." });
// etc. et cetera
testSplit(new String[] { "Are mere, pere, etc. dar nu are alune." });
testSplit(new String[] { "Are mere, pere, etc. ", "Nu are alune." });
// ş.a. - şi altele
testSplit(new String[] { "Are mere, pere, ș.a. dar nu are alune." });
// pag, leg, art
testSplit(new String[] { "Lecția începe la pag. următoare și are trei pagini." });
testSplit(new String[] { "Lecția începe la pag. 20 și are trei pagini." });
testSplit(new String[] { "A acționat în conformitate cu lg. 144, art. 33." });
testSplit(new String[] { "A acționat în conformitate cu leg. 144, art. 33." });
testSplit(new String[] { "A acționat în conformitate cu legea nr. 11." });
testSplit(new String[] { "Lupta a avut loc în anul 2000 î.H. și a durat trei ani." });
// lunile anului, abreviate
testSplit(new String[] { "Discuția a avut loc pe data de douăzeci aug. și a durat două ore." });
testSplit(new String[] { "Discuția a avut loc pe data de douăzeci ian. și a durat două ore." });
testSplit(new String[] { "Discuția a avut loc pe data de douăzeci feb. și a durat două ore." });
testSplit(new String[] { "Discuția a avut loc pe data de douăzeci ian.", "A durat două ore." });
// M.Ap.N. - Ministerul Apărării Nationale
// there are 2 rules for this in segment.srx. Can this be done with only one rule?
testSplit(new String[] { "A fost și la M.Ap.N. dar nu l-au primit. " });
testSplit(new String[] { "A fost și la M.Ap.N. ", "Nu l-au primit. " });
// sic!
testSplit(new String[] { "Apo' da' tulai (sic!) că mult mai e de mers." });
testSplit(new String[] { "Apo' da' tulai(sic!) că mult mai e de mers." });
// […]
testSplit(new String[] { "Aici este o frază […] mult prescurtată." });
testSplit(new String[] { "Aici este o frază [...] mult prescurtată." });
}
private void testSplit(final String[] sentences) {
TestTools.testSplit(sentences, stokenizer2);
}
}