diff options
author | Протопопов Валерий <v.protopopov@office.ngs.ru> | 2017-11-07 11:00:49 +0300 |
---|---|---|
committer | Протопопов Валерий <v.protopopov@office.ngs.ru> | 2017-11-07 11:12:47 +0300 |
commit | 5f5c5b124b2c8c7056aac01426d2c249d3f35aff (patch) | |
tree | bf288db2713490eb493a6d4834330eace1f0d2f5 /src/NXP/Stemmer.php | |
parent | fb502e2f603cc5a7d0268d281643e37ba8f80196 (diff) |
All methods are now static
- Restore original mb_internal_encoding after method call
- Add PHPUnit 5.0 to dev-deps
- dict.php wrapped into PHPUnit data provider
- Increased memory limit for tests
Diffstat (limited to 'src/NXP/Stemmer.php')
-rw-r--r-- | src/NXP/Stemmer.php | 178 |
1 files changed, 99 insertions, 79 deletions
diff --git a/src/NXP/Stemmer.php b/src/NXP/Stemmer.php index 76d494b..0232ecb 100644 --- a/src/NXP/Stemmer.php +++ b/src/NXP/Stemmer.php @@ -12,126 +12,146 @@ namespace NXP; class Stemmer { - private $vowel = "аеёиоуыэюя"; - private $regexPerfectiveGerunds = array( - "(в|вши|вшись)$", - "(ив|ивши|ившись|ыв|ывши|ывшись)$" - ); - private $regexAdjective = "(ее|ие|ые|ое|ими|ыми|ей|ий|ый|ой|ем|им|ым|ом|его|ого|ему|ому|их|ых|ую|юю|ая|яя|ою|ею)$"; - private $regexParticiple = array( - "(ем|нн|вш|ющ|щ)", - "(ивш|ывш|ующ)" - ); - private $regexReflexives = "(ся|сь)$"; - private $regexVerb = array( - "(ла|на|ете|йте|ли|й|л|ем|н|ло|но|ет|ют|ны|ть|ешь|нно)$", - "(ила|ыла|ена|ейте|уйте|ите|или|ыли|ей|уй|ил|ыл|им|ым|ен|ило|ыло|ено|ят|ует|уют|ит|ыт|ены|ить|ыть|ишь|ую|ю)$" - ); - private $regexNoun = "(а|ев|ов|ие|ье|е|иями|ями|ами|еи|ии|и|ией|ей|ой|ий|й|иям|ям|ием|ем|ам|ом|о|у|ах|иях|ях|ы|ь|ию|ью|ю|ия|ья|я)$"; - private $regexSuperlative = "(ейш|ейше)$"; - private $regexDerivational = "(ост|ость)$"; - private $regexI = "и$"; - private $regexNN = "нн$"; - private $regexSoftSign = "ь$"; - - private $word = ''; - private $RV = 0; - private $R2 = 0; - - public function getWordBase($word) + const VOWEL = 'аеёиоуыэюя'; + const REGEX_PERFECTIVE_GERUNDS1 = '(в|вши|вшись)$'; + const REGEX_PERFECTIVE_GERUNDS2 = '(ив|ивши|ившись|ыв|ывши|ывшись)$'; + const REGEX_ADJECTIVE = '(ее|ие|ые|ое|ими|ыми|ей|ий|ый|ой|ем|им|ым|ом|его|ого|ему|ому|их|ых|ую|юю|ая|яя|ою|ею)$'; + const REGEX_PARTICIPLE1 = '(ем|нн|вш|ющ|щ)'; + const REGEX_PARTICIPLE2 = '(ивш|ывш|ующ)'; + const REGEX_REFLEXIVES = '(ся|сь)$'; + const REGEX_VERB1 = '(ла|на|ете|йте|ли|й|л|ем|н|ло|но|ет|ют|ны|ть|ешь|нно)$'; + const REGEX_VERB2 = '(ила|ыла|ена|ейте|уйте|ите|или|ыли|ей|уй|ил|ыл|им|ым|ен|ило|ыло|ено|ят|ует|уют|ит|ыт|ены|ить|ыть|ишь|ую|ю)$'; + const REGEX_NOUN = '(а|ев|ов|ие|ье|е|иями|ями|ами|еи|ии|и|ией|ей|ой|ий|й|иям|ям|ием|ем|ам|ом|о|у|ах|иях|ях|ы|ь|ию|ью|ю|ия|ья|я)$'; + const REGEX_SUPERLATIVE = '(ейш|ейше)$'; + const REGEX_DERIVATIONAL = '(ост|ость)$'; + const REGEX_I = 'и$'; + const REGEX_NN = 'нн$'; + const REGEX_SOFT_SIGN = 'ь$'; + + /** + * @param string $word + * + * @return string + */ + public static function getWordBase($word) { + $originalInternalEncoding = mb_internal_encoding(); mb_internal_encoding('UTF-8'); - $this->word = $word; - $this->findRegions(); - //Шаг 1 - //Найти окончание PERFECTIVE GERUND. Если оно существует – удалить его и завершить этот шаг. - if (!$this->removeEndings($this->regexPerfectiveGerunds, $this->RV)) { - //Иначе, удаляем окончание REFLEXIVE (если оно существует). - $this->removeEndings($this->regexReflexives, $this->RV); - //Затем в следующем порядке пробуем удалить окончания: ADJECTIVAL, VERB, NOUN. Как только одно из них найдено – шаг завершается. - if (!($this->removeEndings( + + list($rv, $r2) = self::findRegions($word); + + // Шаг 1: Найти окончание PERFECTIVE GERUND. Если оно существует – удалить его и завершить этот шаг. + if (!self::removeEndings($word, array(self::REGEX_PERFECTIVE_GERUNDS1, self::REGEX_PERFECTIVE_GERUNDS2), $rv)) { + // Иначе, удаляем окончание REFLEXIVE (если оно существует). + self::removeEndings($word, self::REGEX_REFLEXIVES, $rv); + + // Затем в следующем порядке пробуем удалить окончания: ADJECTIVAL, VERB, NOUN. Как только одно из них найдено – шаг завершается. + if (!(self::removeEndings( + $word, array( - $this->regexParticiple[0] . $this->regexAdjective, - $this->regexParticiple[1] . $this->regexAdjective + self::REGEX_PARTICIPLE1 . self::REGEX_ADJECTIVE, + self::REGEX_PARTICIPLE2 . self::REGEX_ADJECTIVE ), - $this->RV - ) || $this->removeEndings($this->regexAdjective, $this->RV)) + $rv + ) || self::removeEndings($word, self::REGEX_ADJECTIVE, $rv)) ) { - if (!$this->removeEndings($this->regexVerb, $this->RV)) { - $this->removeEndings($this->regexNoun, $this->RV); + if (!self::removeEndings($word, array(self::REGEX_VERB1, self::REGEX_VERB2), $rv)) { + self::removeEndings($word, self::REGEX_NOUN, $rv); } } } - //Шаг 2 - //Если слово оканчивается на и – удаляем и. - $this->removeEndings($this->regexI, $this->RV); - //Шаг 3 - //Если в R2 найдется окончание DERIVATIONAL – удаляем его. - $this->removeEndings($this->regexDerivational, $this->R2); - //Шаг 4 - //Возможен один из трех вариантов: - //Если слово оканчивается на нн – удаляем последнюю букву. - if ($this->removeEndings($this->regexNN, $this->RV)) { - $this->word .= 'н'; + + // Шаг 2: Если слово оканчивается на и – удаляем и. + self::removeEndings($word, self::REGEX_I, $rv); + + // Шаг 3: Если в R2 найдется окончание DERIVATIONAL – удаляем его. + self::removeEndings($word, self::REGEX_DERIVATIONAL, $r2); + + // Шаг 4: Возможен один из трех вариантов: + // 1. Если слово оканчивается на нн – удаляем последнюю букву. + if (self::removeEndings($word, self::REGEX_NN, $rv)) { + $word .= 'н'; } - //Если слово оканчивается на SUPERLATIVE – удаляем его и снова удаляем последнюю букву, если слово оканчивается на нн. - $this->removeEndings($this->regexSuperlative, $this->RV); - //Если слово оканчивается на ь – удаляем его. - $this->removeEndings($this->regexSoftSign, $this->RV); - return $this->word; + // 2. Если слово оканчивается на SUPERLATIVE – удаляем его и снова удаляем последнюю букву, если слово оканчивается на нн. + self::removeEndings($word, self::REGEX_SUPERLATIVE, $rv); + + // 3. Если слово оканчивается на ь – удаляем его. + self::removeEndings($word, self::REGEX_SOFT_SIGN, $rv); + + mb_internal_encoding($originalInternalEncoding); + return $word; } - public function removeEndings($regex, $region) + /** + * @param string $word + * @param string|string[] $regex + * @param int $region + * + * @return bool + */ + public static function removeEndings(&$word, $regex, $region) { - $prefix = mb_substr($this->word, 0, $region, 'utf8'); - $word = substr($this->word,strlen($prefix)); + $prefix = mb_substr($word, 0, $region, 'utf8'); + $ending = substr($word, strlen($prefix)); if (is_array($regex)) { - if (preg_match('/.+[а|я]' . $regex[0] . '/u', $word)) { - $this->word = $prefix . preg_replace('/' . $regex[0] . '/u', '', $word); + if (preg_match('/.+[а|я]' . $regex[0] . '/u', $ending)) { + $word = $prefix . preg_replace('/' . $regex[0] . '/u', '', $ending); return true; } $regex = $regex[1]; } - if (preg_match('/.+' . $regex . '/u', $word)) { - $this->word = $prefix . preg_replace('/' . $regex . '/u', '', $word); + if (preg_match('/.+' . $regex . '/u', $ending)) { + $word = $prefix . preg_replace('/' . $regex . '/u', '', $ending); return true; } return false; } - private function findRegions() + /** + * @param string $word + * + * @return int[] + */ + private static function findRegions($word) { + $rv = 0; $state = 0; - $wordLength = mb_strlen($this->word, 'utf8'); + $wordLength = mb_strlen($word, 'utf8'); for ($i = 1; $i < $wordLength; $i++) { - $prevChar = mb_substr($this->word, $i - 1, 1, 'utf8'); - $char = mb_substr($this->word, $i, 1, 'utf8'); + $prevChar = mb_substr($word, $i - 1, 1, 'utf8'); + $char = mb_substr($word, $i, 1, 'utf8'); switch ($state) { case 0: - if ($this->isVowel($char)) { - $this->RV = $i + 1; - $state = 1; + if (self::isVowel($char)) { + $rv = $i + 1; + $state = 1; } break; case 1: - if ($this->isVowel($prevChar) && !$this->isVowel($char)) { - $state = 2; + if (self::isVowel($prevChar) && !self::isVowel($char)) { + $state = 2; } break; case 2: - if ($this->isVowel($prevChar) && !$this->isVowel($char)) { - $this->R2 = $i + 1; - return; + if (self::isVowel($prevChar) && !self::isVowel($char)) { + return [$rv, $i + 1]; } break; } } + + return [$rv, 0]; } - private function isVowel($char) + /** + * @param string $char + * + * @return bool + */ + private static function isVowel($char) { - return (strpos($this->vowel, $char) !== false); + return strpos(self::VOWEL, $char) !== false; } } |