aboutsummaryrefslogblamecommitdiff
path: root/src/NXP/Stemmer.php
blob: f38a1b152e51bcddffcdd866833805e3cb424996 (plain) (tree)
1
2
3
4
5
6
7
8
9
10
11
12
13
14













                                                                          








                                                                                                                                                                                                                  
                                                                                                                                                                                                                 











                                                    
     
                                                           
                                      










                                                                                                                                                                                                                                   
                          

                                                                        
                      

                                                                            
               

                                                                                                    


                 










                                                                                                                      
         
 







                                                                                                                                                                                                                         

     







                                                                 
     

                                                       
                               

                                                                                    



                               

                                                                             





                        





                                              
     
                
                   
                                               
                                              

                                                            

                             


                                               


                          

                                                                            


                          

                                                                            



                          

                        

     





                                          
     
                                                    
     
 
<?php
/**
 * This file is part of the RussianStemmer package
 *
 * (c) Alexander Kiryukhin
 *
 * For the full copyright and license information, please view the LICENSE
 * file that was distributed with this source code
 */

namespace NXP;

class Stemmer
{
    const VOWEL = 'аеёиоуыэюя';
    const REGEX_PERFECTIVE_GERUNDS1 = '(в|вши|вшись)$';
    const REGEX_PERFECTIVE_GERUNDS2 = '(ив|ивши|ившись|ыв|ывши|ывшись)$';
    const REGEX_ADJECTIVE = '(ее|ие|ые|ое|ими|ыми|ей|ий|ый|ой|ем|им|ым|ом|его|ого|ему|ому|их|ых|ую|юю|ая|яя|ою|ею)$';
    const REGEX_PARTICIPLE1 = '(ем|нн|вш|ющ|щ)';
    const REGEX_PARTICIPLE2 = '(ивш|ывш|ующ)';
    const REGEX_REFLEXIVES = '(ся|сь)$';
    const REGEX_VERB1 = '(ла|на|ете|йте|ли|й|л|ем|н|ло|но|ет|ют|ны|ть|ешь|нно)$';
    const REGEX_VERB2 = '(ила|ыла|ена|ейте|уйте|ите|или|ыли|ей|уй|ил|ыл|им|ым|ен|ило|ыло|ено|ят|ует|уют|ит|ыт|ены|ить|ыть|ишь|ую|ю)$';
    const REGEX_NOUN = '(а|ев|ов|ие|ье|е|ьё|иями|ями|ами|еи|ии|и|ией|ей|ой|ий|й|иям|ям|ием|ем|ам|ом|о|у|ах|иях|ях|ы|ь|ию|ью|ю|ия|ья|я)$';
    const REGEX_SUPERLATIVE = '(ейш|ейше)$';
    const REGEX_DERIVATIONAL = '(ост|ость)$';
    const REGEX_I = 'и$';
    const REGEX_NN = 'нн$';
    const REGEX_SOFT_SIGN = 'ь$';

    /**
     * @param string $word
     *
     * @return string
     */
    public static function getWordBase($word)
    {
        $originalInternalEncoding = mb_internal_encoding();
        mb_internal_encoding('UTF-8');

        list($rv, $r2) = self::findRegions($word);

        // Шаг 1: Найти окончание PERFECTIVE GERUND. Если оно существует – удалить его и завершить этот шаг.
        if (!self::removeEndings($word, array(self::REGEX_PERFECTIVE_GERUNDS1, self::REGEX_PERFECTIVE_GERUNDS2), $rv)) {
            // Иначе, удаляем окончание REFLEXIVE (если оно существует).
            self::removeEndings($word, self::REGEX_REFLEXIVES, $rv);

            // Затем в следующем порядке пробуем удалить окончания: ADJECTIVAL, VERB, NOUN. Как только одно из них найдено – шаг завершается.
            if (!(self::removeEndings(
                    $word,
                    array(
                        self::REGEX_PARTICIPLE1 . self::REGEX_ADJECTIVE,
                        self::REGEX_PARTICIPLE2 . self::REGEX_ADJECTIVE
                    ),
                    $rv
                ) || self::removeEndings($word, self::REGEX_ADJECTIVE, $rv))
            ) {
                if (!self::removeEndings($word, array(self::REGEX_VERB1, self::REGEX_VERB2), $rv)) {
                    self::removeEndings($word, self::REGEX_NOUN, $rv);
                }
            }
        }

        // Шаг 2: Если слово оканчивается на и – удаляем и.
        self::removeEndings($word, self::REGEX_I, $rv);

        // Шаг 3: Если в R2 найдется окончание DERIVATIONAL – удаляем его.
        self::removeEndings($word, self::REGEX_DERIVATIONAL, $r2);

        // Шаг 4: Возможен один из трех вариантов:
        // 1. Если слово оканчивается на нн – удаляем последнюю букву.
        if (self::removeEndings($word, self::REGEX_NN, $rv)) {
            $word .= 'н';
        }

        // 2. Если слово оканчивается на SUPERLATIVE – удаляем его и снова удаляем последнюю букву, если слово оканчивается на нн.
        self::removeEndings($word, self::REGEX_SUPERLATIVE, $rv);

        // 3. Если слово оканчивается на ь – удаляем его.
        self::removeEndings($word, self::REGEX_SOFT_SIGN, $rv);

        mb_internal_encoding($originalInternalEncoding);
        return $word;
    }

    /**
     * @param string          $word
     * @param string|string[] $regex
     * @param int             $region
     *
     * @return bool
     */
    public static function removeEndings(&$word, $regex, $region)
    {
        $prefix = mb_substr($word, 0, $region, 'utf8');
        $ending = substr($word, strlen($prefix));
        if (is_array($regex)) {
            if (preg_match('/.+[а|я]' . $regex[0] . '/u', $ending)) {
                $word = $prefix . preg_replace('/' . $regex[0] . '/u', '', $ending);
                return true;
            }
            $regex = $regex[1];
        }
        if (preg_match('/.+' . $regex . '/u', $ending)) {
            $word = $prefix . preg_replace('/' . $regex . '/u', '', $ending);
            return true;
        }

        return false;
    }

    /**
     * @param string $word
     *
     * @return int[]
     */
    private static function findRegions($word)
    {
        $rv = 0;
        $state = 0;
        $wordLength = mb_strlen($word, 'utf8');
        for ($i = 1; $i < $wordLength; $i++) {
            $prevChar = mb_substr($word, $i - 1, 1, 'utf8');
            $char = mb_substr($word, $i, 1, 'utf8');
            switch ($state) {
                case 0:
                    if (self::isVowel($char)) {
                        $rv = $i + 1;
                        $state = 1;
                    }
                    break;
                case 1:
                    if (self::isVowel($prevChar) && !self::isVowel($char)) {
                        $state = 2;
                    }
                    break;
                case 2:
                    if (self::isVowel($prevChar) && !self::isVowel($char)) {
                        return [$rv, $i + 1];
                    }
                    break;
            }
        }

        return [$rv, 0];
    }

    /**
     * @param string $char
     *
     * @return bool
     */
    private static function isVowel($char)
    {
        return strpos(self::VOWEL, $char) !== false;
    }
}