ramonak package#

Subpackages#

Submodules#

ramonak.exceptions module#

Модуль з класамі выключэнняў.

exception ramonak.exceptions.RamonakError[source]#

Bases: Exception

Базавы клас для ўсіх выключэнняў ramonak.

exception ramonak.exceptions.RamonakPackageManagerError[source]#

Bases: RamonakError

Агульны клас для ўсіх выключэнняў менеджара пакетаў.

ramonak.punct module#

Праца са знакамі прыпынку.

ramonak.punct.remove_punct(data: Iterable[str]) Iterable[str][source]#

Выдаліць знакі пунктуацыі са спісу радкоў.

Parameters:

data (Iterable[str]) -- спіс радкоў

Returns:

спіс радкоў без знакаў пунктуацыі

Return type:

Iterable[str]

Raises:

TypeError -- няправільны тып дадзеных у data

ramonak.rules module#

Модуль з функцыямі для працы з чаргаваннямі і іншымі асаблівасцямі беларускай мовы.

ramonak.rules.fix_lang_phenomenons(word: str) str[source]#

Прымяніць функцыі для ўніфікацыі чаргаванняў і іншых з'яў беларускай мовы.

Parameters:

word (str) -- слова для апрацоўкі

Returns:

уніфіцыраванае слова

Return type:

str

ramonak.rules.fix_trailing_u_short(word: str) str[source]#

Ператварае "ў" у пачатку слова ў "у".

Parameters:

word (str) -- слова для апрацоўкі

Returns:

слова з "у" ў пачатку

Return type:

str

ramonak.rules.unify_dz_ts_to_d_t(word: str) str[source]#

Ператварыць "дз" і "ц" у "д" і "т".

Parameters:

word (str) -- слова для апрацоўкі

Returns:

слова без дзекання і цекання

Return type:

str

ramonak.stopwords module#

Праца са стоп-словамі.

ramonak.stopwords.clean_stop_words(data: Iterable[str]) Iterable[str][source]#

Убраць усе стоп-словы са спісу радкоў.

Parameters:

data (Iterable[str]) -- спіс радкоў

Returns:

спіс радкоў без стоп-слоў

Return type:

Iterable[str]

Raises:

TypeError -- няправільны тып дадзеных у data

ramonak.stopwords.get_stop_words() list[str][source]#

Атрымаць спіс стоп-слоў.

Returns:

спіс стоп-слоў

Return type:

list[str]

ramonak.tokenize module#

Модуль з функцыямі такенізацыі.

ramonak.tokenize.sent_tokenize(text: str) list[str][source]#

Разбіць тэкст на сказы. Знакі прыпынку захоўваюцца.

Parameters:

text (str) -- тэкст, які трэба разбіць

Returns:

спіс сказаў

Return type:

list[str]

ramonak.tokenize.word_tokenize(text: str) list[str][source]#

Разбіць тэкст на спіс слоў і знакаў прыпынку.

Parameters:

text (str) -- тэкст, які будзе разбівацца

Returns:

спіс са словамі і знакамі прыпынку

Return type:

list[str]

Module contents#

Галоўны модуль праекта. Грузіць .env-файлы, стварае неабходныя папкі.