9. Сетевые ИТ
Поиск русских документов в сети дополнительно осложняется особенностями национальной грамматики. В русском языке (в отличие от английского языка) необходимо учитывать падежные окончания ключевых слов.
Наибольшей популярностью в русскоязычной части Интернета пользуются поисковые системы Rambler (произносится Ремблер, а переводится, как бродяга, праздношатающийся, Апорт и Яndех.
Русскоязычные ПС позволяют усекать (отбрасывать) окончания ключевых слов и заменять их метасимволами «*» и «?». При этом на запрос «самар*» будут найдены документы, содержащие слова: Самара, Самары, самарский, самарская и т. п.
Поисковая система Aport использует принципы искусственного интеллекта. Она обрабатывает запрос таким образом, что подбирает синонимы введенным ключевым словам и автоматически решает проблему падежных окончаний.
При поиске информации ПС может делать две ошибки: пропускать (не отбирать) нужные пользователю документы и, наоборот, отбирать (присылать) посторонние документы (мусор, информационный шум). Эти ошибки, совершаемые автоматическими ПС, описываются терминами «избирательность» и «чувствительность».
Заметим, что в приведенной фразе есть некоторая терминологическая неточность: ПС отбирают не документы, а лишь гиперссылки на них. С помощью полученных ссылок пользователь просматривает или загружает на собственный компьютер понравившийся ему документ. Однако методически удобнее говорить о несоответствии запросу документа, а не гиперссылки.
Избирательность – способность ПС отбирать документы, соответствующие запросу, не включая лишних документов. Качество избирательности характеризует число ошибок первого рода – число отобранных документов, не соответствующих запросу. Чем выше избирательность, тем меньше посторонних документов попадает к пользователю.
Избирательность можно изменять (регулировать) с помощью логических операторов (фильтров).
Чувствительность – способность ПС отбирать документы, соответствующие запросу, не пропуская нужных документов. Чувствительность характеризуется числом ошибок второго рода – числом пропусков нужных документов.