Интернет |
FireCloack v1 SEO клоака на Машинном Обучении.
Как работают такого рода скрипты:
Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.
Проблема таких скриптов:
Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.
FireCloack v1 - решает эту проблему немного иначе:
Скрипт обучается на базе известных IP поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP.
Преимущества такого решения:
При наличии, даже не большой базы ПС, FireCloack v1 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.
Базы с IP сильно маленькие, например 40к ботов занимает база(модель) в 16 kB файл.
Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.
Точность на базе ботов от zTDS:
baidu; Всего IP: 18691; Тестовых IP: 3738; Успешно определенных IP: 3404; Точность определения %: 91
bing; Всего IP: 2802; Тестовых IP: 560; Успешно определенных IP: 383; Точность определения %: 68
google; Всего IP: 5885; Тестовых IP: 1177; Успешно определенных IP: 989; Точность определения %: 84
mail; Всего IP: 486; Тестовых IP: 97; Успешно определенных IP: 58; Точность определения %: 59
yahoo; Всего IP: 2258; Тестовых IP: 451; Успешно определенных IP: 363; Точность определения %: 80
yandex; Всего IP: 3241; Тестовых IP: 648; Успешно определенных IP: 312; Точность определения %: 48
Как проводилось тестирование:
База ботов разделялась 80/20 % , 80 % ip - база для обучения, а 20 % тестовый набор. О тестовых IP скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной адрес.
Системные требования:
php 5.6
Как работать с FireCloack v1:
1) Залейте скрипт куда либо в папку public или куда вам нужно
2) В папку /data/ положите базы IP ботов, где название файла - это названия ПС(или нужное название категории IP), а сами ip - это простой список, где каждый - с новой строки.
3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.
4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP.
5) Подключайте скрипт в свой PHP страницу так:
require(__DIR__.'/firecloack.php');
$bot = firecloack();
в $bot - доступны следующие параметры:
$bot->isBot - true или false
$bot->class - название бота, например google
$bot->classes - название всех группа ботов на которых обучен скрипт
$bot->ip - ip Бота.
Полные примеры подключения и использование есть в example.php в корне скрипта.
ПС: Cкрипт находится в тестовом режиме, прошу это учитывать.
ПС: Пробуйте натренировать на своих база ботов, перед тестом, обязательно перемешайте строки в файле с ботам.
Скачать FireCloack v1
Актуальная информация и обновы, если будут
Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.
Проблема таких скриптов:
Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.
FireCloack v1 - решает эту проблему немного иначе:
Скрипт обучается на базе известных IP поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP.
Преимущества такого решения:
При наличии, даже не большой базы ПС, FireCloack v1 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.
Базы с IP сильно маленькие, например 40к ботов занимает база(модель) в 16 kB файл.
Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.
Точность на базе ботов от zTDS:
baidu; Всего IP: 18691; Тестовых IP: 3738; Успешно определенных IP: 3404; Точность определения %: 91
bing; Всего IP: 2802; Тестовых IP: 560; Успешно определенных IP: 383; Точность определения %: 68
google; Всего IP: 5885; Тестовых IP: 1177; Успешно определенных IP: 989; Точность определения %: 84
mail; Всего IP: 486; Тестовых IP: 97; Успешно определенных IP: 58; Точность определения %: 59
yahoo; Всего IP: 2258; Тестовых IP: 451; Успешно определенных IP: 363; Точность определения %: 80
yandex; Всего IP: 3241; Тестовых IP: 648; Успешно определенных IP: 312; Точность определения %: 48
Как проводилось тестирование:
База ботов разделялась 80/20 % , 80 % ip - база для обучения, а 20 % тестовый набор. О тестовых IP скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной адрес.
Системные требования:
php 5.6
Как работать с FireCloack v1:
1) Залейте скрипт куда либо в папку public или куда вам нужно
2) В папку /data/ положите базы IP ботов, где название файла - это названия ПС(или нужное название категории IP), а сами ip - это простой список, где каждый - с новой строки.
3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.
4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP.
5) Подключайте скрипт в свой PHP страницу так:
require(__DIR__.'/firecloack.php');
$bot = firecloack();
в $bot - доступны следующие параметры:
$bot->isBot - true или false
$bot->class - название бота, например google
$bot->classes - название всех группа ботов на которых обучен скрипт
$bot->ip - ip Бота.
Полные примеры подключения и использование есть в example.php в корне скрипта.
ПС: Cкрипт находится в тестовом режиме, прошу это учитывать.
ПС: Пробуйте натренировать на своих база ботов, перед тестом, обязательно перемешайте строки в файле с ботам.
Скачать FireCloack v1
Актуальная информация и обновы, если будут