Выберите ровно один источник: один из готовых наборов или собственный список. Источники не смешиваются — итоговая выборка остаётся однородной и воспроизводимой.
Любой формат: построчно, через запятую, нумерованный или маркированный список. Парсер уберёт префиксы, www, пути и порты.
AI-сервисы ходят по сайтам через специальных программных агентов с уникальными User-Agent. Мы поочерёдно подставляем каждый идентификатор и фиксируем, как реагирует сайт.
Параллельность определяет, сколько проверок выполняется одновременно. Таймаут — сколько ждать ответа от каждого сайта прежде чем считать запрос неуспешным.
Запросов одновременно. Выше — быстрее, но риск блокировки со стороны сайтов.
Сколько ждать ответ. 15 секунд — стандарт, для медленных сайтов до 30.
Итоговая выборка пересчитывается автоматически. Каждый домен умножается на число выбранных AI-краулеров плюс один robots-запрос.
Мы эмулируем реальные отпечатки AI-ботов и retrieval-агентов LLM-систем, чтобы проверить, может ли веб-ресурс стать источником знаний для ответов ChatGPT, Claude, Perplexity и Gemini. Ниже — что мы измеряем, как устроена цепочка, и почему результату можно доверять.
Это нужно для проверки доступности веб-ресурсов как источников знаний LLM-систем: AI-видимость продуктов и брендов зависит от того, может ли crawler/retrieval-слой получить официальный контент. Если сайт закрыт для этого слоя, LLM может не увидеть описание продукта, актуальные цены, документацию, новости, условия, адреса и другие факты, даже если обычный пользователь открывает сайт в браузере.
Замер строится на трёх осях одновременно: какой именно AI-краулер заходит (идентификатор), как сайт реагирует (HTTP-сигналы) и как это сопоставляется с обычным браузером (контрольная проба). Каждая точка такой матрицы — это один HTTP-запрос с фиксированным User-Agent и одинаковыми остальными параметрами.
Кратко о механике: когда пользователь задаёт вопрос, LLM-система может вызвать web search tool или внутренний поиск по индексу. Дальше retrieval (ретривел) собирает кандидатов: URL, сниппеты и фрагменты страниц. Затем rerank (реранк) пересортировывает кандидатов по релевантности, качеству и доступности. Лучшие фрагменты попадают в контекст модели как RAG — retrieval augmented generation, и уже на их основе формируется ответ. Если crawler видит captcha, гео-заглушку, пустой SPA-shell или запрет robots.txt, ресурс выпадает из этой цепочки или попадает в неё как некачественный источник.
Для каждого домена отправляются запросы с конкретными User-Agent строками, документированными или массово наблюдаемыми у каждого провайдера. Мы меняем идентификатор бота, но держим одинаковый HTTP-контекст: Accept для HTML/XML, Accept-Language: en-US,en;q=0.9, Accept-Encoding: gzip, deflate и Connection: keep-alive. Так видна разница между реакцией сайта на конкретного AI-краулера и на обычный запрос.
Для каждой пробы сохраняются HTTP-статус, цепочка редиректов, TLS-результат, response headers, размер тела, sample HTML, признаки WAF/captcha/interstitial и объём текста, который можно извлечь без выполнения JavaScript. Это позволяет отличить формально-открытый ответ (200) от функционально-пустого (SPA-shell без контента) и опубликовать первичные сигналы рядом с интерпретацией LLM-отчёта.
Chrome-control имитирует обычный браузерный User-Agent, а empty-ua отправляет запрос без User-Agent. Если AI-бот получает отказ, а Chrome-control получает контент — это похоже на anti-AI фильтр. Если отказ получают все — это чаще WAF, TLS, гео- или инфраструктурное ограничение. Контрольные пробы — это ось, относительно которой интерпретируются результаты AI-краулеров.
Проверка идёт с серверной точки вне российской пользовательской сети. Российские WAF, блокировки зарубежных IP, гео-заглушки и сертификатные проблемы попадают в результат, потому что глобальные LLM чаще ходят за источниками не с IP конечного пользователя в РФ. Поэтому для AI visibility важна именно эта vantage-точка, а не дефолтный домашний IP в России.
Оценка строится на воспроизводимой матрице запросов: один домен, одинаковые сетевые условия, разные bot fingerprints и контрольные отпечатки. LLM-отчёт только интерпретирует эти измерения; первичные технические сигналы остаются в таблицах пробы, и их можно перепроверить вручную. Каждая проба содержит сырое тело ответа, заголовки и тайминги — это позволяет третьей стороне реконструировать вывод без обращения к нашей версии.
| Нет проб, удовлетворяющих фильтру. | |||||||||||
| Бот | Правило | Директивы |
|---|---|---|
| Когда | ID | Статус | Прогресс | |
|---|---|---|---|---|
| Проверок нет. | ||||
| Нет проб, удовлетворяющих фильтру. | |||||||||||
| Бот | Правило | Директивы |
|---|---|---|