Извлечение доменных имен из списка URL в Excel

  • Поделись Этим
Michael Brown

Несколько советов и рекомендаций помогут вам получить доменные имена из списка URL-адресов с помощью формул Excel. Два варианта формулы позволяют извлечь доменные имена с www. и без www. независимо от протокола URL (поддерживаются http, https, ftp и т.д.). Решение работает во всех современных версиях Excel, с 2010 по 2016 год.

Если вы занимаетесь продвижением своего сайта (как я) или занимаетесь SEO на профессиональном уровне, продвигая сайты клиентов за деньги, вам часто приходится обрабатывать и анализировать огромные списки URL-адресов: отчеты Google Analytics о получении трафика, отчеты Webmaster tools о новых ссылках, отчеты об обратных ссылках на сайты ваших конкурентов (которые содержат много интересных фактов ;) ) и так далее.и так далее.

Для обработки таких списков, от десяти до миллиона ссылок, Microsoft Excel является идеальным инструментом. Он мощный, гибкий, расширяемый и позволяет отправлять отчет клиенту прямо с листа Excel.

"Почему такой диапазон - от 10 до 1 000 000?" - спросите вы. Потому что вам точно не нужен инструмент для обработки менее 10 ссылок; и вряд ли он вам понадобится, если у вас более миллиона входящих ссылок. Готов поспорить, что в этом случае у вас уже есть программное обеспечение, разработанное специально для вас, с бизнес-логикой, специально адаптированной под ваши нужды. И это я бы проанализировал следующееваши статьи, а не наоборот :)

При анализе списка URL часто требуется выполнить следующие задачи: получить имена доменов для дальнейшей обработки, сгруппировать URL по доменам, удалить ссылки из уже обработанных доменов, сравнить и объединить две таблицы по именам доменов и т.д.

    5 простых шагов для извлечения доменных имен из списка URL-адресов

    В качестве примера приведем фрагмент отчета об обратных ссылках сайта ablebits.com, сгенерированный Google Webmaster Tools.

    Совет: Я рекомендую использовать сайт ahrefs.com для своевременного обнаружения новых ссылок на ваш собственный сайт и сайты ваших конкурентов.

    1. Добавить " Домен " в конец вашей таблицы.

      Мы экспортировали данные из CSV файл, поэтому в терминах Excel наши данные находятся в простом диапазоне. Нажмите Ctrl + T, чтобы преобразовать их в таблицу Excel, поскольку с ней гораздо удобнее работать.

    2. В первой ячейке " Домен " столбца (B2) введите формулу для извлечения доменного имени:
      • Извлеките домен с www., если он присутствует в URL:

    =MID(A2,FIND(":",A2,4)+3,FIND("/",A2,9)-FIND(":",A2,4)-3)

  • Опустите www. и получите чистое доменное имя:
  • =IF(ISERROR(FIND("//www.",A2)), MID(A2,FIND(":",A2,4)+3,FIND("/",A2,9)-FIND(":",A2,4)-3), MID(A2,FIND(":",A2,4)+7,FIND("/",A2,9)-FIND(":",A2,4)-7))

    Вторая формула может показаться слишком длинной и сложной, но только если вы не видели действительно длинных формул. Недаром Microsoft в новых версиях Excel увеличила максимальную длину формул до 8192 символов :)

    Хорошо то, что нам не нужно использовать ни дополнительный столбец, ни макрос VBA. На самом деле, использование макросов VBA для автоматизации задач Excel не так сложно, как может показаться, см. очень хорошую статью - как создавать и использовать макросы VBA. Но в данном конкретном случае они нам не нужны, быстрее и проще обойтись формулой.

    Примечание: Технически, www это домен третьего уровня, хотя для всех обычных веб-сайтов www. является просто псевдонимом основного домена. В первые дни существования Интернета вы могли сказать по телефону или в рекламе по радио "double u, double u, double u our cool name dot com", и все прекрасно понимали и помнили, где вас искать, конечно, если ваше крутое имя не было чем-то вродеwww.llanfairpwllgwyngyllgogerychwyrndrobwyll-llantysiliogogogoch.com :)

    Вам нужно оставить все остальные доменные имена 3-го уровня, иначе вы испортите ссылки с разных сайтов, например, с домена "co.uk" или с разных аккаунтов на blogspot.com и т.д.

  • Поскольку у нас полноценная таблица, Excel автоматически копирует формулу во все ячейки столбца.

    Готово! У нас есть колонка с извлеченными доменными именами.

    В следующем разделе вы узнаете, как можно обработать список URL-адресов на основе столбца Domain.

    Совет: Если позже вам понадобится отредактировать имена доменов вручную или скопировать результаты на другой рабочий лист Excel, замените результаты формулы значениями. Для этого выполните следующие действия:

    • Щелкните по любой ячейке в столбце Домен и нажмите Ctrl+Пробел, чтобы выделить все ячейки в этом столбце.
    • Нажмите Ctrl + C, чтобы скопировать данные в буфер обмена, затем перейдите в раздел Главная нажмите на вкладку " Паста " и выберите " Значение " из выпадающего меню.
  • Обработка списка URL-адресов с помощью столбца Доменное имя

    Здесь вы найдете несколько советов по дальнейшей обработке списка URL, основанных на моем собственном опыте.

    Группируйте URL-адреса по домену

    1. Нажмите на любую ячейку в Домен колонна.
    2. Отсортируйте таблицу по домену: перейдите к Данные вкладку и нажмите на A-Z кнопка.
    3. Преобразуйте таблицу обратно в диапазон: щелкните на любой ячейке таблицы, перейдите в меню Дизайн и нажмите кнопку " Преобразование в диапазон " кнопка.
    4. Перейти к Данные и нажмите кнопку " Промежуточный итог " значок.
    5. В диалоговом окне "Промежуточный итог" выберите следующие параметры: При каждом изменении в : "Домен" функция использования Считать и Добавьте промежуточный итог к Домен.

  • Нажмите OK.
  • Excel создал контур ваших данных в левой части экрана. Существует 3 уровня контура, и то, что вы видите сейчас - это расширенный вид, или вид уровня 3. Нажмите на цифру 2 в левом верхнем углу, чтобы отобразить окончательные данные по доменам, а затем вы можете нажать на знаки плюс и минус (+ / -), чтобы развернуть / свернуть детали для каждого домена.

    Выделите второй и все последующие URL-адреса в том же домене

    В предыдущем разделе мы показали, как группировать URL-адреса по домену. Вместо группировки вы можете быстро выделить цветом дублирующиеся записи одного и того же доменного имени в ваших URL-адресах.

    Для получения более подробной информации см. раздел "Как выделить дубликаты в Excel".

    Сравните URL-адреса из разных таблиц по столбцу домена

    У вас может быть одна или несколько отдельных таблиц Excel, в которых вы храните список доменных имен. Ваши таблицы могут содержать ссылки, с которыми вы не хотите работать, например, спам или домены, которые вы уже обработали. Вам также может понадобиться сохранить список доменов с интересными ссылками и удалить все остальные.

    Например, моя задача - окрасить в красный цвет все домены, которые находятся в моем черном списке спамеров:

    Чтобы не тратить много времени, вы можете сравнить ваши таблицы, чтобы удалить ненужные ссылки. Для получения подробной информации, пожалуйста, прочитайте Как сравнить два столбца Excel и удалить дубликаты

    Лучший способ - объединить две таблицы по доменному имени

    Это самый продвинутый способ, и лично я предпочитаю именно его.

    Предположим, у вас есть отдельный лист Excel с данными ссылок для каждого домена, с которым вы когда-либо работали. В этом листе хранятся контакты веб-мастеров для обмена ссылками и дата, когда ваш сайт был упомянут в этом домене. Здесь также могут быть типы/подтипы сайтов и отдельный столбец с вашими комментариями, как на скриншоте ниже.

    Как только вы получите новый список ссылок, вы можете сопоставить две таблицы по доменному имени и объединить информацию из таблицы поиска доменов и вашей новой таблицы URLs всего за две минуты.

    В результате вы получите доменное имя, а также категорию сайта и ваши комментарии. Это позволит вам увидеть URL-адреса из списка, которые нужно удалить, и те, которые нужно обработать.

    Сопоставьте две таблицы по доменному имени и объедините данные:

    1. Загрузите и установите последнюю версию программы Merge Tables Wizard для Microsoft Excel

      Этот замечательный инструмент позволяет быстро сопоставить и объединить два рабочих листа Excel 2013-2003. Вы можете использовать один или несколько столбцов в качестве уникального идентификатора, обновить существующие столбцы на основном рабочем листе или добавить новые из таблицы поиска. Не стесняйтесь читать больше о мастере слияния таблиц на нашем сайте.

    2. Откройте список URL-адресов в Excel и извлеките доменные имена, как описано выше.
    3. Выберите любую ячейку в таблице. Затем перейдите в меню Ablebits Data вкладку и нажмите на Слияние двух таблиц значок, чтобы запустить надстройку.
    4. Нажмите кнопку Следующий дважды и выберите свой рабочий лист с информацией о доменах как Таблица поиска .
    5. Установите флажок рядом с Домен, чтобы определить его как соответствующий столбец .
    6. Выберите, какую информацию о домене вы хотите добавить в список URLs, и нажмите Далее.
    7. Нажмите кнопку Отделка После завершения обработки надстройка покажет вам сообщение с деталями слияния.

    Всего несколько секунд - и вы сразу получаете всю информацию о каждом доменном имени.

    Вы можете скачать Мастер слияния таблиц для Excel, запустить его на своих данных и увидеть, насколько он может быть полезен.

    Если вы заинтересованы в получении бесплатного дополнения для извлечения доменных имен и подпапок корневого домена (.com, .edu, .us и т.д.) из списка URL, просто оставьте нам комментарий. При этом, пожалуйста, укажите вашу версию Excel, например, Excel 2010 64-bit, и введите ваш адрес электронной почты в соответствующее поле (не беспокойтесь, он не будет отображаться публично). Если мы наберем приличное количество голосов, то мысоздайте такое дополнение и я сообщу вам. Заранее спасибо!

    Майкл Браун — увлеченный технологический энтузиаст, стремящийся упростить сложные процессы с помощью программных инструментов. Имея более чем десятилетний опыт работы в технологической отрасли, он отточил свои навыки в Microsoft Excel и Outlook, а также в Google Sheets и Docs. Блог Майкла посвящен тому, чтобы делиться своими знаниями и опытом с другими, предоставляя простые советы и учебные пособия для повышения производительности и эффективности. Являетесь ли вы опытным профессионалом или новичком, в блоге Майкла вы найдете ценную информацию и практические советы, которые помогут вам максимально эффективно использовать эти важные программные инструменты.