Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection

Введение
Дизайн исследования
Источники данных
Сведения об авторах публикации
Наличие ORCID
Списки пристатейной литературы
Информация о количестве цитирований
- Доля статей без цитирований
- Попарные сравнения
Информация о месте работы авторов
Информация о финансировании
Наличие реферата
Заключительные ремарки
Благодарности

Введение

Реферативные базы данных и индексы научного цитирования широко используются для анализа науки – исследований динамики публикационных потоков, сотрудничества исследований и научных организаций, сети цитирования, эволюции научных направлений и других практических задач. Достоверность подобных аналитических исследований неразрывно связана с качеством доступных метаданных о научных публикациях, среди которых наибольшее значение имеют следущие поля:

информация об авторах исследования и их месте работы
списки пристатейной литературы и цитирующих статей
информация о финансировании исследований

Эволюция возможностей индексов научного цитирования Scopus и Web of Science сформировала у пользователей этих баз данных определенный уровень ожиданий по отношению к качеству и доступности метаданных, которому нередко приписывают роль “золотого стандарта”.

Предметные базы данных, такие как Medline, могут предлагать отдельные поля метаданных даже в лучшем качестве, чем Scopus или Web of Science, но для тех наукометрических задач, которые требуют широкого охвата источников с однородным качеством метаданных, 2 вышеназванных индекса на протяжении последних десятилетий не имели альтернатив.

Укрепление CrossRef в роли ключевого реестра научных публикаций и репозитория метаданных, появление Microsoft Academic, перевод в открытый доступ полных текстов и полей метаданных (напр. рефератов и списков литературы) привели к появлению новых, открытых инструментов для поиска научных публикаций (Dimensions, Semantic Scholar, Lens, SciLit и OpenAlex.

Большинство из новых баз данных имеют менее строгую политику включения изданий для индексации по сравнению с Web of Science и Scopus, что позволяет им охватывать гораздо большее количество серийных изданий, что делает их потенциально более интересными как для наукометристов, так и для исследователей, заинтересованных в максимально широком обзоре научных публикаций.

Однако, прежде чем бросаться в объятия новых сервисов, любому пользователю полезно ответить на самый важный вопрос:

достигает ли качество метаданных в открытых базах данных уровня “золотого стандарта”, а если не по всем полям, то по каким именно достигает? Необходимо помнить, что далеко не все БД собирают метаданные самостоятельно – Lens, Semantic Scholar и OpenAlex выросли на данных, полученных из Medline, Microsoft Academic и CrossRef. Зависимость от одинаковых источников может стать причиной повторения в разных базах данных схожего набора пустых полей и ошибок.

Для ответа на этот вопрос мы предприняли попытку сравнительного анализа метаданных.

Дизайн исследования

Целью настоящего исследования является сравнительный анализ качества метаданных научных публикаций в БД Scopus, Web of Science, CrossRef, Lens, Semantic Scholar и OpenAlex.

В группу сравнения не включены БД, которые предлагают бесплатный поиск по ресурсу, но не предоставляют бесплатных возможностей экспорта метаданных или API (Dimensions, Scilit, Google Scholar, Baidu Scholar и др.).

БД OpenAIRE не была включена в исследование, хотя и предлагает API для поиска и экспорта метаданных, поскольку возвращает не все поля метаданных (на примере DOI:10.1002/adom.202002001 можно увидеть разницу между ответами API в CrossRef и OpenAIRE).

В Российском фонде фундаментальных исследований (далее – РФФИ) поддерживаются регулярно обновляемые локальные версии БД Scopus, Wеb of Science Core Collection и CrossRef. Из этих баз данных были выделены публикации с участием российских авторов, присутствующие во всех 3-х БД. Из полученного списка случайным образом сформировали 4 выборки по 15000 уникальных (по DOI) документов, опубликованных в 2021, 2020, 2019 и 2016-2018 гг (далее – массив L0).

Источники данных

CrossRef

Данные были выгружены 12 января 2022 г. из локальной и ежедневно обновляемой копии БД CrossRef, поддерживаемой в РФФИ. В метаданных статьи в БД CrossRef структура item > author нередко содержит вперемешку авторов и аффилиации. Поля, содержащие информацию об авторах, отличали по присутствию вложенных полей first и family (в описании аффилиаций присутствовало поле name).

Scopus

Данные получены 12 января 2022 г. из локальной БД Scopus, еженедельно обновляемой РФФИ. Из исследования были исключены 67 DOI, которые в текущей версии базы данных DOI существовали в нескольких копиях из-за индексации 2-х версий публикаций – опубликованной до выхода номера журнала (Article in Press) и финальной.

Web of Science Core Collection

Данные получены 12 января 2022 г. из локальной БД Web of Science Core Collection, еженедельно обновляемой РФФИ. Из исследования были исключены 356 DOI, которые в текущей версии базы данных DOI существовали в нескольких копиях из-за индексации 2-х версий публикаций – опубликованной до выхода номера журнала (Article in Press) и финальной.

The Lens

Из БД Lens.com 11 января 2022 г. выгрузили полные метаданные для публикаций из списка L0, найденных по DOI. На момент выгрузки в БД Lens не было найдено 151 статьи. Помимо этого из массива Lens были исключены 39 статьи, у которых в ячейке DOI присутствовало больше 1 идентификатора (разделенных через точку с запятой) и 53 статьи, которые присутствовали в массиве в виде нескольких строк.

4 подгруппы статей были также сохранены в Lens в виде публичных датасетов и доступны для анализа:

Semantic Scholar

Данные из БД Semantic Scholar были выгружены с помощью API в период с 11-12 января 2022 г. с полями abstract, referenceCount, citationCount, authors.authorId, authors.name, authors.affiliations, authors.externalIds. На момент выгрузки в БД Semantic Scholar не было найдено 107 статьи.

OpenAlex

Данные из БД OpenAlex были выгружены с помощью API в период с 12 по 20 января 2022 г. Скорость выгрузки данных через API-сервис в первые дни была крайне низкой (3 записи в минуту). На момент выгрузки в БД OpenAlex не было найдено 690 статей.

Данные об аффилиации в первой выгрузке отсутствовали, но позже провайдер добавил эти данные в ответ API-интерфейса, поэтому массив был загружен повторно 17.02.2022. В сравнениях для OpenAlex использовали метаданные из второй выгрузки (17.02), за исключением сравнений показателей цитируемости, для которых использовали сведения из первой выгрузки.

Все приведенные результаты фиксируют статус-кво на момент выгрузки. При обнаружении исправлений, сделанных после даты выгрузки, данные в выборке не заменялись.

Итого, после всех исключений в выборке осталось 58634 (97.72% от первоначального объема) публикаций, которые присутствовали во всех шести БД в виде единственной записи.

Сведения об авторах публикации

Несмотря на то, что сведения об авторах научной статьи являются одной из важнейших компонент метаданных, они могут иметь различное отражение в базах данных. Известны разные причины появления расхождений – от использования диакритических символов и некорректных знаков препинания до включения многоязычных и усечения слишком длинных списков авторов.

API Semantic Scholar возвращает не более 500 авторов, а API сервиса OpenAlex не более 100 авторов в статье (упоминания последнего ограничения на сайте с описанием OpenAlex API обнаружить не удалось, но разработчики сервиса планируют сделать возможным запросы с курсором к многостраничным страницам ответов, что должно решить проблему выгрузки больших записей).

В виду ограничений API сравнительный анализ отражения информации об авторах для статей, в которых было указано 100 или более авторов, для БД OpenAlex и Semantic Scholar не проводили, а в дальнейших сравнениях все статьи с 99+ авторами были исключены из исследования (всего – 1065 статей). Итого в выборке для сравнительного анализа осталось 57569 статьи.

В исследуемом массиве из 57569 статей (в которых не более 100 авторов) частота консенсуса в отношении количества авторов для всех 6 сравниваемых источников (т.е. доля статей с совпадающим количеством авторов во всех БД) составила 98.4%.

Иллюстрации ниже призваны показать влияние на консенсус в отношении количества авторов таких параметров как количество авторов, год публикации, издательство.

Влияние количества авторов

Массив разбили на 5 подгрупп по количеству авторов: группа А – от 1 до 2 авторов, Б – от 3 до 5, В – от 6 до 10, Г – от 11 до 99, Д – от 100 и более авторов. При расхождении количества авторов в разных источниках статью относили к подгруппе по максимальному значению. При попарном сравнении источников консенсус в отношении количества авторов в группе А варьирует от 99.4 до 99.9%, в группе Б – от 99.3** до 100%, в группе В – от 98.9 до 99.9%. В группе Г частота расхождений увеличивается – в некоторых парах частота консенсуса снижается до 95.4%. Обращает на себя высокая частота консенсуса во всех группах для пары Lens - OpenAlex, что скорее всего связано с общим источником данных (обе базы использовали Microsoft Academic).

В самой малочисленной группе Д, включающей статьи, в которых от 100 и более авторов, максимальная частота консенсуса наблюдается для пары Scopus и CrossRef – 79.5%. Частота консенсуса в парах CrossRef - Web of Science и Scopus - Web of Science была существенно ниже – около 31%, в паре Lens - Web of Science – 37%.

Влияние года публикации

Частота консенсуса в отношении количества авторов в попарных сравнениях БД не изменялась существенно в выборках 2021, 2020, 2019 и 2016-2018 гг.

Природа расхождений

На иллюстрации ниже для каждой пары баз данных показаны размеры подгрупп с различающимся количеством авторов. Пары баз данных (БД1-БД2) представлены в столбцах (справа-налево). В каждом столбце данные разбиты на 4 блока, которые показывают количество статей со следующим соотношением числа авторов (сверху вниз):

в БД1 больше авторов, чем в БД2, и в БД2 ненулевое число авторов,
в БД1 больше авторов, чем в БД2, но в БД2 в статье авторы отсутствуют,
в БД1 меньше авторов, чем в БД2, но в БД1 в статье авторы отсутствуют,
в БД1 меньше авторов, чем в БД2, и в БД1 ненулевое число авторов.

В каждом блоке по вертикали (сверху-вниз) показано изменение количества статей с выбранным типом различия в выборках 2016-2018, 2019, 2020 и 2021 гг.

Статьи, для которых в одной из БД информация об авторах отсутствует (потеря), отделены от статей, для которых в обоих БД такая информация присутствует, но количество авторов различается (ошибки). Выделение отдельных подгрупп для потерь и ошибок позволит, если не выяснить, то предположить причины их появления. Полная потеря информации об авторах может произойти из-за ошибки на стороне индексирующей БД или из-за некорректного оформления метаданных на стороне издателя. Ошибки в информации об авторах могут быть следствием появления в метаданных авторов лишних знаков пунктуации (например, когда имя автора содержит префиксы вида Jr. или III). Еще одной причиной может быть различная политика индексирующих сервисов по отношению к участникам исследования, которые в статьях приводятся в виде отдельных списков.

во всех парных сравнениях количество публикаций, в которых информация об авторах полностью отсутствует, меньше, чем количество публикаций, в которых число авторов различается;
полная утрата информации об авторах в статьях из исследуемой выборки наблюдалась только для нескольких статей в Semantic Scholar;
расхождения несколько чаще наблюдались для статей 2016-2018 гг.;
расхождения встречаются не только в попарных сравненениях с участием открытых БД (OpenAlex, Lens, Semantic Scholar), но также и в паре Scopus - Web of Science Core Collection.

Анализ отличий

CrossRef принимает метаданные, а с ними и информацию об авторах публикаций, напрямую от издателей. Scopus и Web of Science следуют собственной политике индексации, которая может включать прием уже размеченных метаданных напрямую от издателей (по аналогии с CrossRef), но также индексацию HTML, PDF и, возможно, даже твердых копий журналов. Lens и Semantic Scholar собирают данные из разных источников, крупнейшим из которых являлся Microsoft Academic, который самостоятельно индексировал научные издания.

Можно предположить, что Scopus и Web of Science, выступающие поставщиками метаданных для многочисленных клиентов (ученые, ведомства, бизнес) имеют наиболее совершенные механизмы индексации и коррекции ошибок. CrossRef, вероятно, испытывает меньшую требовательность со стороны рынка, но зато предоставляет издательствам больше самостоятельности для обновления или замены метаданных. Lens, OpenAlex, Semantic Scholar, гармонизируя данные из нескольких источников, могут как исправлять ошибки из своих источников (CrossRef, Medline, Microsoft Academic), так и наследовать их.

В качестве иллюстрации к сказанному показательным выглядит кейс со статьей 10.14341/dm12343 – на сайте издателя HTML-версия статьи содержит упоминание 7 авторов, PDF версия – 8 авторов, CrossRef – 8, но с небольшим отличием (один из авторов упомянут 2 раза). В Scopus – 8 и в Web of Science – 8, как в PDF, а в Lens и в Semantic Scholar указано 7 авторов, как и в Microsoft Academic. Цифры приведены на 24 декабря 2021 г.

Эксклюзивные отличия

Эксклюзивным (уникальным) отличием для базы данных будем считать такое, при котором количество авторов в выбранной базе данных отличается от наблюдаемого в 5 других источниках. Резонно предположить, что такие расхождения появляются либо в результате типичных для БД ошибок обработки метаданных или по причине применения уникальных для БД правил индексации. На графике ниже показана частота появления таких уникальных отличий в каждой из баз данных по году издания.

Распределение на иллюстрации позволяет сделать несколько наблюдений:

по количеству статей, в которых наблюдается эксклюзивное отличие по количеству авторов, выделяются Semantic Scholar и Scopus;
Lens и OpenAlex имеют наименьшее количество публикаций с эксклюзивным отклонением количества авторов;
количество уникальных отличий в Semantic Scholar в 2016-2018 гг. неожиданно оказалось существенно выше, чем в другие годы.

Частота уникальных отличий не отражает общий уровень ошибок в конкретной базе данных, но позволяет оценить частоту возникновения ошибок, которые возникли на стороне владельца в процессе поддержания базы данных (при индексации, обработке или обновлении данных).

В таблице ниже перечислены публикации, в которых количество авторов было одинаковым в 5 из 6 источников. Название базы данных с отличающимся количеством авторов приведено в столбце ERR.

Причины появления отличий разные: использование названия команды исследователей вместо индивидуальных имен (напр.10.1056/nejmoa2002787), включение фамилий авторов на кириллице и латинице (Lens такие ошибки импортирует из Microsoft Academic), удвоение фамилий (10.31857/s020595920013343-3 в Lens), разрыв составных фамилий по дефису, включение расширенного состава исследовательских групп в список авторов (см. 10.1001/jama.2019.9811 в Web of Science), включение аффилиаций в перечень имен (см. 10.33779/2587-6341.2021.2.008-021 - Lens такие ошибки импортирует из CrossRef).

Для 10.1038/s41566-018-0277-2 в метаданных, выгруженных из БД Lens, было найдено 6 авторов, но спустя 3 недели на веб-сайте в описании статьи было указано уже 8 авторов, как и в других БД. К сожалению, теперь уже невозможно сказать, является ли это результатом коррекции данных в Lens или случайной ошибки экспорта.

Влияние издательства

Частота расхождений в публикациях варьирует между издательствами. В таблице ниже приведены частота консенсуса и расхождений (по всем 6 базам данных) для самых крупных DOI-префиксов.

Можно предположить, что некоторые издатели чаще других допускают ошибки в оформлении метаданных статей (как в PDF-файле, так и на сайте онлайн-версии) и, по этой причине, для их статей различия в количестве авторов наблюдаются чаще.

Из таблицы выше видно, что для некоторых российских издательств (Consillium Medicum, the Russian Academy of Sciences, Tomsk State University, Ural Federal University) доля ошибок действительно высока. Из зарубежных издательств наибольший уровень различий наблюдался для Oxford University Press (5.0%), American Astronomical Society (3.8%). Расхождения встречаются и для статей, изданных в журналах крупнейших издательств – Elsevier BV (1.2%), American Chemical Society (0.6%).

Наличие ORCID

Несмотря на то, что в структуре БД Lens упоминаются данные из ORCID и возможен поиск по значениям идентификатора ORCID, сами идентификаторы в файлах, импортируемых из Lens на дату сбора данных отсутствовали.

Полученные данные свидетельствуют о росте популярности ORCID – доля статей, в которых встречается хотя бы один ORCID, гораздо выше в статьях последних лет. В OpenAlex частота встречаемости ORCID в несколько раз выше, чем в Scopus и в Web of Science Core Collection – три четверти статей 2021 года из исследуемого массива имели хотя бы 1 ORCID в метаданных OpenAlex, тогда как в CrossRef лишь для 47% статей 2021 года из массива метаданные содержали хотя бы один ORCID. Стоит отметить, что показатели для OpenAlex и CrossRef обусловлены разными процессами – внесение ORCID в CrossRef зависит сегодня от технической оснащенности издателей (в мире и в России множество журналов издается на платформах, поддерживающих старые схемы данных CrossRef, которые не позволяют вносить ORCID). OpenAlex сопоставили имеющийся у них массив метаданных публикаций с открытым массивом ORCID и добавили новые сведения о CrossRef самостоятельно. Аналогичную работу по добавлению ORCID проделали и разработчики Lens (устная коммуникация), однако, они пока не настроили экспорт ORCID в метаданных документов, поэтому в данном исследовании проверить результаты их работы мы не можем.

Списки пристатейной литературы

Процитированные документы в списках литературы являются важнейшим источником информации для наукометрических исследований. Долгие годы основными источники этих сведений являлись индексы научного цитирования Scopus и Web of Science. Один за одним присоединяясь к инициативе по открытию списков литературы (см. Initiative for Open Citations), издатели начали переводить списки литературы в БД CrossRef в формат открытой лицензии. Однако, на январь 2022 не все крупные издатели перевели в открытый формат списки пристатейной литературы.

Несмотря на свой недолгий период существования Microsoft Academic стал важным источником информации о процитированных источниках. Благодаря этим трансформациям списки литературы стали доступны как в CrossRef, так и в БД Lens, Semantic Scholar, OpenAlex и других базах данных.

В базах данных CrossRef, Scopus, Web of Science источники в списках пристатейной литературы представлены в одной из двух форм. В первой группе текстовые ссылки сопровождаются идентификаторами документов, что свидетельствует о том, что текстовым строкам (ссылкам) поставлены в соответствие проиндексированные (присутствующие в базе данных) документы. Такие ссылки используются для подсчета цитирований и построения сети цитирования.

Во второй группе источники представлены лишь текстовыми строками. Использование таких ссылок для построения и анализа сетей цитирования требует дополнительных усилий, поэтому чаще всего они исключаются из анализа.

Доля распознанных ссылок определяется прежде всего охватом проиндексированных источников, но также зависит от качества оформления списков пристатейной литературы и алгоритмов распознавания.

Экспорт из баз данных Lens, Semantic Scholar, OpenAlex возвращает все ссылки с идентификаторами (первый тип), поэтому сравнение баз данных целесообразно проводить именно для них, но сперва сравним базы данных БД CrossRef, Scopus и Web of Science по полному количеству ссылок (в т.ч. не имеющих идентификатора).

Проиллюстрируем на примере статьи 10.1007/s00229-015-0799-6. В оригинальной статье процитирован 31 документ, столько же содержат БД CrossRef, Scopus и Web of Science Core Collection, но если в Scopus идентификаторы присвоены всем источникам, то в CrossRef ссылок с DOI – 19, а в Web of Science Core Collection ссылок с внутренним идентификатором всего 16 (остальные присутствуют в виде текстовой строки). БД Semantic Scholar, Lens и OpenAlex отдают через механизмы экспорта только те ссылки, которым присвоен внутренний идентификатор. БД Lens для выбранной статьи показывает 19 процитированных источников (как и CrossRef), OpenAlex – 27, а Semantic Scholar – 37 (в оригинальной статье 31). Пример с Semantic Scholar показателен – в БД поступили несколько версий описания одного и того же процитированного источника, которые по идее должны быть объединены, но алгоритмы Semantic Scholar не смогли справиться с такой задачей, в итоге все источники получили собственные уникальные идентификаторы.

Большее количество процитированных источников с идентификаторами в какой-то из баз данной не означает, что сеть цитирования, построенная на основе этой базы данных, будет иметь лучшее качество. Гораздо более важным является качество алгоритмов, которые распознают для группы процитированных источников схожесть описаний и обеспечивают им присвоение единого идентификатора.

Сравнение всех процитированных источников

Суммарное количество источников в списках литературы в БД Scopus, CrossRef и Web of Science Core Collection:

CrossRef – 2048947
Scopus – 2213075
Web of Science – 2194431

Частота консенсуса в попарных сравнениях:

{CrossRef–Scopus} – 84%
{Scopus–Web of Science} – 72%
{CrossRef–Web of Science} – 66%

Настолько низкий уровень консенсуса между общим количеством ссылок может вызвать удивление. Неужели Scopus и Web of Science что-то теряют или добавляют в каждой четвертой статье из выборки? Сравнение сетей цитирования не входило в планы текущего исследования, но мы проведем его в будущем.

Доля распознанных процитированных источников (которые присутствуют в БД не только как ссылки, но и как оригинальные публикации) в статьях исследуемого массива была следующей:

CrossRef – 74.3%
Scopus – 81.7%
Web of Science – 75.7%

Таким образом, сеть цитирования для исследуемого массива, построенная на данных Scopus, будет содержать примерно на 5% больше связей (статья С1 цитирует статью С2), чем аналогичная сеть, построенная на БД CrossRef или Web of Science Core Collection.

Следует подчеркнуть, что соотношение может быть иным для других массивов статей (всё же нами рассматривается массив публикаций с участием российских авторов).

Сравнение процитированных источников с идентификаторами

Суммарное количество процитированных источников с идентификатором в списках литературы публикаций из исследуемого массива:

Semantic Scholar – 2207909
Lens – 1823330
Scopus – 1807339
OpenAlex – 1684805
Web of Science – 1660217
CrossRef – 1522731

Semantic Scholar по всей видимости присваивает идентификаторы всем процитированным источникам (как показывает пример выше, иногда при этом растет и общее число источников). По общему количеству процитированных источников в исследуемом массиве Lens опережает Scopus, OpenAlex обгоняет Web of Science Core Collection. CrossRef следует последним, что скорее всего связано с тем, что некоторые издатели до сих пор не открыли свои списки литературы.

Количество публикаций в исследуемом массиве, в которых полностью отсутствуют идентификаторы:

Web of Science – 2938
Scopus – 5091
Semantic Scholar – 5891
Lens – 5913
OpenAlex – 6888
CrossRef – 8774

На иллюстрации ниже представлена частота консенсуса в отношении количества источников в списках пристатейной литературы в исследуемых группах статей разных лет.

Самая высокая частота консенсуса в попарном сравнении баз данных наблюдалась для статей 2021 года в паре {OpenAlex – Lens} – 48.9%. Во всех остальных парах частота консенсуса не достигала 40%. Высокая частота расхождений связана с дизайном эксперимента – в сравнение принимались только ссылки с внутренним идентификатором базы данных (те, которые используются для построения сети и расчета метрик цитирования), а базы данных различаются не только по охвату проиндексированных изданий, но также своими практиками распознавания статей и политикой присвоения идентификаторов. Именно поэтому в паре OpenAlex - Lens самое высокое значение, в паре баз данных с ограниченными перечнями индексируемых изданий и независимой друг от друга индексацией (Scopus - Web of Science Core Collection) – самое низкое.

Различия в списке распознанных процитированных источников, которыми обусловлена наблюдаемая для большинства пар низкая частота консенсуса, наследуются в сетях цитирования, которые можно построить на основе сравниваемых баз данных. Эти различия, хотя и многочисленны, но чаще всего относятся к периферии сети цитирования и не приводят к серьезным различиям интегральных показателей (таких как индекс Хирша).

Попарные расхождения

На иллюстрации ниже для каждой пары баз данных показаны размеры подгрупп публикаций, в которых количество процитированных источников с сопоставленными идентификаторами в списках пристатейной литературы различалось между двумя базами данных.

Пары баз данных (БД1-БД2) представлены в столбцах (справа-налево). В каждом столбце данные разбиты на 4 блока, которые показывают количество статей со следующим соотношением количества ссылок (сверху вниз):

в БД1 больше процитированных источников с идентификаторами, чем в БД2, при этом в БД2 их число также больше нуля,
в БД1 больше процитированных источников с идентификаторами, чем в БД2, при этом в БД2 нет ни одного такого источника,
в БД2 больше процитированных источников с идентификаторами, чем в БД1, при этом в БД1 нет ни одного такого источника,
в БД2 больше процитированных источников с идентификаторами, чем в БД1, при этом в БД1 их число также больше нуля.

в парах {CrossRef – Lens} и {CrossRef – Semantic Scholar} в 60-70% публикаций CrossRef содержит меньшее количество процитированных источников, которым в соответствие поставлен проиндексированный документ с идентификатором. Доля статей, для которых в CrossRef было обнаружено большее количество процитированных источников с идентификаторами, не превышала нескольких процентов. Более высокая доля распознанных процитированных источников в Lens и Semantic Scholar по сравнению с CrossRef отражает вклад Microsoft Academic.
Доля статей, которые в CrossRef не имели ни одного источника цитирования с распознанным идентификатором, но имели идентификатор в другой базе данных, в парах с Lens, OpenAlex, Semantic Scholar составляла 4-7%, в парах с Scopus и Web of Science Core Collection – в несколько раз выше (13-14%).
Несмотря на то, что в массиве списков литературы в БД CrossRef присутствуют пробелы (см. выше) около трети статей из выборки содержали в CrossRef больше распознанных процитированных источников, чем в Web of Science Core Collection (CR>WS). Обратная ситуация (CR<WS) наблюдалась для 28-30% статей из выборки. По мере дальнейшего открытия списков литературы в CrossRef возможности сети цитирования, построенной на БД CrossRef, будет все меньше уступать возможностям БД Web of Science Core Collections и Scopus.
Около 60-70% публикаций в БД Lens, OpenAlex, Semantic Scholar содержат большее количество идентификаторов в списках литературы по сравнению с Web of Science Core Collection.
В паре {Scopus – Web of Science} первая БД содержит в списках литературы больше идентификаторов для 67-78% статей выборки. Обратное соотношение (SC<WS) наблюдалась для 8-13% статей.

В данном исследовании аккуратность алгоритмов распознавания процитированных источников и их сопоставления проиндексированным статьям не проводилась.

Вариативность списков литературы (особенно в части распознанных источников) определяет различия в показателях цитируемости.

Информация о количестве цитирований

На иллюстрации ниже показано суммарное количество цитирований. Во всех подгруппах (по году публикации) суммарное количество цитирований в Web of Science Core Collection меньше, чем в других БД. CrossRef опережает Web of Science Core Collection, но уступает Scopus. Количество цитирований в Lens, Semantic Scholar и OpenAlex приблизительно одинаково (что объясняется, в первую очередь, их общим происхождением) и больше наблюдаемого для Scopus.

Доля статей без цитирований

В подгруппе статей 2021 года доля публикаций без цитирований для Scopus, Semantic Scholar, Open Alex, Lens была сопоставимой (около 60%), с увеличением возраста статей разница в пользу Scopus увеличивалась до нескольких процентов. Разница в доле непроцитированных публикаций исследуемого массива между Scopus и Web of Science Core Collection варьировала от 7 до 10%.

Попарные сравнения

На иллюстрации ниже показаны доли статей с разными соотношениями количества цитирований в парах баз данных.

Диаграмма попарных сравнений, как и в предыдущих случаях, показывает насколько искаженной может быть оценка, основанная на интегральных показателях. Даже в парах БД, где одна намного уступает другой по суммарному количеству цитирований, есть публикации, в которых соотношение обратное.

Рассмотрим на примере CrossRef и Scopus. Несмотря на то, что для исследуемого массив суммарное количество цитирований в Scopus существенно выше, чем в CrossRef, есть статьи с обратным соотношением (от 6% в 2021 году до 13% статей 2016-2018 гг.). Важно помнить, что Scopus и Web of Science Core Collection учитывают цитирования из индексируемых ими изданий, а CrossRef из любых изданий, которые депонируют сведения в CrossRef. Как уже говорилось, сети цитирования для этих БД различны.

Информация о месте работы авторов

The Lens не позволяет экспортировать информацию об аффилиациях, хотя развивает профили организаций. Оставшиеся 5 БД сравнивали только по факту присутствия в описании статьи хотя бы 1 аффилиации. Количество аффилиаций, нормализацию записей и аккуратность отнесения к профилям не анализировали.

Частота упоминаний аффилиаций в CrossRef растет от группы статей 2016-2018 гг. к группе статей 2021 года, но пока на исследуемом массиве статей составляет лишь 20%. В Semantic Scholar аффилиации появляются лишь эпизодически.

OpenAlex приятно удивил высокой частотой упоминаний аффилиации. В январе 2022 г. в БД присутствовали лишь несколько сотен российских организаций, наследованных от Microsoft Academic, на 19 февраля 2022 г. количество увеличилось до 2139 (на 19.02.2022) за счет интеграции с ROR и Wikidata. Такой рост обнадеживает, несмотря на то, что процедура коррекции ROR профилей пока не имеет поддержки (аналогичной той, которую способны предоставлять региональные офисы Clarivate и Elsevier), а сами идентификаторы все ещё страдают от наследия проекта GRID (создававшего профили не только для юридических лиц, но также для отделений РАН и т.п.). Профили организаций ROR (частично) заимствуют информацию из профилей организаций в Wikidata, которые научные организации могут самостоятельно редактировать, включая необходимые им сведения.

Информация о финансировании

На иллюстрации ниже показаны доли статей, описания которых в указанных БД содержали сведения о финансировании. OpenAlex и Semantic Scholar не включены в сравнение, поскольку на момент сбора данных API не возвращал таких сведений.

Сведения о финансировании могут содержать самую разную информацию – от ссылок на реальные гранты до выражений благодарности, поэтому целесообразно оценивать их содержание на конкретных примерах.

На иллюстрации ниже показано количество статей в каждой подгруппе, в которых сведения о финансировании содержали одно из текстовых значений (RFBR ИЛИ RSF ИЛИ Russian Foundation for Basic Research ИЛИ Russian Science Foundation), а также номер гранта, соответствующий регулярному выражению [0-9]{2}-[0-9]{2}-[0-9]{5} для грантов РФФИ и РНФ.

В 2019-2021 гг. в Web of Science Core Collection обнаруживается приблизительно на 15% больше удовлетворяющих условиям поиска статей, чем в Scopus, тогда как на выборке 2016-2018 гг. отличие в 2 раза больше. Возможно, это результат работы по повышению качества сведений о финансировании проектов в Scopus, о которых ранее заявлял Elsevier. В CrossRef по условиям поиска обнаруживается в 2 раза меньшее количество статей, чем в Web of Science Core Collection. Lens пока рано рассматривать в качестве источника сведений о финансировании.

Однако, как мы видели ранее, интегральные показатели не передают всей сложности. На иллюстрации ниже показано количество статей из исследуемого массива, в которых по маске поиска (см. выше) обнаруживаются упоминания грантов. Статьи разбиты на 3 подгруппы в зависимости от наличия ссылки на грант в обеих базах данных или только в одной из двух.

В статьях из исследуемого массива БД Web of Science Core Collection содержит больше ссылок на гранты РФФИ и РНФ, чем БД Scopus, однако, в каждой базе данных присутствуют упоминания грантов, которые отсутствуют в другой базе данных. Суммарное количество упоминаний грантов, присутствующих только в одной из двух баз данных, составляет примерно половину от числа грантов, упоминания о которых присутствуют в обеих базах данных.

Наличие реферата

На иллюстрации ниже показаны доли статей, описания которых в указанных БД содержали текст реферата. OpenAlex не включен в сравнение, поскольку на момент сбора данных API не выдавал текст реферата статьи даже в виде инвертированного индекса.

Заключительные ремарки

Настоящее исследование не претендует на научную или методологическую новизну и имеет своей целью зафиксировать состояние метаданных в проприетарных индексах научного цитирования Scopus и Web of Science Core Collection, и открытых реферативных базах данных CrossRef, Lens, OpenAlex, Semantic Scholar.

Эволюция открытых источников не вызывает сомнения. Однако, некоторые поля метаданных (о месте работы авторов, о финансировании, реферат) до сих пор заполнены в недостаточной степени, чтобы представить конкуренцию проприетарным индексах научного цитирования (Scopus, Web of Science Core Collection) для решения задач учета и мониторинга. Если издатели продолжат поддерживать инициативы по переводу в открытый доступ метаданных статей, а организации станут большее внимание уделять ROR и ORCID, качество метаданных в открытых базах и их востребованность могут приблизиться к тому, что могут предложить проприетарные индексы.

Смогут ли открытые базы данных поддерживать достигнутый уровень качества после закрытия Microsoft Academic? Ответ на этот вопрос мы сможем получить позже, когда БД OpenAlex, рассматриваемая как основной кандидат на замену Microsoft Academic, начнет самостоятельно индексировать новые статьи.

На сегодняшний день открытые базы данных можно экспериментально использовать для анализа графа цитирований и сети сотрудничества авторов (помня про ограничения в 100 и 500 авторов).

Наличие открытой лицензии позволяет не только использовать материалы из открытых баз данных для наполнения собственных информационных систем, но также модифицировать их, улучшая качество и нивелируя огрехи первичной индексации (пример – OpenAIRE). И поскольку качество данных не безупречно и в проприетарных индексах (т.е коррекция входящих данных и регулярный аудит качества – это неизбежность), открытые источники уже сегодня стоит рассматривать как источник метаданных, сопоставляя стоимость ежегодных лицензий и затраты на очистку данных.

Благодарности

Авторы выражают признательность разработчикам открытого ПО R v4.1.2, RStudio и программных пакетов:

РФФИ не несет ответственности за любые последствия, связанные с использованием приведенной выше информации.

Для обратной связи: написать письмо.

Информация для цитирования:

Лутай А.В. Сравнение качества метаданных в БД CrossRef, Lens, OpenAlex, Scopus, Semantic Scholar, Web of Science Core Collection / А.В. Лутай, Е.Э. Любушко; Российский фонд фундаментальных исследований. – Текст : электронный // РФФИ : [сайт]. – URL: https://podpiska.rfbr.ru/storage/reports2021/2022_meta_quality.html. – Дата публикации: 21.02.2022.