Википедия, DBpedia и семантические процессы будущего
Dr. Владимир Левоневский – доцент кафедры Информационных Систем в Экономическом Университете в г.Познань.
Википедия сегодня наиболее популярная энциклопедия и один из самых посещаемых сайтов в мире. Еще недавно Википедия была на пятом месте по популярности. Этот ресурс может редактировать каждый человек, даже не обязательно иметь свой аккаунт. Поэтому существует угроза добавления неправильной информации или информации плохого качества. С одной стороны это свободная энциклопедия и каждый может её редактировать, с другой стороны – часто критикуется за низкое качество.
На сегодня создано уже более 300 языковых разделов Википедии. Каждый раздел может создавать свои критерии оценки качества и некоторые статьи имеют наивысшую оценку, что обозначается определенной медалью. Проблема в том, что, когда мы оцениваем статью Википедии нужно обращать внимание на её разные элементы, чтобы позволили бы оценить качество материала.
Мной была опубликована статья в 2017 году о проблемах автоматической оценки качества и обогащения информации в Википедии[1]. Проблема оценки качества статей Википедии не нова и обычно она решалась посредством классификации статьи в определённый класс. К примеру, в Русской Википедии есть категория избранных статей, хороших статей, добротных статей, и так далее. А английской Википедии соответствующие другие названия, значки, оценки и критерии. В некоторых языковых версиях таких оценок меньше. Например, немецкая использует только две оценки качества – наивысшие. В английской можно найти 7 разных оценок качества, в том числе и так называемых заготовок статей. Проблема еще в том, что каждая статья в каждой версии может иметь разный стандарт классификации качества, поэтому тяжело сравнить эти статьи между собой в разных языках за счёт того, что присутствуют разные критерии в языковых разделах Википедии. В моих исследованиях[2] было предложено оценивать качество по непрерывной шкале от 0 до 100, то есть мы можем оценить качество статей получив количество баллов и затем сравнить, которая с языковый версий является наилучшей на конкретную тему. Эта система оценки была включена в некоторые онлайн-проекты, например WikiRank.net
Мы провели оценку и анализ около 40 млн статей, а также в какой языковой версий размещено больше статей лучшего качества, какое распределение качества и так далее. Естественно английская Википедия может похвастаться статьями в целом лучшего качества, но и тех, которые требуют правок (улучшений).
Следующая наша научная работа[3] затронула исследования более 10 млн категорий в Википедии, где мы попробовали определить около 20-30 основных тематик статей и оценить их качество в рамках каждой языковой версии. Одна из задач – понять, в каких языковых версиях лучше пишут об учёных, а в каких лучше пишут о фирмах, продуктах, в целом о экономике и так далее.
В этом году нами была опубликована работа[4], где мы оценивали источники на основании исследования более 200 млн примечаний и сносок в различных языковых версиях Википедия. Так мы нашли те источники, которые являются более достоверными и популярными в рамках каждой из его версии. Там ещё много чего можно дорабатывать и совершенствовать, но сегодня мы в состояние автоматизировать процесс оценки качества информации в Википедии на разных языках. Также мы можем оценить определенные источники на определенном уровне точности, так как часто могут быть какие-то ошибки и погрешности.
Нашей задачей является совершенствование этих механизмов и улучшение качества алгоритмов. Мы нашли способ определения какая языковая версия имеет информацию лучшего качества на определенную тему. Более того, исследуемые методы позволяют автоматически переносить эту информацию в другие языковые версии. Например, украинская версия сейчас содержит около миллиона статей. Английская содержит более 6 млн статей. Мы уже видим потенциал около 4-5 млн. статей, которые можно перенести с английской. Но, может быть какие-то темы, которые не описаны в английской, но описаны, например, в польской, немецкой или русской и так далее. Некоторые объекты или события могут быть описаны лучше и это можно исследовать автоматически используя, в частности, оценки качества по непрерывной шкале от 0 до 100. Так можем найти какие языковые версии лучше всего описывают конкретный объект. Затем, в первую очередь, использовать эти языки, чтобы перенести информацию, например, в украинскую Википедию. Белорусская Википедии имеет еще большее потенциал развития – в ней в настоящее время – около 200 тысяч статей. Даже английская с её более 6 млн статей имеет также большой потенциал к развитию. Это показало наше исследование ранее. английская Википедия может быть обогащена еще более чем 9 млн статей из других языковых разделов. Есть объекты, которые не описаны в английской Википедии, но которые важны с точки зрения локальных языковых сообществ: города, персоналии, события и т.д..
Переносить информацию предлагается с помощью семантических баз данных и делать это без ошибок. Например, проект DBpedia[5] агрегирует информацию с разных языков и объединяет разные характеристики объектов в одну онтологию. Если, например, в английском языке население звучит как “population”, по-польски “populacja”, по-украински “населення”, по-белорусски “насельніцтва” и так далее. Та сематическая база понимает, что это одно и то же и будет просто называть общим понятием, к примеру “population total”. С другой стороны, в этой онтологии есть проблема различных написаний одного и того же значения, например, если кто-то записал дату с точками, кто-то может написать через черточку, кто-то может вообще использовать слова, тогда эта семантическая база в состоянии унифицировать эти значения и потом сравнивать с датой. Это позволяет позже сравнивать и оценить, какая версия имеет более актуальные данные. Если семантическая база данных (СБД далее) понимает данные, то она в состоянии генерировать новые данные даже в виде отдельных предложений на разных языках из так называемых семантических троек.
В основе методов автоматической оценки информации используются алгоритмы машинного обучения, в частности алгоритмы классификации, которые стараются найти разницу между статьями лучшего качества и более низкого качества. Одним из важных параметров для определения качества является длина статьи, количество примечание, изображений, авторов. В своей научной диссертации[6] я использовал более 150 параметров в таком алгоритме классификаций. Но это не предел. Можно в том числе брать во внимание дополнительные параметры. Например морфологические – анализировать в тексте глаголы, существительные, связи между ними. Но при этом для каждого языка необходимо иметь специальные словари. На основании наиболее важных параметров мы можем показать уже не просто классификацию на отдельные категории (классы качества), а сделать из этого алгоритма модель регрессии.
Мы стремимся к наивысшему качеству. С увеличением некоторых важных параметров – качество увеличивается. Например, чем больше (длиннее) статья, тем больше вероятность того, что она лучшего качества, чем больше источников – эта вероятность также возрастает. Можно брать во внимание плотность источников: текста может быть много, но это не показатель качества, если источников совсем мало. Поэтому плотность источников может играть ключевую роль. Поэтому, статья не обязательно должна быть длинная, чтобы быть хорошего качества.
Итак, на первом этапе используя алгоритм машинного обучения можно взять как можно больше извлечённых параметров, а потом алгоритм покажет какие из них являются наиболее важными с точки зрения оценки качества. Далее эти важные параметры можно использовать для построения других алгоритмов.
О влиянии Википедии на науку, на процесс образования в школах, колледжах, университетах
Я считаю, что в целом Википедия оказывает положительное влияние на науку, а также на процесс образования. Дело в том, что мы должны брать во внимание развитие технологии, технический прогресс. Сайты, которые раньше были более статичными в интернете, а второго поколения стали более динамичными. Теперь популярность контента зависит общества, от пользователей интернета, которые могут оставить свои комментарии и оценки, согласиться или не согласится с публикацией. Т.е. от поведения пользователей Интернета зависит, что будет показыватся другим читателям, например какие новости будут показываться в вверху списка новостей или какие документы появятся выше в поисковой выдаче.
Википедия является одним из наиболее посещаемых сайтов в мире и в том числе учеными. Это позволяет предположить, что она также может влиять на формирование науки. Например, включение идей в Википедию приводит к тому, что эти идеи больше используются в научной литературе. Это подтверждают опубликованные два года назад исследования. Возможно это также смотивирует ученых улучшать качество материалов в этой энциклопедии. Как самая большая энциклопедия в мире, Википедия отражает, в том числе, состояние научных знаний и содержит не проверенную специалистами информацию, а с другой – там можно найти сноски на интересные материалы. Согласно моим исследованиям, всё больше появляется открытых научных источников, а это может помочь учащимся найти различные качественные исследования на определённую тему.
Классификация источников
Классификация существует, но не существует общепринятой классификации источников. Обычно это зависит от характеристики и области применения. Но среди них можно выделить, например, источники в электронном виде и традиционные источники (документы, бумажные заметки, прямой разговор с другим человеком). Источники можно поделить на надежные, проверенные, а также на те, которые не вызывают доверия. Затем, описанные на основании собственного опыта, переживаний и сторонних событий. Общедоступные и доступные лишь немногим. Могут быть также первичные, вторичные и третичные источники.
Википедия классифицирует источники по последнему примеру. Так, к первичным источникам относятся те, на которых основаны другие исследования. Это интервью, различного рода протоколы каких-то событий, заседаний, дневники, оригинальные или полевые исследования, то есть работа по сбору первичной информации. Это также исследования, опубликованные в научных журналах. Даже стихи можно отнести к первичным источникам.
Вторичные – те, которые описывают или анализирует эти первичные источники: словари, учебники, энциклопедии, а также публикации в которых интерпретируются или синтезируется оригинальные исследования.
Третичные источники – те, которые иногда появляются как подтверждение информации, иногда пропускаются. Их используют для поиска вторичных и первичных источников. Например, индексы или библиографические базы данных, которые обычно содержат информацию о публикациях: автора, дату, место публикации. Также могут быть выдержки по первичным и вторичным ресурсам, а некоторые могут содержать цифровую копию этого ресурса. Всё зависит от наших требований и области, в которой мы хотим оценить или классифицировать эти источники.
О качестве статей Википедии
Есть достаточно много характеристик, которые могут помочь оценить так называемую правдивость. У каждого государства или определенной группы людей могут быть собственные взгляды интерпретации объектов или событий, особенно исторических событий. Правдивость источника может зависеть не только от самого источника, поэтому необходимо исследовать каждый источник отдельно по общепринятым критериям. В самой Википедия существует достаточно подробная инструкция о том, как оценивается адекватно и верность источников, особенно хорошо это сделано в английской Википедии. Но, главная проблема заключается в том, что это оценка субъективная и зависит от темы конкретного утверждения. Например, в русскоязычной Википедии можно прочитать, цитирую: “Для Википедии не существует источников, авторитетных по любому вопросу и не авторитетных ни по какому”. Часто оценка достоверности источника основывается на присутствии или отсутствии процесса рецензирования. Если этот процесс присутствует, то берут во внимание репутацию организации, которая отвечает за рецензию. Например, это может быть издательство, редакция журнала и так далее. С другой стороны, если автор узнаваем, или авторитетен, то уже менее важное место публикации этого материала. Материал может опубликовать материал даже в своем блоге, на бесплатном хостинге. Более важным элементом анализа источника является также мнение других относительно его достоверности. Тут, безусловно играет роль информетрия. Если мы оцениваем вторичные источники, то Википедия рекомендует проверить независимость авторов от заинтересованных сторон, а также существование редакторского контроля и проверки фактов, изложенных в материале.
Лоббирование интересов в Википедии
Я не редко встречал лоббирование и исследовал это явление отдельно. Мы можем этому не удивляться, потому что там, где существует люди, всегда будут какие-то интересы, отдельная мотивация. Википедия уже давно критикуется за то, что есть свобода и можно сказать частично хаос, и даже предрекали закрытие Википедии ещё в 2012 году. Но она ещё работает, и активно развивается и совершенствуется. Это очень интересный социальный феномен.
Людям есть смысл посвящать свое время тому, чтобы улучшать качество Википедии. Нужно помнить о том, что мы пользуемся этой энциклопедией и она может нам помочь быстро найти нужную информацию, но мы должны думать и про других, чтобы они тоже имели доступ к хорошей и качественной информации. Хоть мы стараемся совершенствовать алгоритмы, которые автоматически оценивает их обогащают различные языковые версии, помощь людей будет только «в плюс».
Алгоритмы ссылочного ранжирования. Качество и влияние ранжирования при поиске информации в сети Интернет
Мною была написана научная работа[7] совместно с немецкими учеными и основывалась на индикаторах и показателях SEO, которые были представлены фирмами, которые занимаются поисковой оптимизацией. В рамках этих исследований мы анализировали видимость статей в результатах поиска Google. Мы анализировали с точки зрения разных стран, потому что Google выдает другой результат в зависимости от того, где мы находимся и откуда этот запрос посылаем. В ходе исследований оказалось, что статьи с лучшим качеством обычно имеют больше шансов быть выше в результатах поиска чем те статьи, над которыми можно и нужно дополнительно потрудиться. В общем важно понимать, что поисковые системы неохотно делятся своими секретами алгоритмов ранжирования, которые, кстати, периодически меняются в том числе для того чтобы минимизировать возможную подкрутку или искусственное влияние на результаты поиска со стороны владельцев сайтов.
Раньше документы ранжировались в основном на основании частотности искомых слов и фраз в тексте. Понятно, что найдутся люди, которые будут создавать искусственные страницы, где таких ключевых слов будет много. Несмотря на то, что Google уже относительно долгое время является лидером на рынке поисковых услуг в интернете – это не был первый поисковик в мире. Благодаря включению в алгоритм ранжирования новых переменных, в особенности такого индикатора, как PageRank, результат поиска Google стал отличатся высоким качеством. В связи с этим каждая серьёзная поисковая система имеет свои алгоритмы построенный на общих и также уникальных индикаторах.
Целесообразность и качество наукометрических научных баз
Такие базы однозначно нужны. Если говорить про качество, опять же всё зависит от конкретной базы и наших задач. Приведу примеры таких баз, которые я сам использую в своей работе. Например, есть такая база Scopus. Она индексирует около 40 тыс. научных изданий, туда не все материалы могут попасть, а только те, которые соответствуют определенным критериям качества. Запрос на включение нового названия в базу может подать любой ученый с помощью специальной формы. Также можно забрать эту возможность у издания, издательства, если материалы не соответствует качеству.
Scopus – это популярная библиографическая база данных, но она закрыта для общего доступа (существует платная подписка). Возможности полноценного поиска информации, классификации, например, доступны университетам. Кроме того, эта база агрегирует данные с разных издательств, журналов относительно названия, авторов, краткого описания, ключевых слов авторов. Дополнительно, эта база на основе анализа содержимого документов добавляет свои ключевые слова, что позволяет проще находить нужные документы. В ней есть разные инструменты анализа группы статей, например, самых популярных ученых в определенной области, самых цитируемых. Можно поделить выбранные публикации на различные отрасли науки, поделить на страны авторов и так далее.
Другая база – Web of science. У неё задача примерно такая же, она отбирает только те источники, журналы, публикации, которые соответствует качеству и определенным критериям. В ней есть дополнительные механизмы, которые позволяют быстрее находить нужные документы, анализировать публикации и выявлять популярные организации, ученых определенной области, цитируемость авторов и т.д.
Важно, чтобы такие базы существовали и «держали» стандарт. Люди и журналы, издательства стремятся присутствовать в таких базах, ведь это говорит про определённую авторитетность и качество их материала.
Следует отметить такие агрегаторы библиографических данных с поисковой системой, как Google Scholar или Microsoft Academic. Их основное преимущество в том, что они бесплатные и доступны для всех, и не обязательно иметь подписку как в Scopus или Web of Science. Преимуществом также является то, что они собирают информацию, публикации с разных мест, не только на сайтах издательств (официального места публикации), но и в том числе с других порталов, где авторы могут поделиться этой публикацией бесплатно. Более того, такие агрегаторы анализируют не только связи между публикациями, но и способны показать контекст цитирования.
Также отмечу, что есть относительно новые библиографические базы данных, которые дают нам свою оценку важности влияния статей. Например, Altmetrics. Она рассчитывает важности влияние научных работ на основании таких характеристик, как просмотр, обсуждение, цитирование в социальных сетях, в том числе Facebook, Twitter, а также самой Википедии (правда не для всех языков). Также показывает количество сохранений в персональных библиографических базах, например, Mendeley, которая показывает рекомендации других пользователей. Дополнительно можно проверить цитирование в других научных работах, которые проиндексированы в Scopus и Web of Science Это более сложный механизм, но он позволяет более разносторонне оценить качество работ.
Другая инициатива, PlumX Metrics. Она тоже собирает информацию о разных сигналах с различных сайтов, определяет насколько хорошо цитируется конкретная работа в различных социальных сетях ресурсах, в том числе и на блогах, в новостных ресурсах и даже на YouTube.
Также есть такие базы, как Academia.edu и ResearchGate. Эти БД с элементами социальной сети для того чтобы ученые находили контакты, но для размещения и самих публикации. Конечно есть и другие, и их становится все больше и больше. Всё это развивается и этого будет всё больше. По моему убеждению, это положительная тенденция.
О проекте DBpedia
DBpedia – это открытая и бесплатная база знаний, которая постоянно совершенствуется и расширяется большим мировым сообществом. Наша кафедра отвечает за польскоязычный сегмент. Это семантическая база данных, которая трансформирует информацию из Википедии и других открытых источников. Она обогащается автоматически информацией на разных языках и в состоянии генерировать новые данные. Благодаря тому, что это база понимает информацию – она может дать ответы, которые сложно найти в тех открытых источниках. С другой стороны, мы можем подать запрос к этой базе на тему объектов, которые не имеют непосредственного описания этих фактов. Например, можно найти всех описанных в Википедии математиков, которые родились на определенной территории и в определенных годах. Можно даже определить кто родился на территории уже несуществующего государства, например, Великого княжества Литовского. Можно, к примеру, показать список самых больших городов в определённых исторических отрезках времени.
Пользователи используют эту базу данных в качестве базовых знаний, в том числе для ранжирования документов, для понимания естественного языка, создаются, например, чат-боты, а также другие методы интеграции данных. В настоящее время, если брать статистику, база содержит более 8 миллиардов фактов. Например, факт, что в городе Познань живёт около 550 тыс. человек, или такой-то человек родился в этом месте. Таких фактов более 8 млрд и они все полученные путём сбора этой информации с различных языковых версий Википедии, а также других открытых источников.
Рекомендации при поиске достоверных источников и отличии от фейковых
Я бы рекомендовал обращать внимание на разные критерии качества. Нужно помнить, что материалы пишутся (в основном) людьми с определенной целью. Можно задать себе вопрос, с какой целью написан конкретный материал. Проинформировать? Или может быть это какая-то шутка, для развлечения или жёлтая пресса? А может быть цель этого материала нам что-нибудь продать? Смотреть нужно где и кем это опубликовано. Если это государственное учреждение, которое собирает статистические данные, то в основном данные будут хорошего качества. Однако даже если мы говорим про государственные учреждения, нужно смотреть к какому государству оно относится. В зависимости от этого новости или другие материалы могут быть более объективные или субъективные. Обращать нужно внимание на разные системы оценки сайтов и работ, которые могут помочь определить популярность или авторитетность источников. Пример: alexa.com, bestref.net и другие.
Есть также альтернативные источники параметров такие, как PlumX Metrics и Altmetrics, которые кроме традиционных механизмов оценки качества, берут во внимание более современные социальные аспекты.
В первую очередь рекомендую обращать внимание на новые технологии, которые упрощают оценку. И конечно же, нужно иногда включать свою голову и обращать внимание что написано в материале. Например, Википедия может использоваться как начальный уровень ознакомления с информацией, затем стоит обратить внимание на источники, в особенности в рецензируемых местах (например научные журналы), которые позволят перейти на новый уровень изучения нужной темы.
Если говорить про автоматизацию процесса оценки качества, то история развития различных информационных систем, в том числе поисковых, показывает, что недостаточно придумать совершенный механизм на долгое время. Даже те возможности, о которых я упоминал выше, дающие новые параметры для оценки, сегодня могут работать, а через какое-то время потребуют изменений. Таким образом, алгоритмы должны постоянно совершенствоваться. С другой стороны, опыт тех же поисковых систем показывает, что это реально. Развитие технологий, в том числе возможностей, которые дают алгоритмы машинного обучения и искусственного интеллекта, позволяют быстрее определить, какие параметры необходимо брать во внимание и что необходимо изменить в методах. Такие алгоритмы можно будет изменять чаще и быстрее с учётом вызовов и требований современного мира.
[1] https://link.springer.com/chapter/10.1007/978-3-319-69023-0_19
[2] https://www.mdpi.com/2227-9709/4/4/43
[3] https://www.mdpi.com/2073-431X/8/3/60
[4] https://www.mdpi.com/2078-2489/11/5/263
[6] http://www.wbc.poznan.pl/Content/461699/Lewoniewski_Wlodzimierz-rozprawa_doktorska.pdf
[7] https://link.springer.com/chapter/10.1007/978-3-319-99972-2_11