Международная конференция в Йоханнесбурге
Издание:
Вольное сетевое сообщество «Диссернет»
Дата
16 февраля 2018
Автор:
Андрей Заякин
В конце прошлого года в Йоханнесбурге состоялась международная конференция по расследовательской журналистике 10th Global Investigative Journalism Conference, проводимая Всемирным консорциумом журналистов-расследователей, в которой принял участие я, сооснователь «Диссернета» Андрей Заякин.
Полагаю, что всем активистам, волонтерам, экспертам, репортерам ианалитикам сообщества «Диссернет» будут полезны следующие инструменты, с
которыми я познакомился в ходе лекций и мастер-классов на данной
конференции:
1. Чрезвычайно полезная для «Диссернета» вещь: бесплатный онлайн/оффлайн
инструмент для извлечения таблиц из pdf — "Табула".
1.1. У нас в "раскрасках" таблицы довольно часто повреждаются, и идут в2. На конференции я познакомился с удобными интерфейсами для
строчку, из-за этого они не всегда отождествляются одна с другой.
При этом таблицы являются одним из важнейших элементов выявления
подлога в диссертациях по экономике. Это является одной из основных
проблем Экспертных советов по экономике, о чем мы писали во Втором Докладе «Диссернета». До сих пор их сравнение приходилось проводить построчно, что
затрудняло анализ. Теперь есть возможность сравнивать таблицы в
отсканированных документах целиком с сохранением их структуры.
1.2. Приказы Минобрнауки о присвоении степеней, о составе
диссоветов, Экспертных советов также содержат таблицы, которые
хотелось бы извлекать именно как таблицы, а не текст в строчку. Это
позволит нам с помощью http://tabula.technology/ провести
автоматизированную обработку десятков тысяч записей о присуждении
ученых степеней.
построения графов, демонстрирующих аффилированность. Так, существует
бесплатный инструмент для рисования мафиозных сетей
https://vis.occrp.org/, который в практике «Диссернета» следует активно
использовать для изображения сетей диссероделов. Для тех же целей
служит https://gephi.org/.
3. Очистка данных от дубликатов, спецсимволов и прочего цифрового
мусора удобно достигается ресурсом http://openrefine.org/, о котором я
узнал на конференции. Этот инструмент важен для исправления больших
баз данных, которые заполнялись руками и в которых накопились ошибки,
в частности, Генерального каталога диссернета, базы персоналий, базы
журнальных публикаций.
4. Для автоматического изучения библиотечных каталогов удобен
инструмент для анализа и выкачивания (не очень больших, если
использовать free trial) массивов и одновременной очистки от мусора и
сшивания воедино табличных данных из реестров итп.
https://www.import.io/
5. Много скрытых полезных вещей имеется в документах google, которые
следует более широко использовать в повседневной практике «Диссернета»:
5.1 Инструмент, с помощью которого можно вытаскивать таблицы из .htmlАвтор благодарит устроителей конференции за полезное и плодотворное мероприятие.
автоматически например таким вот скриптом: =IMPORTHTML("https://wiki.dissernet.org/wsave/AhmedhanovMR2012.html","table",4)
5.2. Еще есть очень продвинутые гуглотаблицы google fusion
https://support.google.com/fusiontables/answer/2571232
Последние публикации
Полина Ячменникова
Руководителем Высшей аттестационной комиссии стал вице-президент РАН
Михаил Гельфанд
Открытая лекция. Ответы на вопросы слушателей
Как реформа высшего образования повлияла на активность аспирантов