1. Головна
  2. /
  3. Відкрита наука
  4. /
  5. Організація даних

Організація даних

Для реалізації найкращих практик упорядкування даних:

  1. Зберіть усі необхідні дані з урахуванням можливості повторного аналізу.
  2. Переконайтеся, що ваші дані доступні для спільного використання відповідно до ліцензії.
  3. Оберіть відкриті формати файлів.
  4. Організуйте файли за логічною схемою.
  5. Опишіть свій набір даних (постійний ідентифікатор або у файлі Readme).
Каталог папок

Каталог папок дає огляд того, де можна знайти інформацію. Ретельно спланована структура папок зі зрозумілими назвами та інтуїтивно зрозумілим дизайном є основою для якісної організації даних. Рішення про те, як організувати файли, слід ухвалювати під час планування та розробки проєкту, щоб стратегію можна було реалізувати із самого початку.

Обирайте зрозумілу назву папок, унікальне ім’я – уникайте присвоєння однакового імені папці та підпапці. У верхній папці має бути файл Readme.txt з описом структури папки та файлів, які містяться в папках. Цей файл також має містити пояснення правил іменування файлів.

Іменування файлів

Ефективна практика іменування файлів полягає в логічній організації та систематичному іменуванні файлів і папок. Визначте Угоду про файли на початку вашого проєкту та послідовно слідуйте їй у ході дослідження.

Включіть текстовий файл Readme.txt, особливо корисний для новачків у проєкті, у свій каталог файлів. Цей файл описує Угоду про імена, які ви використовуєте. 

  • Використовуйте описові імена файлів, зрозумілі вам і вашим колегам. Вони можуть включати назву проєкту, тему або абревіатуру. Використовуйте задокументовану та стандартизовану описову інформацію про проєкт/експеримент.
  • Робіть імена файлів відносно короткими. Використовуйте до 25-30 символів.
  • Краще використовувати підкреслення «_» замість пробілів чи використовувати верблюдячий регістр (FileName.xxx).
  • Назва файлу має містити лише одну крапку, щоб вказати розширення файлу.
  • Включіть дати в ім’я файлу, це може допомогти при сортуванні різних версій вашого файлу. Використовуйте рекомендований  формат дати ISO 8601: РРРРММДД. 
  • Включіть номер версії. Використовуйте систему послідовної нумерації для відстеження різних версій або редакцій файлу, записуйте перші версії через 0 (01,02,03,…10,11,…99), наприклад FileName01 замість FileName1. Якщо у вас може бути більше 99 варіантів, використовуйте формат 001.
  • Якщо ви працюєте на кількох комп’ютерах, переконайтеся, що ваші файли синхронізовані.

Чого слід уникати?

  • Пробілів у назві файлів; не всі програми розпізнають їх в іменах файлів.
  • Спеціальних символів у імені файлу, таких як: «/ \ : * ? « < > [ ] & $. Ці символи мають особливе значення для різних операційних систем і можуть призвести до видалення або переміщення ваших файлів.
  • Довгих або багатослівних імен, які не можуть мати значення ні для вас, ні для інших дослідників у вашій команді.
  • Загальних імен файлів, які можуть конфліктувати, якщо ваші дані було переміщено з однієї системи в іншу.

Масове перейменування файлів або масове перейменування використовується для видалення пробілів і спеціальних символів у назвах файлів, зміни назви файлів у каталогах послідовно.

Версії файлів

Контроль версій корисний/використовується, щоб відстежити зміни у файлах. Послідовний підхід до керування версіями файлів означає, що ви можете легко визначити останню копію файлу або остаточну версію файлу, не відкриваючи окремі файли.

Формати файлів

Під час проєкту ваше дослідження може генерувати різні типи даних дослідження в різних форматах цифрових файлів. Формат файлу, який ви обираєте для своїх даних, є основним чинником, який дасть іншим змогу отримати до них доступ у майбутньому. Уважно подумайте, який формат файлу буде найкращим для керування, спільного використання та збереження ваших даних. Технології постійно змінюються, і можна очікувати, що всі сучасні апаратні та програмні засоби застаріють. Дані досліджень краще архівувати у відкритих непатентованих форматах, щоб забезпечити тривалий доступ до файлів, наприклад, TXT замість Microsoft Word, CSV замість Microsoft Excel, TIFF або PNG замість файлів Adobe Photoshop. 

Перед наданням доступу до файлів перегляньте файли на наявність помилок:

  • відсутність даних, 
  • неправильно названі файли, 
  • неправильно позначені змінні, 
  • неправильно відформатовані значення, 
  • пошкоджені архіви файлів.

Можливо, буде корисно запустити інструменти перевірки даних перед наданням спільного доступу. Наприклад, якщо ви працюєте з табличними наборами даних, такий інструмент, як Frictionless validation, може виявити відсутні дані та проблеми форматування типу даних.

Стиснення файлів може знадобитися для зменшення великих розмірів файлів або каталогів файлів. Файли можна об’єднувати в архіви стиснених файлів ( .zip, .7z, .tar.gz). Якщо у вас є великий каталог файлів і є логічний спосіб розділити його на підкаталоги та стиснути їх, краще це зробити. Зазвичай рекомендують, щоб кожен каталог/підкаталог не перевищував 10 ГБ. Резервні копії також слід враховувати під час оцінки розміру даних. 

Документування даних

Документація це контекстна та пояснювальна інформація, необхідна для розуміння набору даних. Документація даних детально описує вміст, формати та внутрішні зв’язки ваших даних і дасть іншим дослідникам можливість знаходити, використовувати та належним чином цитувати ваші дані. Почніть документувати свої дані на самому початку свого дослідницького проєкту. Якщо вам доведеться створювати документацію в кінці проєкту, важливі деталі будуть втрачені або забуті.

Приклади документації:

  • лабораторні журнали та експериментальні протоколи,
  • анкети, кодові книги, словники даних,
  • синтаксис програмного забезпечення та вихідні файли,
  • інформація про налаштування обладнання та калібрування приладу,
  • схема бази даних,
  • методологічні звіти тощо.
Метадані

Це структурована інформація, яка описує, перекладає, визначає місцезнаходження та полегшує пошук, використання або керування інформаційним ресурсом. Існує багато стандартів метаданих, найвживанішими є Dublin Core, схема метаданих DataCite або Data Documentation Initiative (DDI). Метадані, підготовлені за стандартом, мають фіксовану структуру опису з чітко визначеними полями, завдяки чому опис завжди зрозумілий як для людини, так і для комп’ютерних програм. Це полегшує архівування, відшукуваність та цитування набору даних. Якщо ви архівуєте свої дані в сховищі спільноти чи інституційному сховищі, найчастіше репозитарій визначатиме стандарт метаданих. 

Приклади цитування даних із вебсайту DMTool:

  • Kumar, Sujai (2012): 20 Nematode Proteomes. figshare. https://doi.org/10.6084/m9.figshare.96035.v2 (Accessed 2016-09-06).
  • Morran LT, Parrish II RC, Gelarden IA, Lively CM (2012) Data from: Temporal dynamics of outcrossing and host mortality rates in host-pathogen experimental coevolution. Dryad Digital Repository. https://doi.org/10.5061/dryad.c3gh6
  • Donna Strahan. “08-B-1 from Jordan/Petra Great Temple/Upper Temenos/Trench 94/Locus 41”. (2009) In Petra Great Temple Excavations. Martha Sharp Joukowsky (Ed.) Releases: 2009-10-26. Open Context. https://opencontext.org/subjects/30C3F340-5D14-497A-B9D0-7A0DA2C019F1 ARK (Archive): http://n2t.net/ark:/28722/k2125xk7p
  • OECD (2008), Social Expenditures aggregates, OECD Social Expenditure Statistics (database). https://doi.org/10.1787/000530172303 (Accessed on 2008-12-02).
  • Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF-Ensemble run by DWD for the MAP D-PHASE project. World Data Center for Climate. https://doi.org/10.1594/WDCC/dphase_mpeps
  • Manoug, J L (1882): Useful data on the rise of the Nile. Alexandria : Printing-Office V Penasson. http://n2t.net/ark:/13960/t44q88124

Readme

Метадані на основі стандартів, як правило, є кращими, але якщо відповідного стандарту немає, для внутрішнього використання доцільною стратегією є запис метаданих у стилі «readme». Файл readme надає інформацію про файл даних і призначений для того, щоб переконатися, що дані можуть бути правильно інтерпретовані вами пізніше або іншими під час обміну чи публікації даних. У багатьох випадках буде доцільно створити один документ для набору даних, який містить кілька пов’язаних файлів у подібному форматі або файлів, які логічно згруповані разом для використання (наприклад, колекція сценаріїв Matlab). Іноді має сенс створити readme для одного файлу даних.

Нижче наведено деякі загальні аспекти ваших даних, які ви повинні задокументувати, незалежно від вашої дисципліни. Як мінімум, зберігайте цю документацію у файлі «readme.txt» або еквіваленті разом із самими даними.

Загальний огляд
  • Назва: назва набору даних або дослідницького проєкту, який його створив.
  • Творець: назви та адреси організацій або людей, які створили дані; бажаний формат для особистих імен – прізвище спочатку (наприклад Сміт, Джейн).
  • Ідентифікатор: унікальний номер, який використовується для ідентифікації даних, навіть якщо це лише внутрішній номер проєкту.
  • Дата: ключові дати, пов’язані з даними, зокрема: дата початку та завершення проєкту; дата випуску; період часу, охоплений даними; та інші дати, пов’язані зі строком служби даних, такі як цикл обслуговування, графік оновлення; бажаний формат РРРР-ММ-ДД або РРРР.ММ.ДД-РРРР.ММ.ДД для діапазону.
  • Метод: як були згенеровані дані, перелік використовуваного обладнання та програмного забезпечення (включаючи номери моделі та версії), формули, алгоритми, експериментальні протоколи та інша  інформація, яку можна включити в лабораторний блокнот.
  • Обробка: як дані були змінені чи оброблені (наприклад нормалізовані).
  • Джерело: посилання на дані, отримані з інших джерел, у тому числі відомості про те, де зберігаються вихідні дані та як до них здійснюється  доступ.
  • Фінансувальник: організації чи установи, які фінансували дослідження.
Опис вмісту
  • Тема: ключові слова або фрази, що описують тему чи зміст даних.
  • Місце: усі відповідні фізичні місця.
  • Мова: усі мови, які використовуються в наборі даних.
  • Список змінних: усі змінні у файлах даних, де це можливо.
  • Список кодів: пояснення кодів або скорочень, які використовуються або в назвах файлів, або в змінних у файлах даних (наприклад «999 вказує на відсутнє значення в даних»).
Технічний опис
  • Інвентаризація файлів: усі файли, пов’язані з проєктом, включаючи розширення (наприклад NWPalaceTR.WRL, stone.mov).
  • Формати файлів: формати даних, наприклад FITS, SPSS, HTML, JPEG тощо.
  • Структура файлу: організація файлу(ів) даних і розташування змінних, де це можливо.
  • Версія: унікальна позначка дати/часу та ідентифікатор для кожної версії.
  • Контрольна сума: значення, обчислене для кожного файлу, яке можна використовувати для виявлення змін.
  • Необхідне програмне забезпечення: назви будь-яких програмних пакетів спеціального призначення, необхідних для створення, перегляду, аналізу або іншого використання даних.
Доступ
  • Права: будь-які відомі права інтелектуальної власності, законні права, ліцензії або обмеження на використання даних.
  • Інформація про доступ: де та як інші дослідники можуть отримати доступ до ваших даних.
  • Інформація про походження похідних чи оцифрованих даних.

Джерело.

Контакти

+38 (044) 204-82-75
library@library.kpi.ua
пр. Берестейський (Перемоги), 37 Л,
м. Київ, 03056


Бібліотека на мапі