<<
>>

Да и нет.

Программное обеспечение персональных компьютеров сделает это удивительно быстро, независимо от числа рассматриваемых случаев. Преодоление препятствий Однако на вашем пути могут попасться препятствия, которые надо преодолеть.
В их числе: • нужен достаточно быстродействующий компьютер; • нужно проявлять упорство, добиваясь получения информации в государственных ведомствах; • нужно торговаться с ведомствами, добиваясь снижения до разумных пределов тарифов на информационные услуги, когда документ, наконец, выдан; • всегда нужно очищать данные, освобождая их от ошибок и внутренних противоречий; • нужно пройти длительный путь обучения, прежде чем у вас впервые заработает программа (это не относится к линейным базам данных); • нужно привлекать к работе специалистов, имеющих опыт анализа информации. Подробнее об этом будет сказано ниже. В декабре 1991 года газета "Бикон Джорнал" поместила серию статей, в которой доказывалось, что в штате Огайо не хотят или не могут справиться с проблемой лишения прав водителей, неоднократно задерживавшихся за рулем в состоянии алкогольного опьянения. В судах к ним относятся снисходительно, часто прекращают дело или назначают мягкое наказание. Дорожная полиция штата вынуждена напоминать судьям о необходимости применения всей строгости закона к многократным нарушителям. Вот что рассказывает редактор по отделу бизнеса газеты "Хьюстон Кроникл" Скотт Кларк о подводных камнях, встретившихся в его первом путешествии по волнам компьютерных технологий. "Использование электронной версии документов подкинуло нам массу проблем. Многие из них связаны со стоимостью и доступом. Ситуация вполне типичная. Мы начали с того, что направили в одно регулятивное ведомство штата запрос на открытые документы по вопросу занятости, ссылаясь на техасский эквивалент федерального закона о свободном доступе к информации. Прежде чем направлять запрос, наш журналист выяснил через знакомых в ведомстве, какая информация хранится там в памяти компьютеров. Сначала нам ответили, что информация организована в виде, не отвечающем нашим потребностям. Когда мы согласились получить ее в любом виде, возникли сомнения, можно ли выдавать газете "компьютерную" информацию – якобы мы имеем право на допуск только к документам, исполненным на бумаге. После того как удалось убедить их, что закон штата об открытых документах не делает различия между документами на бумажных и магнитных носителях, нам назвали цену 4000 долларов, якобы покрывающую работу программистов в течение 80 часов. Последовали длительные переговоры по телефону с руководителем отдела общественной информации этого ведомства. Дело в том, что мы не были готовы задать правильные вопросы о том, в какой форме они хранят машиночитаемые данные, а отдел общественной информации не был достаточно осведомлен, чтобы нам ответить. В конце концов, мы послали в ведомство нашего программиста, чтобы он встретился там со своим коллегой.
В результате разговора между профессионалами наш программист составил представление о том, какая информация хранится ведомством в электронном виде и как ее отыскать. В итоге мы переписали запрос, получив почти все, что нам было нужно, за 200 долларов, причем техническую сторону передачи информации осуществлял наш программист. Мы также попросили сделать пробную распечатку по нескольку страниц с каждого файла до передачи нам информации на магнитной ленте, чтобы убедиться в наличии нужных нам сведений. К тому же мы узнали, что местное ведомство направляет значительный объем информации в Министерство труда, куда мы также направили запрос и получили электронную версию документов в форме, которая нас больше устраивала. В Вашингтоне привыкли иметь дело с такими запросами. В общем, за 4 недели мы получили почти все сведения, которые искали. За это время мы наделали много ошибок и извлекли для себя несколько уроков: 1. Некоторые ведомства более ревностно охраняют документы в электронной форме, чем в традиционном "бумажном" исполнении, очевидно считая, что если вы забрались в их компьютер, вы доберетесь до всего. Несмотря на то, что компьютерные технологии в журналистике и без того достаточно распространены, компьютерные документы, особенно на уровне штатов, будут запрашиваться все чаще и чаще. Такого рода запросы улучшают взаимопонимание с людьми, которые реально занимаются организацией хранения документов. 2. Даже для специалиста в компьютерных делах обсуждение методов хранения документации в электронной форме может стать почти непосильной задачей. Как только выяснится, что выполнение запроса вызывает затруднения, посылайте на выручку своих программистов. Они с удовольствием оторвутся от рутинной работы и могут оказать помощь в дальнейшем. 3. Вас не должна отпугивать цена. Рассматривайте ее как исходный пункт для переговоров. Как и во всем остальном, всегда можно найти возможность удешевления. Ведомства могут специально завышать цену, чтобы от вас отделаться. 4. Необработанная информация всегда дешевле упорядоченной. Рассмотрите возможность получения необработанной информации с тем, чтобы на месте организовать ее в соответствии со своими потребностями. Берите больше, чем вам нужно. Лишнее всегда можно убрать. 5. Если вы обнаружили в ведомстве группу документов нужной тематики, сделайте пробную распечатку, прежде чем копировать весь файл, чтобы убедиться, что файл содержит все, что вам нужно. 6. Ведомства часто ведут обмен электронными документами. Проследите пути документов и обращайтесь в другие ведомства или даже частные компания, где вас могут встретить более радушно и привести компьютерный файл в форму, которая вас больше устроит". Что значит очистить данные? Надо исходить из того, что все данные изначально загрязнены и нуждаются в очистке. Вот как описывает эту проблему заместитель редактора по анализу новостной информации Роб Дэйвз из газеты "Стар-Трибьюн". Наконец споры с ведомственными юристами и чиновниками преодолены, и магнитная лента с записанной информацией поступает в редакцию. Вы устанавливаете ее на компьютере и готовы возликовать – осталось только свести цифры в таблицу, и статья готова. Верно? Верно, да не очень. Те, кто имеет дело с компьютерной информацией, знают, что сначала нужно очистить данные. Мне самому пришлось повозиться с базами данных подобно профессиональному мойщику, который орудует щеткой и мыльным раствором, чтобы убедиться в отсутствии ошибок в источнике до того, как приступить к систематизации данных, постановке задач и анализу. Что такое грязные данные? По сути дела, это любые данные, не совпадающие со спецификацией вашего документа. Но это определение несколько устарело. Давайте посмотрим на материал. Большинство баз данных состоит из записей – горизонтальных строк, содержащих данные. Эти строки могут содержать текст и цифры или их сочетание. Строки, содержащие данные, поделены на логические отрезки, называемые "полями". Каждое поле – дата рождения, идентификационный номер полицейского, сумма взноса в избирательную кампанию и тому подобное – заполняется по определенной форме. Если это доллары и центы, то 121145 означает 1211 долларов 45 центов, а не 0,121145. Когда вы имеете дело с чужой бобиной или диском или получили информацию на свой компьютер по модемной связи, вы попадаете в зависимость от методов сбора и записи данных, принятых в другой организации. Причины загрязнения данных могут быть самыми разнообразными – толстые пальцы оператора, вводившего информацию на клавиатуре, забывчивость клерка, неправильно заполнившего исходный документ, или ошибка программиста, введшего в программу неверный код. Искажение данных может вызвать бракованная лента или сбой при копировании файла на ваш персональный компьютер. Но каковы бы ни были причины, прежде чем приступить к систематизации данных, постановке задач и анализу, необходимо данные очистить. Для аналитика, работающего в области опросов общественного мнения, это значит, что ответы каждого респондента на анкету должны быть правильно отражены в базе данных. Но бывают более сложные случаи, когда для обнаружения ошибок требуется сплошной визуальный просмотр базы данных или проверка в таблицах итоговых показателей, которые не сходятся между собой. Если при просмотре базы данных вам попадется несколько строк явной тарабарщины, вероятнее всего имеет место брак пленки или шум на линии при передаче информации по модемной связи. С совершенствованием аппаратного и программного обеспечения такие случаи бывают все реже, а 10 лет назад они были в порядке вещей. Если испорчена значительная часть документа, попробуйте снова скопировать его на новую бобину или попросите еще раз передать его по электронной почте. Если же дело идет о нескольких записях, вы можете либо игнорировать эти данные, либо найти их в первоначальных документах на бумажных носителях. В процессе очистки базы данных обращайте внимание на форму записей в отдельных полях. Это значит, что поля, куда заносятся суммы в долларах, должны содержать целые числа, а не десятичные дроби, а в текстовых полях должны быть буквы, а не цифры. Если возникает проблема форматирования, существуют программы, позволяющие переформатирование полей. Иногда попадаются поля, в которых должны быть записи, а их не оказывается. В этом случае поступайте по своему разумению – не принимайте их во внимание или разыскивайте отсутствующую информацию в другом месте. Бывает так, что в соответствующем поле имеется запись о взносе в избирательную кампанию того или иного кандидата, а в поле "общая сумма взносов" стоит ноль. Вы должны определить, почему это произошло – из-за отсутствия информации (для вас это важно) или в силу технической ошибки. Многие из перечисленных проблем легко устранить, если у вас есть возможность доступа к бумажным документам и время на исправление данных. Часто не бывает ни того, ни другого. В таких случаях надо принимать решение об образе действий. Следует ли полностью отказаться от использования данных? Может быть, надо отказаться от использования данного поля и обработать оставшуюся часть информации? Или проявить творческую фантазию? Это решение можете принять только вы, поскольку вы знаете, каким образом вы хотите эти данные использовать. Успехов вам в деле очистки базы данных – пусть она всегда будет без сучка, без задоринки, пусть жесткий диск компьютера открывает все файлы, а ваш начальник понимает, что хорошая работа требует времени. В феврале и декабре 1991 года нью-йоркская газета "Ньюсдэй" опубликовала несколько статей Уолтера Фи о городском хозяйстве, которое разваливается под воздействием острых финансовых проблем. При том, что денег не хватало на жизненно важные услуги населению, одна из городских программ обогащала и без того богатых и влиятельных граждан, автоматически снижая их налоги на сотни миллионов долларов. Это так называемая программа стимулирования промышленности и торговли исходила скорее из места расположения предприятий, чем из объективной необходимости. В 1991 году не был собран и не поступил в бюджет города налог с недвижимости на сумму 100 млн. долларов. Тот же Дэйвз дает несколько советов, как избежать упомянутых проблем или по меньшей мере облегчить их решение… Когда вы запрашиваете машиночитаемую информацию, 1. Постарайтесь, чтобы эта информация поступила на ваш компьютер по модемной связи. Это снимет проблемы совместимости. 2. Обеспечьте всю документацию, например: a) образец формы, с которой вводилась информация; b) инструкции по вводу данных; c) стандарт записи, то есть наименования полей, их размеры и формат по каждой записи; d) маркировку или значение специальных кодов в каждом из полей. 3. Проверьте, чтобы бобина или дискета открывались на вашем компьютере. Желательно, чтобы ваш эксперт обсудил с экспертом источника получения электронной информации: a) плотность записи на магнитной ленте, измеряемую в байтах на дюйм (BPI). Современный стандарт – 6250 BPI. Ваш компьютер должен быть рассчитан на такую плотность. Это же относится и к дискетам. b) размер блока. Компьютеры считывают информацию более эффективно, если записи сгруппированы в блоки. Размеры блока можно менять, если ваш компьютер не сможет считывать информацию. c) записана ли информация в формате ASCII (американский стандартный код для обмена информацией) или EBCDIC (расширенный двоично-десятичный код для обмена информацией). Любой компьютерный язык хорош, если ваш компьютер его понимает. Большинство этих предосторожностей связано с программным обеспечением персонального компьютера. Возможно, при загрузке данных в стационарный компьютер вашей редакции проблем не будет, но все-таки лучше заранее получить ответы на все вопросы и внести нужные коррективы. В марте 1991 года газета "Сент Питерсберг Таймс" (штат Флорида) опубликовала серию статей о злоупотреблениях в судах, когда закон штата, который давал шанс на исправление лицам, впервые арестованным за распространение марихуаны, использовался для скрытия судимости за более серьезные преступления. Через некоторое время была опубликована статья с конкретными обвинениями в адрес 4 судей.
<< | >>
Источник: Уллмен Дж.. ЖУРНАЛИСТСКИЕ РАССЛЕДОВАНИЯ: СОВРЕМЕННЫЕ МЕТОДЫ И ТЕХНИКА. 1998 {original}

Еще по теме Да и нет.:

  1. «У нас нет закона, нет денег, нет торговли...»: итоги кризиса в экономике
  2. «Нет учителя, нет ученика, нет учения» Рама Кравел (Лакхнау, 1993)
  3. «Нет вопросов, нет ответов» Геннер Риттер (Лакхнау, 1993)
  4. «НЕТ ПРОБЛЕМ!» = НЕТ И МЫСЛЕЙ
  5. НЕТ, НЕ ВИНОВЕН!
  6. «НЕТ!»—ДВОРЯНСКОЙ ПАЛАТЕ
  7. Если ребенок часто говорит «нет»
  8. У климата нет нормы
  9. НЕТ ТЕХОСМОТР ПРОЩАЙ НОМЕРА?
  10. Теория, которой нет
  11. Смерти нет