Статья. Опубликована в журнале Открытые системы. СУБД. — 2012. —
№04 . — 3 c.
Еще недавно практически все, что связано со статистической
обработкой данных, прочно ассоциировалось с пакетами SPSS и SAS, но
за несколько лет в лидеры вышел язык R, и чем дальше, тем сильнее
укрепляются его позиции. За последние несколько лет весьма скромно
начинавший свое существование язык R приобрел невероятную
популярность, став одним из основных инструментов для специалистов
по статистике. По оценке аналитиков, тех, кто пишет на R, уже свыше
двух миллионов, и их число постоянно растет — язык постепенно
превращается в стандарт де-факто для категории специалистов,
называющих себя data scientist. Язык R признан в качестве
аналитического мэйнстрима, он используется во множестве
организаций, встраивается во всевозможные системы, разработчики
пишут для него пакеты, адаптированные к конкретным отраслям.
Например, в The New York Times активно используются
визуализационные возможности R при оценке новостных лент, а одно из
самых крупных туристических агентств Orbitz с помощью R решает
задачи, связанные с оценкой конкурентоспособности своих продуктов.
Это классические примеры использования R, а новая волна интереса к
языку возникла в связи с возможностью применения систем с массовым
параллелизмом (MPP) и таких платформ, как Hadoop, способных в
сочетании с реляционными СУБД хранить петабайты структурированных и
квазиструктурированных данных, которые можно использовать для
аналитических задач. Язык R обеспечивает аналитикам доступ к таким
объемам данных, которые при работе на обычных серверах невозможно
было представить.