Новые публикации

Javascript Disabled Detected

You currently have javascript disabled. Several functions may not work. Please re-enable javascript to access full functionality.

Ruby CSV merge rows

Started By arthur1981, авг 31 2014 21:15

Ruby CSV

Лучший Ответ arthur1981, 01 сентября 2014 - 10:50

На совсем скорую руку набросал коду:

c.group_by {|e| [ e[:url1], e[:url2] ] }.map {|_,v| v = v.map {|a| a.reject {|_,y| y.blank?} }; v.reduce({}, :merge)}

Где c - массив, который содержит все rows. Т.е тебе из файла вначале надо все вычитать в один массив.

Тут главная фишка в том, чтобы перед слиянием из слияемых хэшей выкинуть те значения, которые пустые. Иначе поведение может быть непредсказуемым при слиянии.
Просто сказу сразу, что если ты делаешь слияние двух хешей, и у них в одном месте в одном ключе разные значение, то конечное значение будет равно последнему.

{:one =>1}.merge({:one => 2}) # => {:one => 2}

Вот )) Не уверен, конечно, что идеально работает, но поидее должно )) Если че - потом еще взгляну, допилю, если надо.

Большое спасибо за помощь!

Перейти к полному сообщению

Вы не можете создать новую тему
Please log in to reply

8 ответов в этой теме

#1 arthur1981

Новобранец
14 сообщений

Отправлено 31 августа 2014 - 21:15

Добрый день! Может кто знает как соединить ряды (rows) CSV файла на руби в по такому принципу

Я ввожу CSV фаил с такой таблицей:

---url1------------|------url2------------|---date visited----|------time visited---|----ip from-----|-links cliked
--myhome.com--|--friendhome.com--|---16/02/10-------|-----------------------|-----------------|--------------
--myhome.com--|--friendhome.com--|--------------------|--------12.45---------|-192.168.1.1-- |--------------
--myhome.com--|--friendhome.com--|--------------------|-----------------------|-----------------|-link1-------
--someone.com--|--bigimot.com------|----13/10/14------|-----------------------|-----------------|--link2
--someone.com--|---bigimot.com-----|--------------------|--------11.15---------|--199.168.1.1--|--------------

Вот что должно получится:

---url1------------|------url2------------|---date visited----|------time visited---|----ip from-----|-links cliked
--myhome.com--|--friendhome.com--|---16/02/10-------|--------12.45--------|-192.168.1.1-- |--link1-------
--someone.com--|--bigimot.com------|----13/10/14------|--------11.15--------|--199.168.1.1--|--link2----

Тоесть код должен находить пару (url1 и url2) комбинация которых повторяется в таблице больше одного раза и по этой паре собрать информацию об этой паре в один ряд и удалить повторяющиеся ряды, информация по каждой паре (url1 и url2) уже уникальна просто разбросанна по разным рядам.

Вот мой код

require 'csv'

def merge_csv_rows(orig_file, merged_file, keys)

rows = Hash.new { |h, k| h[k] = Hash.new }

CSV.open orig_file, 'r', headers: true, col_sep: ?;, :quote_char => "\x00" do |orig|

orig.each do |row|

key = row.values_at(*keys)

values = row.to_hash.reject {|k,v| v.nil? }

rows[key].merge!values.to_hash #do |_,old, new|

end

CSV.open merged_file, 'w', headers: orig.headers, write_headers: true do |merged|

rows.each do |key, values|

fields = orig.headers.map do |header|

if keys.include? header

key[keys.index header]

else

values[header]

end

puts fields

merged << (CSV::Row.new orig.headers, fields)

end

В моем варианте кода ошибка - получаю фаил с хидерами и с данными но тоже только один ряд, на пример если должно получится:
---url1------------|------url2------------|---date visited----|------time visited---|----ip from-----|-links cliked
--myhome.com--|--friendhome.com--|---16/02/10-------|--------12.45--------|-192.168.1.1-- |--link1-------
--someone.com--|--bigimot.com------|----13/10/14------|--------11.15--------|--199.168.1.1--|--link2----

То я получаю только:
---url1------------|------url2------------|---date visited----|------time visited---|----ip from-----|-links cliked
--myhome.com--|--friendhome.com--|---16/02/10-------|--------12.45--------|-192.168.1.1-- |--link1-------

Кто может помогите пожалуйста!!!
Благодарю всех за помощь!!!

Наверх

#2 Дык

Постоялец
10 897 сообщений

Откуда:/dev/null

Отправлено 31 августа 2014 - 21:34

На скорую руку такая идея -> group_by { |entry| [entry.url1, entry.url2] }, а затем делаешь map на полученные элементы в группах и делаешь merge итеративно, как хэш.

Но это, вообще, первая намётка, что в голову пришло. Я точно не помню, как делается multi group. Могу потом уточнить =)

Вначале делаю, потом думаю

Наверх

#3 arthur1981

Новобранец
14 сообщений

Отправлено 01 сентября 2014 - 00:07

На скорую руку такая идея -> group_by { |entry| [entry.url1, entry.url2] }, а затем делаешь map на полученные элементы в группах и делаешь merge итеративно, как хэш.

Но это, вообще, первая намётка, что в голову пришло. Я точно не помню, как делается multi group. Могу потом уточнить =)

Спасибо большое за помощь!!! Если можете, вышлите свой вариант кода пожалуйса, ато уже все перепробывал что мог!

Наверх

#4 Дык

Постоялец
10 897 сообщений

Откуда:/dev/null

Отправлено 01 сентября 2014 - 08:54

Спасибо большое за помощь!!! Если можете, вышлите свой вариант кода пожалуйса, ато уже все перепробывал что мог!

На совсем скорую руку набросал коду:

c.group_by {|e| [ e[:url1], e[:url2] ] }.map {|_,v| v = v.map {|a| a.reject {|_,y| y.blank?} }; v.reduce({}, :merge)}

Где c - массив, который содержит все rows. Т.е тебе из файла вначале надо все вычитать в один массив.

Тут главная фишка в том, чтобы перед слиянием из слияемых хэшей выкинуть те значения, которые пустые. Иначе поведение может быть непредсказуемым при слиянии.
Просто сказу сразу, что если ты делаешь слияние двух хешей, и у них в одном месте в одном ключе разные значение, то конечное значение будет равно последнему.

{:one =>1}.merge({:one => 2}) # => {:one => 2}

Вот )) Не уверен, конечно, что идеально работает, но поидее должно )) Если че - потом еще взгляну, допилю, если надо.

Сообщение изменено: Akhenaton (01 сентября 2014 - 08:58 )

Вначале делаю, потом думаю

Наверх

#5 arthur1981

Новобранец
14 сообщений

Отправлено 01 сентября 2014 - 10:50 Лучший Ответ

На совсем скорую руку набросал коду:

c.group_by {|e| [ e[:url1], e[:url2] ] }.map {|_,v| v = v.map {|a| a.reject {|_,y| y.blank?} }; v.reduce({}, :merge)}

Где c - массив, который содержит все rows. Т.е тебе из файла вначале надо все вычитать в один массив.

Тут главная фишка в том, чтобы перед слиянием из слияемых хэшей выкинуть те значения, которые пустые. Иначе поведение может быть непредсказуемым при слиянии.
Просто сказу сразу, что если ты делаешь слияние двух хешей, и у них в одном месте в одном ключе разные значение, то конечное значение будет равно последнему.

{:one =>1}.merge({:one => 2}) # => {:one => 2}

Вот )) Не уверен, конечно, что идеально работает, но поидее должно )) Если че - потом еще взгляну, допилю, если надо.

Большое спасибо за помощь!

Наверх

#6 Дык

Постоялец
10 897 сообщений

Откуда:/dev/null

Отправлено 01 сентября 2014 - 17:15

Работает-то хоть? )) Я написал это не тестируя ничего )

Вначале делаю, потом думаю

Наверх

#7 arthur1981

Новобранец
14 сообщений

Отправлено 02 сентября 2014 - 10:28

если удаляю хидеры тогда работает

если удаляю хидеры тогда работает

у меня в начальном файле с верху идет сначала два ряда хидеров, в этом проблема сейчас

Наверх

#8 Дык

Постоялец
10 897 сообщений

Откуда:/dev/null

Отправлено 02 сентября 2014 - 11:31

Ну вот это и есть тот случай неопределенности при слиянии. Поэтому просто убирай. Все равно это не данные, а шум лишний.

А еще у тебя может быть такая проблема, что пара <url1, url2> будет не равна <url2, url1>

Например, --myhome.com--|--friendhome.com-- и --friendhome.com--|--myhome.com--

Группировка по ним даст два сета, вместо одного.

Вначале делаю, потом думаю

Наверх

#9 arthur1981

Новобранец
14 сообщений

Отправлено 02 сентября 2014 - 12:11

Ну вот это и есть тот случай неопределенности при слиянии. Поэтому просто убирай. Все равно это не данные, а шум лишний.

А еще у тебя может быть такая проблема, что пара <url1, url2> будет не равна <url2, url1>

Например, --myhome.com--|--friendhome.com-- и --friendhome.com--|--myhome.com--

Группировка по ним даст два сета, вместо одного.

Да такая проблема уже есть, думаю ее так решить row[0], row[1] = row[1], row[0]

Наверх

Вернуться в Программирование

Читать еще на тему: Ruby, CSV

Тематические форумы → Software & Designing → Программирование → Mongodb, Mongoid как ускорить запись данных в Mongodb Автор темы: arthur1981, 23 сен 2014 Mongodb, Mongoid, Ruby	0 ответов 1 304 Views	arthur1981 23 сен 2014
Тематические форумы → Software & Designing → Программирование → Как упорядочить array of hashes в порядке другого масива Автор темы: arthur1981, 16 сен 2014 ruby, arrays, hash	2 ответов 988 Views	Дык 16 сен 2014
Тематические форумы → Software & Designing → Программирование → Ruby on Rails generate CSV file form Mongoid data Автор темы: arthur1981, 15 сен 2014 Ruby on Rails, Ruby, Mongoid	2 ответов 1 022 Views	arthur1981 18 сен 2014
Тематические форумы → Software & Designing → Программирование → Ruby on Rails перенос данных из CSV в Mongodb Автор темы: arthur1981, 07 сен 2014 Ruby on Rails, Mongodb, CSV	4 ответов 1 391 Views	arthur1981 07 сен 2014
Тематические форумы → Software & Designing → Программирование → Вопросы и Ответы Автор темы: еть., 25 ноя 2005 PHP, Javascript, HTML/CSS, SQL и 5 еще... 1 2 3 14 →	POP 416 ответов 88 715 Views	DJsanek 19 ноя 2021

Ruby CSV merge rows

Читать еще на тему: Ruby, CSV

Войти