Ruby извлекает данные из строки с помощью regex

Я делаю некоторые веб-скребки, это формат данных

Sr.No.  Course_Code Course_Name Credit  Grade   Attendance_Grade

Действительная строка, которую я получаю, имеет следующий вид

1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M

То, что меня интересует, это Course_Code, Course_Name и Grade, в этом примере значения будут

Course_Code : CA727
Course_Name : PRINCIPLES OF COMPILER DESIGN
Grade : A

Есть ли способ использовать регулярное выражение или какой-либо другой метод, чтобы легко извлекать эту информацию вместо ручного разбора по строке. Я использую jruby в режиме 1.9.

Ответы

Ответ 1

Давайте использовать Ruby named capture и самоописывающее регулярное выражение!

course_line = /
    ^                  # Starting at the front of the string
    (?<SrNo>\d+)       # Capture one or more digits; call the result "SrNo"
    \s+                # Eat some whitespace
    (?<Code>\S+)       # Capture all the non-whitespace you can; call it "Code"
    \s+                # Eat some whitespace
    (?<Name>.+\S)      # Capture as much as you can
                       # (while letting the rest of the regex still work)
                       # Make sure you end with a non-whitespace character.
                       # Call this "Name"
    \s+                # Eat some whitespace
    (?<Credit>\S+)     # Capture all the non-whitespace you can; call it "Credit"
    \s+                # Eat some whitespace
    (?<Grade>\S+)      # Capture all the non-whitespace you can; call it "Grade"
    \s+                # Eat some whitespace
    (?<Attendance>\S+) # Capture all the non-whitespace; call it "Attendance"
    $                  # Make sure that we're at the end of the line now
/x

str = "1   CA727   PRINCIPLES OF COMPILER DESIGN   3   A   M"
parts = str.match(course_line)

puts "
Course Code: #{parts['Code']}
Course Name: #{parts['Name']}
      Grade: #{parts['Grade']}".strip

#=> Course Code: CA727
#=> Course Name: PRINCIPLES OF COMPILER DESIGN
#=>       Grade: A

Ответ 2

Просто для удовольствия:

str = "1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M"
tok = str.split /\s+/
data = {'Sr.No.' => tok.shift, 'Course_Code' => tok.shift, 'Attendance_Grade' => tok.pop,'Grade' => tok.pop, 'Credit' => tok.pop, 'Course_Name' => tok.join(' ')}

Ответ 3

Я правильно вижу, что разделитель всегда 3 пробела? Тогда просто:

serial_number, course_code, course_name, credit, grade, attendance_grade = 
  the_string.split('   ')

Ответ 4

Предполагая, что все, кроме описания курса, состоит из отдельных слов, и нет начальных или конечных пробелов:

/^(\w+)\s+(\w+)\s+([\w\s]+)\s+(\w+)\s+(\w+)\s+(\w+)$/

В вашей строке примера будут отображаться следующие группы совпадений:

1.  1
2.  CA727
3.  PRINCIPLES OF COMPILER DESIGN
4.  3
5.  A
6.  M

Ответ 5

Этот ответ не очень идиоматический Ruby, потому что в этом случае я считаю, что ясность лучше, чем умение. Все, что вам действительно нужно сделать, чтобы решить проблему, которую вы описали, состоит в том, чтобы разделить ваши строки с пробелами:

line = '1   CA727   PRINCIPLES OF COMPILER DESIGN   3   A   M'
array = line.split /\t|\s{2,}/
puts array[1], array[2], array[4]

Это предполагает, что ваши данные являются регулярными. Если нет, вам нужно будет усерднее настроить регулярное выражение и, возможно, обработать крайние случаи, когда у вас нет необходимого количества полей.

Примечание для постера

OP изменил строку ввода и изменил разделитель на одно пространство между полями. Я оставлю свой ответ на исходный вопрос as-is (включая исходную строку ввода для справки), поскольку он может помочь другим, кроме OP, в менее конкретном случае.