Ruby извлекает данные из строки с помощью regex
Я делаю некоторые веб-скребки, это формат данных
Sr.No. Course_Code Course_Name Credit Grade Attendance_Grade
Действительная строка, которую я получаю, имеет следующий вид
1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M
То, что меня интересует, это Course_Code, Course_Name и Grade, в этом примере значения будут
Course_Code : CA727
Course_Name : PRINCIPLES OF COMPILER DESIGN
Grade : A
Есть ли способ использовать регулярное выражение или какой-либо другой метод, чтобы легко извлекать эту информацию вместо ручного разбора по строке.
Я использую jruby в режиме 1.9.
Ответы
Ответ 1
Давайте использовать Ruby named capture и самоописывающее регулярное выражение!
course_line = /
^ # Starting at the front of the string
(?<SrNo>\d+) # Capture one or more digits; call the result "SrNo"
\s+ # Eat some whitespace
(?<Code>\S+) # Capture all the non-whitespace you can; call it "Code"
\s+ # Eat some whitespace
(?<Name>.+\S) # Capture as much as you can
# (while letting the rest of the regex still work)
# Make sure you end with a non-whitespace character.
# Call this "Name"
\s+ # Eat some whitespace
(?<Credit>\S+) # Capture all the non-whitespace you can; call it "Credit"
\s+ # Eat some whitespace
(?<Grade>\S+) # Capture all the non-whitespace you can; call it "Grade"
\s+ # Eat some whitespace
(?<Attendance>\S+) # Capture all the non-whitespace; call it "Attendance"
$ # Make sure that we're at the end of the line now
/x
str = "1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M"
parts = str.match(course_line)
puts "
Course Code: #{parts['Code']}
Course Name: #{parts['Name']}
Grade: #{parts['Grade']}".strip
#=> Course Code: CA727
#=> Course Name: PRINCIPLES OF COMPILER DESIGN
#=> Grade: A
Ответ 2
Просто для удовольствия:
str = "1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M"
tok = str.split /\s+/
data = {'Sr.No.' => tok.shift, 'Course_Code' => tok.shift, 'Attendance_Grade' => tok.pop,'Grade' => tok.pop, 'Credit' => tok.pop, 'Course_Name' => tok.join(' ')}
Ответ 3
Я правильно вижу, что разделитель всегда 3 пробела? Тогда просто:
serial_number, course_code, course_name, credit, grade, attendance_grade =
the_string.split(' ')
Ответ 4
Предполагая, что все, кроме описания курса, состоит из отдельных слов, и нет начальных или конечных пробелов:
/^(\w+)\s+(\w+)\s+([\w\s]+)\s+(\w+)\s+(\w+)\s+(\w+)$/
В вашей строке примера будут отображаться следующие группы совпадений:
1. 1
2. CA727
3. PRINCIPLES OF COMPILER DESIGN
4. 3
5. A
6. M
Ответ 5
Этот ответ не очень идиоматический Ruby, потому что в этом случае я считаю, что ясность лучше, чем умение. Все, что вам действительно нужно сделать, чтобы решить проблему, которую вы описали, состоит в том, чтобы разделить ваши строки с пробелами:
line = '1 CA727 PRINCIPLES OF COMPILER DESIGN 3 A M'
array = line.split /\t|\s{2,}/
puts array[1], array[2], array[4]
Это предполагает, что ваши данные являются регулярными. Если нет, вам нужно будет усерднее настроить регулярное выражение и, возможно, обработать крайние случаи, когда у вас нет необходимого количества полей.
Примечание для постера
OP изменил строку ввода и изменил разделитель на одно пространство между полями. Я оставлю свой ответ на исходный вопрос as-is (включая исходную строку ввода для справки), поскольку он может помочь другим, кроме OP, в менее конкретном случае.