Использование stringstream вместо `sscanf` для синтаксического анализа строки фиксированного формата
Я хотел бы использовать средства, предоставленные stringstream
, для извлечения значений из фиксированного формата string
в качестве альтернативы безопасному типу sscanf
. Как я могу это сделать?
Рассмотрим следующий конкретный вариант использования. У меня есть std::string
в следующем фиксированном формате:
YYYYMMDDHHMMSSmmm
Где:
YYYY = 4 digits representing the year
MM = 2 digits representing the month ('0' padded to 2 characters)
DD = 2 digits representing the day ('0' padded to 2 characters)
HH = 2 digits representing the hour ('0' padded to 2 characters)
MM = 2 digits representing the minute ('0' padded to 2 characters)
SS = 2 digits representing the second ('0' padded to 2 characters)
mmm = 3 digits representing the milliseconds ('0' padded to 3 characters)
Раньше я делал что-то в этом направлении:
string s = "20101220110651184";
unsigned year = 0, month = 0, day = 0, hour = 0, minute = 0, second = 0, milli = 0;
sscanf(s.c_str(), "%4u%2u%2u%2u%2u%2u%3u", &year, &month, &day, &hour, &minute, &second, &milli );
Значения ширины - это магические числа, и это нормально. Я хотел бы использовать потоки для извлечения этих значений и преобразования их в unsigned
в интересах безопасности типов. Но когда я пробую это:
stringstream ss;
ss << "20101220110651184";
ss >> setw(4) >> year;
year
сохраняет значение 0
. Это должно быть 2010
.
Как мне делать то, что я пытаюсь сделать? Я не могу использовать Boost или любую другую стороннюю библиотеку, и я не могу использовать С++ 0x.
Ответы
Ответ 1
Одним из наиболее эффективных вариантов было бы создание некоторых временных строк и использование лексического перевода:
std::string s("20101220110651184");
int year = lexical_cast<int>(s.substr(0, 4));
// etc.
lexical_cast
может быть реализована всего несколькими строками кода; Херб Саттер представил свой минимум в своей статье, String Formatters of Manor Farm.
Это не совсем то, что вы ищете, но это безопасный способ извлечь поля фиксированной ширины из строки.
Ответ 2
Я использую следующее, это может быть полезно для вас:
template<typename T> T stringTo( const std::string& s )
{
std::istringstream iss(s);
T x;
iss >> x;
return x;
};
template<typename T> inline std::string toString( const T& x )
{
std::ostringstream o;
o << x;
return o.str();
}
Эти шаблоны требуют:
#include <sstream>
Использование
long date;
date = stringTo<long>( std::cin );
YMMV
Ответ 3
Erm, если он фиксированный формат, почему бы вам не сделать это?
std::string sd("20101220110651184");
// insert spaces from the back
sd.insert(14, 1, ' ');
sd.insert(12, 1, ' ');
sd.insert(10, 1, ' ');
sd.insert(8, 1, ' ');
sd.insert(6, 1, ' ');
sd.insert(4, 1, ' ');
int year, month, day, hour, min, sec, ms;
std::istringstream str(sd);
str >> year >> month >> day >> hour >> min >> sec >> ms;
Ответ 4
Из здесь, вы можете найти это полезным:
template<typename T, typename charT, typename traits>
std::basic_istream<charT, traits>&
fixedread(std::basic_istream<charT, traits>& in, T& x)
{
if (in.width( ) == 0)
// Not fixed size, so read normally.
in >> x;
else {
std::string field;
in >> field;
std::basic_istringstream<charT, traits> stream(field);
if (! (stream >> x))
in.setstate(std::ios_base::failbit);
}
return in;
}
setw()
применим только к чтению строк строк. Вышеупомянутая функция использует этот факт, считывая строку и затем применяя ее к требуемому типу. Вы можете использовать его в комбинации с setw()
или ss.width(w)
для чтения в поле фиксированной ширины любого типа.
Ответ 5
template<typename T>
struct FixedRead {
T& content;
int size;
FixedRead(T& content, int size) :
content(content), size(size) {
assert(size != 0);
}
template<typename charT, typename traits>
friend std::basic_istream<charT, traits>&
operator >>(std::basic_istream<charT, traits>& in, FixedRead<T> x) {
int orig_w = in.width();
std::basic_string<charT, traits> o;
in >> setw(x.size) >> o;
std::basic_stringstream<charT, traits> os(o);
if (!(os >> x.content))
in.setstate(std::ios_base::failbit);
in.width(orig_w);
return in;
}
};
template<typename T>
FixedRead<T> fixed_read(T& content, int size) {
return FixedRead<T>(content, size);
}
void test4() {
stringstream ss("20101220110651184");
int year = 0, month = 0, day = 0, hour = 0, min = 0, sec = 0, ms = 0;
ss >> fixed_read(year, 4) >> fixed_read(month, 2) >> fixed_read(day, 2)
>> fixed_read(hour, 2) >> fixed_read(min, 2) >> fixed_read(sec, 2)
>> fixed_read(ms, 4);
cout << "year:" << year << "," << "month:" << month << "," << "day:" << day
<< "," << "hour:" << hour << "," << "min:" << min << "," << "sec:"
<< sec << "," << "ms:" << ms << endl;
}
Ответ 6
Решение ps5mh действительно приятно, но не работает для синтаксического анализа строк, содержащих белые пробелы. Следующее решение устраняет это:
template<typename T, typename T2>
struct FixedRead
{
T& content;
T2& number;
int size;
FixedRead(T& content, int size, T2 & number) :
content(content), number(number), size(size)
{
assert (size != 0);
}
template<typename charT, typename traits>
friend std::basic_istream<charT, traits>&
operator >>(std::basic_istream<charT, traits>& in, FixedRead<T,T2> x)
{
if (!in.eof() && in.good())
{
std::vector<char> buffer(x.size+1);
in.read(buffer.data(), x.size);
int num_read = in.gcount();
buffer[num_read] = 0; // set null-termination of string
std::basic_stringstream<charT, traits> os(buffer.data());
if (!(os >> x.content))
in.setstate(std::ios_base::failbit);
else
++x.number;
}
return in;
}
};
template<typename T, typename T2>
FixedRead<T,T2> fixedread(T& content, int size, T2 & number) {
return FixedRead<T,T2>(content, size, number);
}
Это можно использовать как:
std::string s = "90007127 19000715790007397";
std::vector<int> ints(5);
int num_read = 0;
std::istringstream in(s);
in >> fixedread(ints[0], 8, num_read)
>> fixedread(ints[1], 8, num_read)
>> fixedread(ints[2], 8, num_read)
>> fixedread(ints[3], 8, num_read)
>> fixedread(ints[4], 8, num_read);
// output:
// num_read = 4 (like return value of sscanf)
// ints = 90007127, 1, 90007157, 90007397
// ints[4] is uninitialized