Лучший способ разделить строку на массив строк в C/С++ с использованием пробелов в качестве разделителя
Извините, мой C/С++ не так уж хорош, но следующий существующий код выглядит как мусор даже для меня. У него также есть ошибка - не удается, когда str = "07/02/2010" завершено '\ 0' -. Я думаю, что вместо исправления ошибки он также может быть переписан. В Python это просто 'kas\nhjkfh kjsdjkasf'.split()
. Я знаю, что это код C-ish, но не может быть так сложно разбить строку! Придерживаясь одной и той же подписи, и без использования дополнительных библиотек, как я могу ее улучшить - сделать ее коротким и сладким? Я могу сказать, что этот код пахнет, например, из-за предложения else в конце.
ЛИНИЯ, КОТОРАЯ НЕУДАЧИ:
_tcsncpy_s(
s.GetBuffer((int) (nIndex-nLast)),
nIndex-nLast,
psz+nLast,
(size_t) (nIndex-nLast)
);
С строкой "07/02/2010", заканчивающейся "\ 0", она попытается записать 11 символов в буфер длиной всего 10 символов.
ПОЛНАЯ ФУНКЦИЯ:
#define
// This will return the text string as a string array
// This function is called from SetControlText to parse the
// text string into an array of CStrings that the control
// Gadgets will attempt to interpret
BOOL CLVGridDateTimeCtrl::ParseTextWithCurrentFormat(const CString& str, const CGXStyle* pOldStyle, CStringArray& strArray )
{
// Unused:
pOldStyle;
// we assume that the significant segments are seperated by space
// Please change m_strDelim to add other delimiters
CString s;
LPCTSTR psz = (LPCTSTR) str;
BOOL bLastCharSpace = FALSE;
DWORD size = str.GetLength()+1;
// (newline will start a new row, tab delimiter will
// move to the next column).
// parse buffer (DBCS aware)
for (DWORD nIndex = 0, nLast = 0; nIndex < size; nIndex += _tclen(psz+nIndex))
{
// check for a delimiter
if (psz[nIndex] == _T('\0') || _tcschr(_T("\r\n"), psz[nIndex]) || _tcschr(_T(" "), psz[nIndex])
||!_tcscspn(&psz[nIndex], (LPCTSTR)m_strDelim))
{
s.ReleaseBuffer();
s.Empty();
// abort parsing the string if next char
// is an end-of-string
if (psz[nIndex] == _T('\0'))
{
if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
nIndex++;
_tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
nIndex-nLast,
psz+nLast,
(size_t) (nIndex-nLast));
CString temStr = s;
strArray.Add(temStr);
temStr.Empty();
break;
}
else if (_tcscspn(&psz[nIndex], (LPCTSTR)m_strDelim) == 0 && !bLastCharSpace)
{
if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
nIndex++;
_tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
nIndex-nLast,
psz+nLast,
(size_t) (nIndex-nLast));
CString temStr = s;
strArray.Add(temStr);
temStr.Empty();
bLastCharSpace = TRUE;
// abort parsing the string if next char
// is an end-of-string
if (psz[nIndex+1] == _T('\0'))
break;
}
// Now, that the value has been copied to the cell,
// let check if we should jump to a new row.
else if (_tcschr(_T(" "), psz[nIndex]) && !bLastCharSpace)
{
if (psz[nIndex] == _T('\r') && psz[nIndex+1] == _T('\n'))
nIndex++;
_tcsncpy_s(s.GetBuffer((int) (nIndex-nLast)),
nIndex-nLast,
psz+nLast,
(size_t) (nIndex-nLast));
CString temStr = s;
strArray.Add(temStr);
temStr.Empty();
bLastCharSpace = TRUE;
// abort parsing the string if next char
// is an end-of-string
if (psz[nIndex+1] == _T('\0'))
break;
}
nLast = nIndex + _tclen(psz+nIndex);
}
else
{
// nLast = nIndex + _tclen(psz+nIndex);
bLastCharSpace = FALSE;
}
}
if (strArray.GetSize())
return TRUE;
else
return FALSE;
}
EDIT:
m_strDelim = _T(",");
, и эта переменная-член используется только в этой функции. Я предполагаю, что теперь вижу точку токенизации - она пытается разобрать дату и время... подождите, есть еще! Вот код, который вызывает эту функцию ниже. Пожалуйста, помогите мне улучшить это. Некоторые из моих сотрудников утверждают, что С# делает их не более производительными, чем С++. Раньше я чувствовал себя идиотом за то, что не мог сказать обо мне то же самое.
// SetControlText will attempt to convert the text to a valid date first with
// the help of COleDateTime and then with the help of the Date control and the
// current format
BOOL CLVGridDateTimeCtrl::ConvertControlTextToValue(CString& str, ROWCOL nRow, ROWCOL nCol, const CGXStyle* pOldStyle)
{
CGXStyle* pStyle = NULL;
BOOL bSuccess = FALSE;
if (pOldStyle == NULL)
{
pStyle = Grid()->CreateStyle();
Grid()->ComposeStyleRowCol(nRow, nCol, pStyle);
pOldStyle = pStyle;
}
// allow only valid input
{
// First do this
CLVDateTime dt;
if (str.IsEmpty())
{
;
// if (Grid()->IsCurrentCell(nRow, nCol))
// Reset();
bSuccess = TRUE;
}
else if (dt.ParseDateTime(str,CLVGlobals::IsUSDateFormat()) && (DATE) dt != 0)
{
SetDateTime(dt);
if (m_bDateValueAsNumber)
str.Format(_T("%g"), (DATE) dt);
else
str = dt.Format();
bSuccess = TRUE;
}
else
{
// parse the string using the current format
CStringArray strArray;
if (!ParseTextWithCurrentFormat(str, pOldStyle, strArray))
return FALSE;
UpdateNullStatus(m_TextCtrlWnd);
SetFormat(m_TextCtrlWnd, *pOldStyle);
int nArrIndex = 0;
for(int i=0; i<m_TextCtrlWnd.m_gadgets.GetSize(); i++)
{
int val = m_TextCtrlWnd.m_gadgets[i]->GetValue();
// s.Empty();
if(m_TextCtrlWnd.m_gadgets[i]->IsKindOf(RUNTIME_CLASS(SECDTNumericGadget)))
{
// TRACE(_T("The value %s\n"), strArray[nArrIndex]);
((CLVDTNumericGadget*)m_TextCtrlWnd.m_gadgets[i])->m_nNewValue = _ttoi(strArray[nArrIndex]);
nArrIndex++;
if (nArrIndex>strArray.GetUpperBound())
break;
}
else if(m_TextCtrlWnd.m_gadgets[i]->IsKindOf(RUNTIME_CLASS(SECDTListGadget)) && val!=-1)
{
int nIndex = ((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->FindMatch(strArray[nArrIndex], ((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->GetValue()+1);
if (nIndex!=-1)
{
// TRACE(_T("The value %s\n"), strArray[nArrIndex]);
((CLVDTListGadget*)m_TextCtrlWnd.m_gadgets[i])->SetValue(nIndex);
nArrIndex++;
if (nArrIndex>strArray.GetUpperBound())
break;
}
}
CLVDBValue dbDate = m_TextCtrlWnd.GetDateTime();
if (dbDate.IsNull())
str = _T("");
else
{
CLVDateTime dt = (CLVDateTime)dbDate;
if (m_bDateValueAsNumber)
str.Format(_T("%g"), (DATE) dt);
else
str = dt.Format();
}
}
bSuccess = TRUE;
}
}
if (pStyle)
Grid()->RecycleStyle(pStyle);
return bSuccess;
}
Ответы
Ответ 1
String Toolkit Library (Strtk) имеет следующее решение вашей проблемы:
#include <string>
#include <deque>
#include "strtk.hpp"
int main()
{
std::string data("kas\nhjkfh kjsdjkasf");
std::deque<std::string> str_list;
strtk::parse(data, ", \r\n", str_list);
return 0;
}
Дополнительные примеры можно найти Здесь
Ответ 2
В С++, возможно, проще всего использовать stsringstream
:
std::istringstream buffer("kas\nhjkfh kjsdjkasf");
std::vector<std::string> strings;
std::copy(std::istream_iterator<std::string>(buffer),
std::istream_iterator<std::string>(),
std::back_inserter(strings));
Я не пытался придерживаться точно такой же подписи, главным образом потому, что большая часть ее нестандартна, поэтому она вообще не применяется к С++.
Другой возможностью было бы использовать Boost::tokenizer
, хотя очевидно, что это связано с другой библиотекой, поэтому я не буду пытаться ее покрыть более подробно.
Я не уверен, что это соответствует "синтаксису bizarro" или нет. Возможно, мне придется немного поработать над этой частью...
Изменить: у меня есть - вместо этого инициализируйте вектор:
std::istringstream buffer("kas\nhjkfh kjsdjkasf");
std::vector<std::string> strings(
(std::istream_iterator<std::string>(buffer)),
std::istream_iterator<std::string>());
Часть "bizarro" состоит в том, что без дополнительных скобок вокруг первого аргумента это вызовет "самый неприятный синтаксический разбор", поэтому он будет объявлять функцию вместо определения вектора.: -)
Edit2: Что касается редактирования вопроса, кажется, почти невозможно ответить напрямую - это зависит от слишком большого количества типов (например, CGXStyle, CLVDateTime), которые не являются ни стандартными, ни объясняемыми. Я, во-первых, не могу полностью его проследить. Оффлайн, это выглядит довольно плохой дизайн, позволяя пользователю вводить вещи, которые более или менее неоднозначны, а затем пытается разобраться в беспорядке. Лучше использовать элемент управления, который позволяет вводить однозначный ввод, и вы можете просто прочитать некоторые поля, которые содержат дату и время напрямую.
Edit3: код для разделения, который также обрабатывает запятые как разделители, может быть выполнен следующим образом:
#include <iostream>
#include <locale>
#include <algorithm>
#include <vector>
#include <sstream>
class my_ctype : public std::ctype<char> {
public:
mask const *get_table() {
// this copies the "classic" table used by <ctype.h>:
static std::vector<std::ctype<char>::mask>
table(classic_table(), classic_table()+table_size);
// Anything we want to separate tokens, we mark its spot in the table as 'space'.
table[','] = (mask)space;
// and return a pointer to the table:
return &table[0];
}
my_ctype(size_t refs=0) : std::ctype<char>(get_table(), false, refs) { }
};
int main() {
// put our data in a strea:
std::istringstream buffer("first kas\nhjkfh kjsdjk,asf\tlast");
// Create a ctype object and tell the stream to use it for parsing tokens:
my_ctype parser;
buffer.imbue(std::locale(std::locale(), &parser));
// separate the stream into tokens:
std::vector<std::string> strings(
(std::istream_iterator<std::string>(buffer)),
std::istream_iterator<std::string>());
// copy the tokes to cout so we can see what we got:
std::copy(strings.begin(), strings.end(),
std::ostream_iterator<std::string>(std::cout, "\n"));
return 0;
}
Ответ 3
Лучший способ сделать это - использовать strtok. Эта ссылка должна быть самоочевидной в отношении того, как ее использовать, и вы также можете использовать несколько разделителей. Очень удобная функция C.
Ответ 4
Совершенно очевидно, что эта проблема заключается в использовании библиотек Qt. Если вы используете KDE, они уже установлены. Класс QString
имеет функцию разделения членов, которая работает как версия python. Например
QString("This is a string").split(" ", QString::SkipEmptyParts)
возвращает a QStringList
из QString
s:
["This", "is", "a", "string"]
(в питоническом синтаксисе). Обратите внимание, что требуется второй аргумент, иначе слова должны быть разделены несколькими пробелами, каждый из которых будет возвращен.
В общем, я нахожу с помощью библиотек Qt большую часть простоты python, например. простой синтаксический анализ строк и итерация списка, можно обрабатывать с легкостью и с мощью С++.
Ответ 5
Разбор строк в C/С++ редко оказывается простым. Метод, который вы опубликовали, выглядит так, что в нем задействовано немало "истории". Например, вы заявляете, что хотите разбить строку на пробел. Но сам метод, по-видимому, использует переменную-член m_strDelim как часть решения о расщеплении. Просто замена метода может привести к другим неожиданным проблемам.
Использование существующего класса токенинга такого как эта библиотека Boost, может немного упростить.
Ответ 6
Вы можете использовать boost::algorithm::split
. То есть:.
std::string myString;
std::vector<std::string> splitStrings;
boost::algorithm::split(splitStrings, myString, boost::is_any_of(" \r\n"));
Ответ 7
Лучший метод, чем мой другой ответ: функция регулярного выражения TR1. Вот небольшой учебник, чтобы вы начали. Этот ответ - С++, использует регулярные выражения (что, возможно, лучший/самый простой способ разделить строку), и я использовал его сам недавно, поэтому я знаю, что это хороший инструмент.