С# Сбросить HTML безопасно для сводки статьи

Это значит, что я могу взять некоторый html и отобразить его, не нарушая его в виде сводной статьи в статье?

Изменить

Извините, новый здесь, и ваше право, должно было сформулировать вопрос лучше, вот немного больше информации

Я хочу взять строку html и усечь ее до определенного количества слов (или даже длины char), чтобы затем показать начало ее как сводку (что затем приводит к основной статье). Я хочу сохранить html, чтобы я мог показывать ссылки и т.д. В превью.

Основной проблемой, которую я должен решить, является тот факт, что мы можем закончить с закрытыми тегами html, если мы обрезаем в середине 1 или более тегов!

Идея, которую я имею для решения, заключается в

Редактировать 12/11/2009

Ответы

Ответ 1

EDIT: см. ниже полное решение, эта первая попытка разбивает HTML, вторая не

Обобщите, что вы хотите:

В результате не получается HTML
Он должен принимать любые достоверные данные внутри <body>
Он имеет фиксированную максимальную длину

Если вы HTML-код XHTML, это становится тривиальным (и, хотя я не видел решения PHP, я очень сомневаюсь, что они используют подобный подход, но я считаю, что это понятно и довольно легко):

XmlDocument xml = new XmlDocument();

// replace the following line with the content of your full XHTML
xml.LoadXml(@"<body><p>some <i>text</i>here</p><div>that needs stripping</div></body>");

// Get all textnodes under <body> (twice "//" is on purpose)
XmlNodeList nodes = xml.SelectNodes("//body//text()");

// loop through the text nodes, replace this with whatever you like to do with the text
foreach (var node in nodes)
{
    Debug.WriteLine(((XmlCharacterData)node).Value);
}

Примечание: пробелы и т.д. будут сохранены. Обычно это хорошо.

Если у вас нет XHTML, вы можете использовать HTML Agility Pack, который позволит вам сделать то же самое для простого старого HTML ( он внутренне преобразует его в некоторый DOM). Я не пробовал, но он должен работать довольно гладко.

БОЛЬШОЙ РЕДАКТИРОВАНИЕ:

Фактическое решение

В небольшом комментарии я пообещал взять подход XHTML/XmlDocument и использовать его для метода типов для разделения HTML на основе длины текста, но сохраняя HTML-код. Я взял следующий HTML-код, код разбивает его правильно в середине needs, удаляет остальные, удаляет пустые узлы и автоматически закрывает любые открытые элементы.

Пример HTML:

<body>
    <p><tt>some<u><i>text</i>here</u></tt></p>
    <div>that <b><i>needs <span>str</span>ip</i></b><s>ping</s></div>
</body>

Код, протестированный и работающий с любым типом ввода (нормально, предоставлен, я просто сделал некоторые тесты, и код может содержать ошибки, дайте мне знать, если вы их найдете!).

// your data, probably comes from somewhere, or as params to a method
int lengthAvailable = 20;
XmlDocument xml = new XmlDocument();
xml.LoadXml(@"place-html-code-here-left-out-for-brevity");

// create a navigator, this is our primary tool
XPathNavigator navigator = xml.CreateNavigator();
XPathNavigator breakPoint = null;


string lastText = "";

// find the text node we need:
while (navigator.MoveToFollowing(XPathNodeType.Text))
{
    lastText = navigator.Value.Substring(0, Math.Min(lengthAvailable, navigator.Value.Length));
    lengthAvailable -= navigator.Value.Length;

    if (lengthAvailable <= 0)
    {
        // truncate the last text. Here goes your "search word boundary" code:
        navigator.SetValue(lastText);
        breakPoint = navigator.Clone();
        break;
    }
}

// first remove text nodes, because Microsoft unfortunately merges them without asking
while (navigator.MoveToFollowing(XPathNodeType.Text))
    if (navigator.ComparePosition(breakPoint) == XmlNodeOrder.After)
        navigator.DeleteSelf();   // moves to parent

// then move the rest
navigator.MoveTo(breakPoint);
while (navigator.MoveToFollowing(XPathNodeType.Element))
    if (navigator.ComparePosition(breakPoint) == XmlNodeOrder.After)
        navigator.DeleteSelf();   // moves to parent

// then remove *all* empty nodes to clean up (not necessary): 
// TODO, add empty elements like <br />, <img /> as exclusion
navigator.MoveToRoot();
while (navigator.MoveToFollowing(XPathNodeType.Element))
    while (!navigator.HasChildren && (navigator.Value ?? "").Trim() == "")
        navigator.DeleteSelf();  // moves to parent

navigator.MoveToRoot();
Debug.WriteLine(navigator.InnerXml);

Как работает код

Код выполняет следующие действия в следующем порядке:

Он проходит через все текстовые узлы, пока размер текста не расширится за допустимый предел, и в этом случае он обрезает это node. Это автоматически обрабатывается с помощью > и т.д. Как один символ.
Затем он сокращает текст "break node" и сбрасывает его. Он клонирует XPathNavigator в этот момент, поскольку нам нужно запомнить эту "точку прерывания".
Чтобы обойти ошибку MS (древнюю, на самом деле), мы должны сначала удалить все оставшиеся текстовые узлы, которые следуют за точкой прерывания, в противном случае мы рискуем автоматическим слиянием текстовых узлов, когда они заканчиваются как братья и сестры друг друга, Примечание: DeleteSelf удобен, но перемещает позицию навигатора к его родительскому элементу, поэтому нам нужно проверить текущую позицию на позицию "точка разрыва", запомненную на предыдущем шаге.
Затем мы делаем то, что хотели сделать в первую очередь: удалите любой node после точки прерывания.
Не необходимый шаг: очистка кода и удаление любых пустых элементов. Это действие состоит только в том, чтобы очистить HTML и/или отфильтровать определенные (разрешенные) элементы. Его можно оставить без внимания.
Вернитесь к "root" и получите содержимое как строку с помощью InnerXml.

Это все, довольно просто, хотя на первый взгляд может показаться немного сложным.

PS: то же самое было бы проще читать и понимать, если бы вы использовали XSLT, который является идеальным инструментом для этого типа заданий.

Обновление: добавлен образец расширенного кода на основе отредактированного вопроса
Обновление: добавлено немного объяснений

Ответ 2

Если вы хотите сохранить теги html, вы можете использовать этот метод, который я недавно опубликовал. https://gist.github.com/2413598

Он использует XmlReader/XmlWriter. Это не готово к производству, т.е. Вы, вероятно, захотите SgmlReader или HtmlAgilityPack И вы хотите попробовать-уловы и выбрать резервный...

Ответ 3

Ok. Это должно работать (предупреждение о грязном коде):

        string blah = "hoi <strong>dit <em>is test bla meer tekst</em></strong>";
        int aantalChars = 10;


        bool inTag = false;
        int cntr = 0;
        int cntrContent = 0;
        foreach (Char c in blah)
        {
            if (cntrContent == aantalChars) break;



            cntr++;
            if (c == '<')
            {
                inTag = true;
                continue;
            }
            else if (c == '>')
            {
                inTag = false;
                continue;
            }

            if (!inTag) cntrContent++;
        }

        string substr = blah.Substring(0, cntr);

        //search for nonclosed tags
        MatchCollection openedTags = new Regex("<[^/](.|\n)*?>").Matches(substr);
        MatchCollection closedTags = new Regex("<[/](.|\n)*?>").Matches(substr);

        for (int i =openedTags.Count - closedTags.Count; i >= 1; i--)
        {
            string closingTag = "</" + openedTags[closedTags.Count + i - 1].Value.Substring(1);
            substr += closingTag;
        }

Ответ 4

Это сложно, и, насколько я вижу, ни одно из решений PHP не идеально. Что делать, если текст:

substr("Hello, my <strong>name is <em>Sam</em>. I&acute;m a 
  web developer.  And this text is very long and all the text 
  is inside the sam html tag..</strong>",0,26)."..."

На самом деле вам придется перебирать весь текст, чтобы найти конец стартового сильного тега.

Мой совет вам - удалить все html в сводке. Не забудьте использовать html-sanitizing, если вы показываете пользователям собственный html-код!

Удачи:)