Количество экземпляров заданного символа на ячейку

Вопрос

Например, если я хотел бы подсчитать количество N в столбце строк, как это сделать в таблицах Google на основе каждой ячейки (т.е. Формула, указывающая на одну ячейку за раз, которую я могу перетащить)?

String/Count table

Задний план

Мне нужно определить порог -min-overlap <integer> для программы под названием TOMTOM **, которая сравнивает схожесть между PWM *** небольших мотивов ДНК ****, N является регулярным выражением для любой линейной комбинации буквы A, C, G и T. Было бы неплохо, если бы я мог получить представление о распределении не-N длин моих мотивов ДНК, чтобы сообщить мне о правильном значении -min-overlap <integer> для TOMTOM.

И вот некоторые реальные примеры:

enter image description here

** TOMTOM - это инструмент для сравнения мотивов ДНК с базой данных известных мотивов. См. Здесь для получения дополнительной информации.

*** PWM обозначает матрицу весов положения:

  • Согласно Wiki: весовая матрица положения (PWM), также известная как удельная весовая матрица (PSWM) или матрица оценки положения (PSSM), является широко используемым представлением мотивов (паттернов) в биологических последовательностях.
  • Согласно этой статье, ее можно определить как:

Матричная матрица положения (PWM) или PWM-подобные модели широко используются для представления предпочтений ДНК-связывания белков (Stormo, 2000). В этих моделях матрица используется для представления сайта TF-связывания (TFBS), причем каждый элемент представляет собой вклад в общее сродство связывания с нуклеотидом в соответствующем положении. Собственное предположение о традиционных моделях ШИМ - независимость позиции; то есть вклад различных положений нуклеотидов в TFBS с общей аффинностью связывания считается аддитивным. Хотя это приближение широко применимо, тем не менее, оно не выполняется для нескольких белков (Man & Stormo, 2001; Bulyk et al, 2002). Чтобы улучшить количественное моделирование, модели PWM были расширены для включения дополнительных параметров, таких как функции k-mer, для учета зависимостей позиций в TFBS (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Взаимозависимости между положениями нуклеотидов имеют структурное происхождение. Например, стековые взаимодействия между соседними базовыми парами образуют локальную трехмерную структуру ДНК. У TF есть предпочтения для последовательно-зависимой конформации ДНК, которую мы называем считыванием формы ДНК (Rohs et al, 2009, 2010).

ИЛИ, более современно:

Основываясь на этом обосновании, альтернативным подходом к увеличению традиционных моделей ШИМ является включение структурных особенностей ДНК. Модели специфичности связывания TF-ДНК, включающие эти особенности формы ДНК, достигли сопоставимых уровней производительности с моделями, включающими функции k-mer более высокого порядка, при этом требуя гораздо меньшего числа параметров (Zhou et al, 2015). Ранее мы обнаружили важность считывания формы ДНК для членов базовых спиральных спиральных (bHLH) и семейств гомеодомена TF (Dror et al, 2014; Yang et al, 2014; Zhou et al, 2015). Мы также смогли, для Hox TF, определить, какие области в TFBS использовали для считывания формы ДНК, демонстрируя силу подхода, чтобы выявить механистические способности распознавать TF-ДНК (Abe et al, 2015). Эта способность была широко показана только для двух семейств белков из-за отсутствия крупномасштабных высококачественных данных связывания ДНК TF. С недавним обилием высокопроизводительных измерений связывания белка с ДНК теперь можно проанализировать роль показаний формы ДНК для многих семейств TF.

**** Мотив ДНК: wiki: В генетике мотив последовательности представляет собой образец нуклеотидной или аминокислотной последовательности, который является широко распространенным и имеет или предположительно имеет биологическое значение. Для белков мотив последовательности отличается от структурного мотива, мотив, образованный трехмерным расположением аминокислот, которые могут быть смежными.

Ответы

Ответ 1

Альтернатива для одной ячейки за раз (формула, которую нужно скопировать):

=len(A2)-len(SUBSTITUTE(A2,"N",""))

Ответ 2

Я не знаю, поможет ли это, но позвольте сказать, что у вас есть эти строки в диапазоне A2: A6, и вы вводите

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

в B2, который должен выводить количество N для всего диапазона.