Ответ 1
Альтернатива для одной ячейки за раз (формула, которую нужно скопировать):
=len(A2)-len(SUBSTITUTE(A2,"N",""))
Вопрос
Например, если я хотел бы подсчитать количество N
в столбце строк, как это сделать в таблицах Google на основе каждой ячейки (т.е. Формула, указывающая на одну ячейку за раз, которую я могу перетащить)?
Задний план
Мне нужно определить порог -min-overlap <integer>
для программы под названием TOMTOM **, которая сравнивает схожесть между PWM *** небольших мотивов ДНК ****, N
является регулярным выражением для любой линейной комбинации буквы A, C, G и T. Было бы неплохо, если бы я мог получить представление о распределении не-N длин моих мотивов ДНК, чтобы сообщить мне о правильном значении -min-overlap <integer>
для TOMTOM.
И вот некоторые реальные примеры:
** TOMTOM - это инструмент для сравнения мотивов ДНК с базой данных известных мотивов. См. Здесь для получения дополнительной информации.
*** PWM обозначает матрицу весов положения:
Матричная матрица положения (PWM) или PWM-подобные модели широко используются для представления предпочтений ДНК-связывания белков (Stormo, 2000). В этих моделях матрица используется для представления сайта TF-связывания (TFBS), причем каждый элемент представляет собой вклад в общее сродство связывания с нуклеотидом в соответствующем положении. Собственное предположение о традиционных моделях ШИМ - независимость позиции; то есть вклад различных положений нуклеотидов в TFBS с общей аффинностью связывания считается аддитивным. Хотя это приближение широко применимо, тем не менее, оно не выполняется для нескольких белков (Man & Stormo, 2001; Bulyk et al, 2002). Чтобы улучшить количественное моделирование, модели PWM были расширены для включения дополнительных параметров, таких как функции k-mer, для учета зависимостей позиций в TFBS (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Взаимозависимости между положениями нуклеотидов имеют структурное происхождение. Например, стековые взаимодействия между соседними базовыми парами образуют локальную трехмерную структуру ДНК. У TF есть предпочтения для последовательно-зависимой конформации ДНК, которую мы называем считыванием формы ДНК (Rohs et al, 2009, 2010).
ИЛИ, более современно:
Основываясь на этом обосновании, альтернативным подходом к увеличению традиционных моделей ШИМ является включение структурных особенностей ДНК. Модели специфичности связывания TF-ДНК, включающие эти особенности формы ДНК, достигли сопоставимых уровней производительности с моделями, включающими функции k-mer более высокого порядка, при этом требуя гораздо меньшего числа параметров (Zhou et al, 2015). Ранее мы обнаружили важность считывания формы ДНК для членов базовых спиральных спиральных (bHLH) и семейств гомеодомена TF (Dror et al, 2014; Yang et al, 2014; Zhou et al, 2015). Мы также смогли, для Hox TF, определить, какие области в TFBS использовали для считывания формы ДНК, демонстрируя силу подхода, чтобы выявить механистические способности распознавать TF-ДНК (Abe et al, 2015). Эта способность была широко показана только для двух семейств белков из-за отсутствия крупномасштабных высококачественных данных связывания ДНК TF. С недавним обилием высокопроизводительных измерений связывания белка с ДНК теперь можно проанализировать роль показаний формы ДНК для многих семейств TF.
**** Мотив ДНК: wiki: В генетике мотив последовательности представляет собой образец нуклеотидной или аминокислотной последовательности, который является широко распространенным и имеет или предположительно имеет биологическое значение. Для белков мотив последовательности отличается от структурного мотива, мотив, образованный трехмерным расположением аминокислот, которые могут быть смежными.
Альтернатива для одной ячейки за раз (формула, которую нужно скопировать):
=len(A2)-len(SUBSTITUTE(A2,"N",""))
Я не знаю, поможет ли это, но позвольте сказать, что у вас есть эти строки в диапазоне A2: A6, и вы вводите
=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
в B2, который должен выводить количество N для всего диапазона.