Перейти к содержанию
Форум химиков на XuMuK.ru
β

Рекорды неорганических веществ: удивительные факты о химических элементах и соединениях


gecsagen

Рекомендуемые сообщения

🚑 Решение задач, контроши, рефераты, курсовые и другое! Онлайн сервис помощи учащимся. Цены в 2-3 раза ниже! 200 руб. на 1-й заказ по коду vsesdal143982
В 26.12.2024 в 23:10, chemister2010 сказал:

Убрать лишние символы (нумерацию аминокислот, пробелы).

Тут только что до меня дошло - может ты что-то не то делал? Какие пробелы, нумерации, там после Show sequence доступны две опции - скопировать (в буфер) и скачать (откроется https://rest.uniprot.org/uniprotkb/Q8WZ42.fasta). Во втором случае надо первую строку убрать и абзацы, в первом - просто вставить в текстовый файл, там вообще ничего лишнего, непрерывная последовательность.

Только что проверил на очень смешной машинке (Atom D425 под XP) - не летает, конечно, при замене, но вполне неплохо шуршит.

Я это к чему - может винт уже сыпаться начал, резервные копии пора делать. Сдохнет ведь всё, в один момент.

Ссылка на комментарий
В 26.12.2024 в 21:51, ZZZ7ZZZ сказал:

Q8WZ42-1-34350.JPG.8f01d57b50e154d8f6462a0bea9f3a51.JPG

A Аланил - 2084
C Цистеинил - 513
D Аспартил - 1720
E Глутамил - 3193
F Фенилаланил - 908
G Глицил - 2066
H Гистидил - 478
I Изолейцил - 2062
K Лизил - 2943
L Лейцил - 2117
M Метионил - 398
N Аспарагинил - 1111
P Пролил - 2517
Q Глутаминил - 942
R Аргинил - 1640
S Серил - 2463
T Треонил - 2546
V Валил - 3184
W Триптофил - 466
Y Тирозил - 999

Та же фигня получилась. 

  • Отлично! 1
Ссылка на комментарий
В 27.12.2024 в 17:31, yatcheh сказал:

Та же фигня получилась. 

Да я в тебе и не сомневался.

В 26.12.2024 в 23:17, chemister2010 сказал:

химическое название 1 хромосомы человека. Но там 248 миллионов пар нуклеотидов

И где все эти нуклеотиды в однобуквенном виде?
Здесь как-то мутно всё - слишком много явно лишних NNN. https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001405.40/

Аналогично. https://ftp.ensembl.org/pub/release-113/fasta/homo_sapiens/dna/

Здесь без NNN, но размер прилично поменьше. Нет там столько NNN, чтобы объяснить разницу. https://download.cncb.ac.cn/gwh/Animals/Homo_sapiens_v1.1_GWHDQZJ00000000

Ссылка на комментарий
В 29.12.2024 в 09:43, ZZZ7ZZZ сказал:

Да я в тебе и не сомневался.

И где все эти нуклеотиды в однобуквенном виде?
Здесь как-то мутно всё - слишком много явно лишних NNN. https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001405.40/

Аналогично. https://ftp.ensembl.org/pub/release-113/fasta/homo_sapiens/dna/

Здесь без NNN, но размер прилично поменьше. Нет там столько NNN, чтобы объяснить разницу. https://download.cncb.ac.cn/gwh/Animals/Homo_sapiens_v1.1_GWHDQZJ00000000

 

Вот вроде полный геном человека: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/

Википедия ссылается на https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001405.40/

но кажется он не закончен.

 

NNN - это нераспознанные части.

Изменено пользователем chemister2010
Ссылка на комментарий
В 29.12.2024 в 14:25, chemister2010 сказал:

Википедия ссылается на https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000001405.40/

но кажется он не закончен.

Судя по нераспознанным частям - да, не закончен, хотя и позиционируется как референсный и
NC_000001.11 Homo sapiens chromosome 1, GRCh38.p14 Primary Assembly, в отличие от https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/ , который всего лишь NC_060925.1 Homo sapiens isolate CHM13 chromosome 1, alternate assembly T2T-CHM13v2.0

Кстати, чем GenBank от RefSeq отличается? Скажем, CP068277.2 и NC_060925.1.

По формату файлов. Полный геном в формате .fna, отдельные хромосомы - .fasta. Из того, что явно видно, отличия в количестве символов в строке. Это всё? Я просто не разбивал целый и не склеивал отдельные, чтобы сравнить.

В общем, над каким конкретно файлом будем издеваться?

И по поводу замен. В файлах нет N, Q, Y, может и ещё чего-то нет из таблички. Это нормально? Или тут на что-то другое менять надо?

  • Согласен! 1
Ссылка на комментарий
В 29.12.2024 в 14:54, ZZZ7ZZZ сказал:

Судя по нераспознанным частям - да, не закончен, хотя и позиционируется как референсный и
NC_000001.11 Homo sapiens chromosome 1, GRCh38.p14 Primary Assembly, в отличие от https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/ , который всего лишь NC_060925.1 Homo sapiens isolate CHM13 chromosome 1, alternate assembly T2T-CHM13v2.0

Кстати, чем GenBank от RefSeq отличается? Скажем, CP068277.2 и NC_060925.1.

По формату файлов. Полный геном в формате .fna, отдельные хромосомы - .fasta. Из того, что явно видно, отличия в количестве символов в строке. Это всё? Я просто не разбивал целый и не склеивал отдельные, чтобы сравнить.

В общем, над каким конкретно файлом будем издеваться?

И по поводу замен. В файлах нет N, Q, Y, может и ещё чего-то нет из таблички. Это нормально? Или тут на что-то другое менять надо?

 

Предлагаю издеваться над геномом от T2T. Он вроде закончен (по крайней мере внизу таблички прописан статус Completed).

https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_009914755.1/

Там не аминокислоты, а нуклеотиды, естественно там другая табличка остатков. Сейчас сижу, читаю номенклатуру полинуклеотидов. В русском интернете ее нет совсем.

  • Отлично! 1
Ссылка на комментарий

У ДНК название сложнее и будет с цифрами и специальными знаками.

 

Середина названия будет состоять из таких частей:

C = -(3'→5')-2'-дезоксицитидилил (28 символов)

A = -(3'→5')-2'-дезоксиаденилил (27 символов)

T = -(3'→5')-2'-дезокситимидилил (28 символов)

G = -(3'→5')-2'-дезоксигуанилил (27 символов)

Начало и конец будут слегка отличатся. Последовательность CACCCT (начало 1 хромосомы человека) будет выглядеть так (с завершением на последнем нуклеотиде):

2'-дезоксицитидилил-(3'→5')-2'-дезоксиаденилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезокситимидин

 

Это окончание -илил прописано в правилах ИЮПАК 2013 года на английском языке. Оно связано с там, что фосфорилированные нуклеозиды являются кислотами (например, адениловая кислота).

 

 

Изменено пользователем chemister2010
Ссылка на комментарий
В 29.12.2024 в 20:30, chemister2010 сказал:

Начало и конец будут слегка отличатся. Последовательность CACCCT (начало 1 хромосомы человека) будет выглядеть так

Вот это начало и конец файла NC_060925.1 Homo sapiens isolate CHM13 chromosome 1, alternate assembly T2T-CHM13v2.0:

CACCCTAAA...
...GTTAGGGTT

Ну ладно, вместо выделенного будет 2'-дезоксицитидилил-(3'→5')-2'-дезоксиаденилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезокситимидин

А почему оно, кстати, не с -(3'→5')- начинается?

Дальше какой алгоритм? И ещё там пара вопросов была - GenBank и по формату.

На данный момент по исходным символам получается так

A - 73600418
C - 51017014
G - 52064401
T - 71705495
Всего - 248387328

Изменено пользователем ZZZ7ZZZ
Ссылка на комментарий
В 29.12.2024 в 18:06, ZZZ7ZZZ сказал:

Вот это начало и конец файла NC_060925.1 Homo sapiens isolate CHM13 chromosome 1, alternate assembly T2T-CHM13v2.0:

CACCCTAAA...
...GTTAGGGTT

Ну ладно, вместо выделенного будет 2'-дезоксицитидилил-(3'→5')-2'-дезоксиаденилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезокситимидин

А почему оно, кстати, не с -(3'→5')- начинается?

Дальше какой алгоритм? И ещё там пара вопросов была - GenBank и по формату.

 

Вместо выделенного будет 2'-дезоксицитидилил-(3'→5')-2'-дезоксиаденилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезоксицитидилил-(3'→5')-2'-дезокситимидилил

так как там дальше есть продолжение.

Начинается не с -(3'→5') так как у первого нуклеотида нет дальше связи. У последнего нуклеотида название будет заканчиваться на -идин или -озин.

Дальше, копируем себе всю последовательность (около 250 МБ) и делаем 4 замены по таблице выше. Дальше убираем у первого нуклеотида (3'→5')-, а у последнего меняем окончание. Получаем название примерно из 8 миллиардов символов. Если заодно сделать подсчет числа замен и отметить какие нуклеотиды первый и последний,  то можно легко вычислить химическую формулу.

 

Следует отметить, что мы получим название одной ветви ДНК, так как ДНК состоит из двух цепей (поэтому подсчет идет парами оснований).

Изменено пользователем chemister2010
Ссылка на комментарий
В 29.12.2024 в 21:18, chemister2010 сказал:

Если заодно сделать подсчет числа замен и отметить какие нуклеотиды первый и последний

Это, можно сказать, уже сделано. В принципе, количество символов можно тупо посчитать, перемножив исходные и табличные, сделав потом поправку на первый и последний.

Изменено пользователем ZZZ7ZZZ
Ссылка на комментарий

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйте новый аккаунт в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
×
×
  • Создать...

Важная информация

Мы разместили cookie-файлы на ваше устройство, чтобы помочь сделать этот сайт лучше. Вы можете изменить свои настройки cookie-файлов, или продолжить без изменения настроек.