Erroneous Clade Assignment or More Refined Tool?

Question

Erroneous Clade Assignment or More Refined Tool?

coreymeloche opened this issue 4 months ago · comments

Hello,

On previous versions of Nexclade (v.2.14 and older), Nextclade would not assign a clade for poor sequences (see below for an example).

Now that Nextclade upgraded to v3.0, it assigns a Clade to a known poor sequence. Is this a bug or has the assignment tool been more redfined ?

We are using the old database (https://v2.clades.nextstrain.org/) until we receive clarity. I did notice that the old version provided on GitHub states v2.15; however, I do not see release notes for v2.15 (only v2.14). Can you also provide release notes for v2.15?

I can't attach the raw FASTA file (an error populated that this file type is not supported), so here is the raw sequences:

2019-nCoV_HHM|10224939996
TTCGATCTCTTGTAGATCTGTTCTCTAAACGAAGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGCTTCATTAAGTTTAAAGTCACCAACATATGATGTTGACTTTCTCTTTTGGAGTATTTCAAGAAGGTTGTCATTAAGACCTTCGGAACCTTCTCCAACAACACCTGTATGGTTACAACCTATGTTAGCGCTAGCACGTGGAACCCAATAGGCACACTTGTTATGGCAACCAACATAAGAGAACCAGAGGCTGCTCGTGTGTACGATCAATTTTCTCCCGCACTCTTGAAACTGCTCAAAATTCTGTGCGTGTTTTACAGAAGGCCGCTATAACAATACTAGATGGAATTTCACAGTATTCACTGAGACTCATTGATGCTATGATGTTCACATCTGATTTGGCTACTAACAATCTAGTTGTAATGGCCTACATTACAGGTGGTGTTGTTCAGTTGACTTCGCAGTGGCTAACTAACATCTTAACACACTTTCTGTACAATCTGGAGGGTAAAAGAACAATACATATGTGAAGCCAATTAAACTCACCAGACTCATCAAATAAGTAGTATGTAGCCATACTCCACTCATCTAAATCAATGCCCAGTGGTGTAAGTAATTCAGATACTGGTTGCAAAGTTTTTATGACAGTATCTGCCACGGTGCAAGTAGAACTTCGTGCTGATTAAAATTTTCATAAGCACTCTTAAGAAGTTGAATGTCTTCACCTTTGTTAACATTTGGGCCGACAACATGAAGACAGTGTTTAGCAAGATTGTGTCCGCTTAAAACACAACTACCACCCACTTTAAGTGGTCCATTAGTAGCTATGTAATCATCAGATTCAACTTGCATGGCATTGTTAGTAGCCTTGTTTTCTGTGAGGAACTTAGTTTCTTCCAGAGTTTGTTGTAACTTCTTCAACACAAGCTTTGATTTTCTTATCATCTTGTTTTCTCTGTTCAACTGAAGGTTTACTTTCAGTTATAAATGGCTTAACTTCCTCTTTACAAACTGGTGTACCAACCAATGGAGCTTCAACAGCTTCACTAGTAGGTTGTTCTAATGGTTGTAAATCACCAGTTTTCAAGACAACTTCCTCTGTTATTTAGAAGAAGAAGTAAAGATAACCATTATACGCTGTTAACAGCATCAGGTGAAGAACAGAAACTGTAGCTGGCACTTTGAGAGATCTCATATACCGAGCAGCTTCTTCCAAATTTAAGCCATGTGTTACATAGCCAAGTGGCATTGTAACAAGAGTTTCATTTAGATCGTTAAGTGTGTTGATAAGTGACGCTACAGTTGTTTTACTGGTGTAAAAGTAAAATCTTCTCTTAAGAAATTCTATACCTAGTTGGGTGATTTAATGCTGACATGTACCTACCCAGAAAACTAGGATCAGTTGTGTGGTAGTACTCAAAAGCCTCAACACGTAGAGTGTCATCATTAGGTAAAACATAAAATGTTTTACCTTCATGTGAATTATGAGGTTTTATTTTAGTAACATCAGAGTTGAAGTTTAATCCACCTGCTCTACAAGATGCTTATTACAGAGCAAGGGCTGGTGAAGCTGATAACTTTTGTGCACTTATCTTAGCCTACTGTAATAAGACAGTAGGTGAGTTAGGTGATGTTAGAGAAACAATGAGTTACTTGTTTCAACATGCCAATTTAGATTCTTGCAAAAGAGTCTTGAACGTGGTGTGTAAAACTTGTGGACAACCAAACGAATTTGATGTTTCAACTGGTTTTGTGCTCCAAAGACAACGTATACACCAGGTATTTGGTTTATACGTGGCTTTATTAGTTGCATTGTTAACATGCCAAACAATAGGTTTGCTGTTAATAGTGTCCCTTGGGATACTATAGCTAATTATGCTAAGCCTTTTCTTAACAAAGTTGTTAGTACAACTACTAACATAGTTACACGGTGTTTAAACCGTGTTTGTACTAATTATATGCCTTATTTCTTTACTTTATTGCTACAATTGTGTACTTTTACTAGAAGTACAAATTCTAGTAGATTCTTTAGACACCTATCCTTCTTTAGAAACTATACAAATTACCATTTCATCTTTTAAATGGGATTAACTGCTTTTGGCTTAGTTGCAGAGTGGTTTTTGGCATATATTCTTTTCTGCATCATTTTATTATGTATGGAAAGTTATGTGCATGTTGTAGACGGTTGTAATTCATCAACTTGTATGATGTGTTACAAACGTAATAGAGCAACAAGAGTCGAATGTACAACTATTGTTAATGGTGTTAGAAGGTCCTTTTATGTCTATGCTAATGGAGGTAAAGGCTTTTGCAAACTACACAAATTGGAATTGTGTTAATTGTGATACTTCACTGTAACACTATCAACGATGTAAGAAGACTGGTCAAATGGTTCCATCCATCTTTACTTTGATAAAGCTGGTCAAAAGACTTATGAAAGACATTCTCTCTCTCATTTTGTTAACTTAGACAACCTGAGAGCTAATAACACTAAAGGTTCATTGCCTATTAATGTTATAGTTTTTGATGGTAAATCAAAATGTGAAGAATCATCTGCAAAGATAAGACATTGTCTAAGGACACATTCTTTGCAAGTTCAGCTTCTGCAGTTGCAACTAGTGTTTTGAGTTTTTCCATTGGTACGTTAAAAGTTGATGAAAACGTATTAACGTAAGCATCAAACATTAACTGCAACTTCCGCACTATCACCAACATCAGACACTAATGCCTGATCTAGTAACAGTATAGGTTGACACATAAGCTAACAAACATGCTGATTTGACACATGGTTTAGCCAGCGTGGTGGTAGTTATACCAATGTACTAGAAGGTTCTGTTGCTTATGAAAGTTTACGCCCTGACACACGTTATGTGCTCATGGATGGCTCTATTATTCAATTTCCTAACACCTACCTTGAAGGTTCTGTTAGAGTGGTAACAATTTTTGACAGAGAAGCTGCTTGTTGTCATCTCGCAAAGGCTCTCAATGACTTCAGTAACTCAGGTTCTGATGTTCTTTACCAACCACCACAACCTCTATCACCTCAGCTGTTTTGCAGAGTGGTTTTAGAAAATGGCATTCCCATCTGGTAAAGTTGAGGGTTGTATGGTACAAGTAACTTGTGGTACAACTACACTTAACGGTCTTTGGCTTGATGACAGTTAATGTTTTAGCTTGGTTGTACGCTGCTGTTATAAATGGAGACAGGTGGTTTCTCAATCGATTTACCACAACTCTTAATGACTTTAACCTTGTGGCTATGAAGTACAATTATGAACCTCTAACACAAGACCATGTTGACATACTAGGACCTCTTTCTGCTCAAACTGGAATTGCCGTTTTAGATATGTGTGCTAAATTCATCTTCTAATAAAGCACTACCCCAATATGGTACGTCCATTCATACCATTTGCAGTAATTCTTTTAATGAAGCAAACATAAGCATGCATTTCTCTGTTTGTTTTTGTTACCTTCTCTTGCCACTGTAGCTTATTTTAATATGGTCTATATGCCTGCTAGTTGGGTGATACATTCATAAGTGTCCACACTCTCCTAGCACCATCATCATACACAGTTCTTGCTGTCATAAGGATTAGTAACACTACAGCTGATGCATACATAACACAGTCTTATAGATGCCTTCAAACTCAACATTAAATTGTTGGGTGTTGGTGGCAAACCTTGTATCAAAGTAGCCACTGTACAGTCTAAAATGTCAGATGTAAAGTGCACATCAGTAGTCTTACTCTCAGTTTTGCAACAACTCAGAGTAGAATCATCATCTAAATTGTGGGCTCAATGTGTCCAGTTACACAATGACATTCTCTTAGCTAAAGATACTACTGAAGCCTTTGAAAAAATGGTTTCAAACAAGCTTTGTGAAGAAATGCTGGACAACAGGGCAACCTTACAAGCTATAGCCTCAGAGTTTAGTTCCCTTCCATCATATGCAGCTTTTGCTACTGCTCAAGAAGCTTATGAGCAGGCTGTTGCTAATGGTGATTCTGAAGTTGTTCTTAAAAAGTTGAAGAAGTTCTTTGAATGTGGCTAAATCTGAATTTGACCGTGATGCAGCCATGCAACGTAAGTTGGAAAAGTTGTTGTGTTGTAGTAAGCTAACGCATTGTCATCAGTGCAAGCAGTTTGTGTAGTACCGGCAGCACAAGACATCTGTCGTAGTGCAACAGGACTAAGCTCATTATTCTGTAATTTGACAGCAGAATTGGCCCTTAAAGCTGTTACAATAAGAGGCCATGCTAAATAGGTGAATTGTCCATACTAATTTCACTAAGTTGAACAATTTTACTATCTGCATCTACAACCTGTTGGACAGGATTTGAAATGGGCTAGATTCCCTAAGAGTGATGGAACTGGTACTATCTATACAGAACTGGAACCACCTTGTAGGTTTGTTACACAAAGATTATCTAGCTAGTGGGGGACAACCAATCACTAATTGTCAAAATCCTTTAGGACTTGACTGAAGCATGGGTTCGCGGAGTTGATCACAACTACAGCCATAACCTTTCCACATACCGCAGACGGTACAGACTGTGTTTTTTTAGAATAGACGGTGACATGGTACCACATATATCACGTCAACGTCTTACTAAATACACAATGGCAGACCTCGTCTATGCTTTAAGGCATTTTGATGAAGGTAATTGTGACACATTAAAAGAAATACTTGTCACATACAATTGTTGTGATGATGATTATTTCAATAAAAAGGACTGGTATGATTTTGTAGAAAACCCAGATATATTACGCGTATACGCCGGTAATGCTGCTATCAGCGATTATGACTACTATCGTTATAATCTACCAACAATGTGTGATATCAGACAACTACTATTGTAGTTGAAGTTGTTGATAAGTACTTTGATTGTTACGATGGTGGCTGTATTAATGCTAACCAAGTCATCGTCAACAACCTAGACAAATCAGCTGGTTTTCCATTTAATAAATGGGGTAAGGCTAGACTTTATTATGATTCAATGAGTTATGAGGATAGAATTTGCTTGTTCCAATTACTACAGTAGCTCCTCTAGTGGCGGCTATTGATTTCAATAATTTTTGATTGACAAATGTTAAAACACTATTAGCATAAGCAGTTGTGGCATCTCCTGATGAGGTTCCACCTGGTTTAACATATAGTGAACCGCCACACATGACCATTTCACTCAATACTTGAGCACACTCATTAGCTAATCTATAGAAACGGTGTGAAAAGCTACAACACGTTGTATGTTTGCGAGCAAGAACAAGTGAGGCCATAATTCTAAGCATGTTAGGCATGGCTCTATCGATGGATCTGGGTAAGGAAGGTACACATAATCATCACCCTGTTTAACTAGCATTGTATGTTGAGAGCAAAATTCATGAGGTCCTTTAGTAAGGTCAGTCTCAGTCCAACATTTTGCTTCAGACATAAAAACATTGCTTTGATAATAAAGAACTGACTTAAAGTTCTTTGTGAATTGCAAAGAACACAAGCCCCAACAGCCTGTAAGACTGTATGCGGTGTGTACATAGCCTCATAAAACTCAGGTTCCCAATACCTTGAGGTGTTATCATAGTAAGCATAACAGAATACATGTCTAACATGTGTCCTGTTAACTCATCATGTAGCTTTCTTATGTATTGTAAGTACAAATGAAAGACATCAGCATACTCCTGATTAGGATGTTTAGTAAGTGGGTAGACCATTCTTATGTTGTAAATGCTGTTACGACCATGTCATATCAACATCACATAAATTAGTCTTGTCTGTTAATCCGTATGTTTGCAATGCTCCAGGTTGTGATGTCACAGATGTGACTCAACTTTACTTAGGAGGTATGAGCTATTATTGTAAATCACATAAACCACCCATTAGTTTTCCTACATTTATCTATAGGCAACTATTTTAATGCCTTTCTCCACATAGTGCAGTTCTAACAGCAGGCATGAGAGCAAGCTGTATACACTATGCGAGCAGAAGGGTAGTAGAGAGCTAGGCCATAGCAAATGACTCTTACCAGTACCAGGTGGTCCCTGGAGTGTAGAATACTTTTGCATACCAACCTTTTGATAATTGCTTGATAAATTCAAAGTGAATTCAACATTAGAACAGTATGTCTTTTGTACTGTAAATGCATTGCCTGAGACGACAGCAGATATAGTTGTCTTTGATGAAATTTCAATGGCCACAAATTATGATTTGAGTGTTGTCAATGCCAGATTACGTGCTAAGCACTATGTGTACATTGGCGACCCTGCTCAATTACCTGCACCACGCACAGAACCAGAATATTTCAATTCAGTGTGTAGACTTATGAAACTATAGGTCCAGACATGTTCCTCGGAACTTGTCGGCGTTGTCCTGCTGAAGTTGTTGACACTGTGAGTGCTTGGTTTATGATAATAAGCTTAAAGCACATAAAGACAAATCAGCTCAATGCTTTAAAATGTTTTATAAGGGTGTTATCACGCATGATGTTTCATCTGCAATTAACAGGCCACAAATAGGGTAACCATTAACTTGATAATTCATTTTAAAACCCATCATAGAGATGAGTCTTCTATAGGTCATGTCCTTAGGTATGCCAGGTATGTCAACACATAAACCTTCAGTTTTGAATTTAGTGTCAACACTGAGGTGTGTAGGTGCCTGTGTAGGATGTAACCCAGTGATTACCTTACTGCAATCTTTAAAGAGTCCTGTTACATTTTCAGCTTGTAAAGTTGCCACACGTGCATGGATTGGCTTCGATGTCGAGGGGTGTCATGCTACTAGAGAAGCTGTTGGTACCAATTTACCTTTACAGCTAGGTTTTCTACAGGTGTTAACCTAGTTGCTGTACCTACAGGTTATGTTGATACACCTAATAATACAGATTTTTCCAGAGTTAGTGCTAAACCACCGCCTGGAGATCAATTTAAACACCTCATACCGGATTTGATTACGTCTATAATCCGTTTATGATTGATGTTCAACAATGGGGTTTTACAGGTAACCTACAAAGCAACCATGATCTGTATTGTCAAGTCCATGGTAATGCACATGTAGCTAGTTGTGATGCAATCATGACTAGGTGTCTAGCTGTCCACGAGTGCTTTGTTAAGCGTGTTGACTGGACTATTGAATATCCTATAATTGGTGATGAACTGAAGATTAATGCGGCTTGTAGAAAGGTTCAACACATGGTTGTTAAAGCTGCATTATTAGCAGCAGAATGTGTGGCATAAGAATAGAATAATTCTTCTATTTTATAAGCTTTGTCACTACAAGGCTGTGCATCATAGAACTTCCATTCTACATCAGCTTGAGGTACACACTTAATAGCTTTACGTGTATAACACGTTGCAATTTAGGTGGTGCTGTCTGTAGACATCATGCTAATGAGTACAGATTGTATCTCGATGCTTATAACATGATGATCTCAGCTGGCTTTAGCTTGTGGGTTTACAAACAATTTGATACTTATAACCTCTGGAACACTTTTACAAGACTTCAGAGTTTAGAAAATGTGGCTTTTAATGTTGTAAATAAGGGACACTTTGATGGACAACATAAATTAGAAGGCTATGCCTTCGAACATATCGTTTATGGAGATTTTAGTCATAGTCAGTTAGGTGGTTTACATCTACTGATTGGACTAGCTAAACGTTTTAAGGAATCACCTTTGAATTAGAAGATTTTATTCCTATGGACAGTACAGTTAAAAACTATTTCATAACAAGATGCGCAAACAGTTCATCTAAGTGTGTGTGTTCTGTTATTGATTTATTACTTGATGATTTTGTTGAAATAATAAATCCCAAGATTTATCTGTAGTTTCTAAGGTTGTCAAAGTGACTATTGACTATACAGAAATTTCATTTGCAACATTACCTAAAGGCATAATGATGAATGTCGCAAAATATACTCAACTGTGTCAATATTTAAACACATTAACATCAGCTGTACCCTATAATATGAGAGTTATACATTTTGGTGCTGGTTCTGATAAAGGAGTTGCACCAGGTACAGCTGTTTTAAGACAGAAAACCCTCTTTAGAGTCATTTTCTTTTGTTAACATTTTTAAGTTCTTAGGGTCGTACATATCACTAATAATGAGATCCCATTTATTAGCTGTATGTACAGTTGCACAATCACCAATCAAAGTTGAATCTGCATCAGAGACAAAGTCATTAAGATCTGAATCGACAAGCAGCGTACCCGTAGGCAACCACTGTCTTGACGCATTCACATTACATTAGTAACAACTTGAGTAATTCTGATTACGTGTCCCAGAGATAGCATGGAACCAAGTAACATTGGAAAAGAACACAGTCTACAGCATAAGATCTGAGTCGAATATGTTCACGGACAGCATCAGTAGTGTCACTCAATGTCTCTGCCAAATTGTTGGAAAGGCAGAAACTTTTTGTTAGACTCAGTAAGAACACCTGTGCCTGTTAAACCTTGAAGTTGAAATTGACAACCCTGATAAAGAACAGCAACCTGGTTAGAAGTATTTGTTCCTGGTGTTATAACACTGACACCACCAAAAGAACATGGTGTAATATGCGCTAGTTATCAGCACTCAGACTAATTCTCATCGGCGGGCACGTAGTGTAGCTAGTCAATCCATCATTGCCTACACTATGTCACTTGGTGCAGAAAATTCAGTTGCTTTTTTTGTCTTGTTCAACAGCTATTCCAGTTAAAGCACGGTTTAATTGTGTACAAAAACTGCCATATTGCAACAAAAGATTGCTGCATTCAGTTGAATCACCACAAATGTACATTGTACAATCTACTGATGTCTTGGTCATAGACACTGGTAGAATTTCTGTGGTAACACTAATAGTAAAATTTATGGGTATGGCAATAGAGTTATTAGAGTGAAGATCTACTTTTCAACAAAGTGACACTTGCAGATGCTGGCTTCATCAAACAATATGGTGATTGCCTTGGTGATATTGCTGCTAAGAGACCTCATTTGTGCACAAAGTTGAACGGCCTTACTGTTTTGCCACCTTTCGCTCACAGATGAAATGATTGCTCAATACACTTCTGCACTGTTTTTGGTTGACCACATCTTGAAGTTTTCCAAGTGTACTTGCTGTGGAAGAAAGTGTGTCTTGAATTTTGCCAATAGCACTATTAAATTGGTTGGCAATCAATTTTTGGTTCTCATAGAGAACATTCTGTGTAACTCCAATACCATTAAACCTATAAGCCATTTGCATAGCAAATGGTATTTGTAATGCAGCACCTGCACCACAACATCACAGTTACCAGACACAAATGTGTTGTGTGTAGTAATGATTTGTGGTTCATAAAATTCCTTTGTGTTACAAACCAGTGTGTGCCATTTGAAACAAAGACACCTTCACGAGGAAAGTGTGCTTTTCCATCATGACAAATGGCAGGAGCAGTTGTGAAGTTTCTTTTCTTGTGCAGGGACATAAGTAACATGCAAGAAGACTACACCATGAGGTGCTGACTGCTTATGGATTTGTTTATGAGAATCTTCACAATTGGAACTGTAACTTTGAAGCAAGGTGACAATCAAGATGCTACTCCTTCAGATTTTGTTCGCGCTACTGCAACGCACTCCCTTTCGGATGGCTTATTGTTGGCGTTGCACTTCTTGCTGTTTTTCAGAGCGCTTCCAAAATCATAACCCTCAAAAAGAGATGGCAACTAGCACTCTCCAAGGGTGTTCACTTTGTTTGCAACTTGCTGTTGTTGTTTGTAACAGTTTACTCACACCTTTTGCTCGTTGCTGCTGGCCTTGAAGCCCCTTTTCTCTATCTTTATGCTTTAGTCTACTTCTTGCAGAGTATAAACTTTGTAAGAATAATAATGAGGCTTTGGCTTTGCTGGAAATGCCGTTCCAAAAATGGGAATCTGGAGTAAAAGACTGTGTTGTATTACACAGTTACTTCACTTCAGACTATTACCAGCTGTACTCAACTCAATTGAGTACAGACACTGGTGTTGAACATGTTACCTTCTTCATCTACAATAAAATTGTTGATGAGCCTGAAGAACATGTCCAAATTCACCCAGTAATGGAACCAATTTATGATGAACCGACGACGACTACTAGCGTGCCTTTGTAAGCACAAGCTGATGAGTACGAACTTATGTACTCATTCGTTTCGGAAGAGACAGGTACGTTAATAGTTAATAGCGTACTTCTTTTTCTTGCTTTCGTGGTATTCTTGCTAGTTACACTAGCCATCCTTACTGCGCTTCGGCAGCAAACCTGAGTCACCTGCTACACGCTGCGAAGCTCCCAATTTGTAATAAGAAAGCGTTCGTGATGTAGCAACAGTGATTTCTTTAGGCAGGTCCTTGATGTCACAGCGTCCTAGATGGTGTCCAGCAATACGAAGATGTCCACGAAGGATCACAGCTCCGATTACGAGTTCACTTTCTAGACGCAGCGTGTAGCAGGTGACTCAGGTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCATTCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAAGTGACAACAGATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATTATGAGGACTTTTAAAGTTTCCATTTGGAATCTTGATTACATCATAAACCTCATAATTAAAAATTTATCTAAGTCACTAACTGAGAATAAATATTCTCAATTAGATGAAGCATGAAAATTATTCTTTTCTTGGCACTGATAACACTCGCTACTTGTGAGCTTTATCACTACCAAGAGTGTGTTAGAGGTACAACAGTACTTTTAAAAGAACCTTGCTCTTCTGGAACATACGAGGGCAATTCACCATTCATCCTCTAGCTGATAACAAATTTGCACTGACTTGCTTTAGCACTCAATGCTTGCTTGTCCTGATGGTGCTAACAAAGACGGCATCATATGGGTTGCAACTGAGGGAGCCTTGAATACACCAAAAGATCACATTGGCACCCGCAATCCTGCTAACAATGCTGCAATCGTGCTACAACTTCCTCAAGGAACAACATTGCCAAAAGGCTTCTACGCAGAAGGGAGCAGAGGCGGCAGTCAAGCCTCTTCTCGTTCCTCATCACGTAGTCGCAACAGTTCAAGATCTGCACAAGAGTAGACTATATATCGTAAACGGAAAAGCGAAAACGTTTATATAGCCCATCTGCCTTGTGTGGTCTGCATGAGTTTAGGCCTGAGTTGAGTCAGCACTGCTCATGGATTGTTGCCTCCCTAGCATTGT

Ivan Aksamentov · Answer 1 · Sat Feb 24 2024 03:10:21 GMT+0800 (China Standard Time)

Hi @coreymeloche,

Nextclade v2 reports that it was unable to align this sequence. This is a hard error. Without alignment it it's impossible to compare the sequence to the reference sequence and to analyse it further in any way. Impossible to find mutations and assign clades.

Nextclade v3, as stated in the changelog, has received improvements in the alignment algorithm and it seems that it was sufficient for this sequence to be aligned now. Nextclade v3 tries to analyze and make sense of it and it's up to you to interpret the results (or to ignore them). Nextclade applies the same analysis to all sequences and tries to assign clades to all sequences. Sequence is still reported as "bad" - you can see that the table row is highlighted in red, QC column reports multiple failed QC rules, other columns show 1200+ mutations, 18k deletions and 102 frame shifts, and sequence view shows numerous defects. This makes very little sense, so the clade assignment should also be questioned, as you rightfully did.

Back to your original question:

Erroneous Clade Assignment or More Refined Tool?

Nextclade v3 is a bit more refined, yes. At least our team believes so :)

Different people might have different opinions, standards and thresholds for what is "good" or "bad" sequences, what is a "correct" or "erroneous" clade assignment. Someone wants to squeeze each useful byte from the precious sequencing juice they've just spent. Others might want only the most reliable information and to throw away all the junk. We don't try to guess and just report as much information as we have, so that users could make an informed decision.

Can you also provide release notes for v2.15?

Nothing changed in 2.15 other than addition of a warning message on main page. The version bump was necessary to be able to deploy the application. Sadly, the changelog for that version has stuck on v2 branch, where Nextclade v2 has found its rest: https://github.com/nextstrain/nextclade/blob/e44d0ed5cf25fe38d22cf2f994098bef987734c4/CHANGELOG.md#nextclade-web-2150-2023-12-15

I now added this information to the old changelog on master branch as well:
https://github.com/nextstrain/nextclade/blob/08759d219826f05b456d59fff343f7c8cd6d4e0a/docs/changes/CHANGELOG.old.md

coreymeloche · Answer 2 · Sat Feb 24 2024 03:17:15 GMT+0800 (China Standard Time)

Thank you for your detailed response, this is very helpful!!

Richard Neher · Answer 3 · Sat Feb 24 2024 19:13:52 GMT+0800 (China Standard Time)

Hi @coreymeloche
just following up on Ivan's message. version 2 was unable to align diverged or very fragmented sequences, while version 3 can. the clade assignment derives from the closest neighbor on the tree. In case of a low quality sequence like the one you posted, this placement on the tree will be essentially meaning less. So for sequences with a very large number of private mutations, the clade call needs to be checked for plausibility using the tree view. Such criteria will likely be different for different viruses. hope this makes sense.
best,
richard

coreymeloche · Answer 4 · Tue Feb 27 2024 03:51:25 GMT+0800 (China Standard Time)

Yes this makes sense, thank you! We will begin using v3.0 for data analysis but use our critical thinking skills and the guidance you outlined on poor sequences. Thank you Ivan and Richard for taking the time to explain!