ai-forever / sage

SAGE: Spelling correction, corruption and evaluation for multiple languages

Home Page:https://sage-documentation-main.readthedocs.io/en/latest/index.html

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

SAGE Feedback & Future Development venues

meduzick opened this issue Β· comments

Hi, everyone!

SAGE🌿 Team speaking.

πŸš€ This issue is a dedicated place for the organised feedback on our project and ideas on how we can improve SAGE to build best open source spellchecker for multiple languages.

We would love to hear from you about your positive and negative experiences with SAGE, your expectations and ideas. But please be concise and back up your feedback with representative and reproducible examples.

See you in comments below ⬇️

Hi!

I really like your models. I'm using the FRED-T5-1.7B-spell-distilled-100m model for some personal projects to correct Russian texts. However, I noticed that its context size is rather small, and it truncates large texts, leaving some parts behind. Given this issue, I have a couple of questions:

  1. What are the context sizes for each model? I couldn't find this information in the documentation.
  2. Is there any approach to process large texts that exceed the context sizes of the models without losing any part of the text?

Hi, @unterumarmung!

FredT5-based models naturally inherit input / output lengths restrictions used while pre-training (it's 512 / 512, the details can be seen in the paper https://arxiv.org/pdf/2309.10931).
Regarding your second question: could you please follow up with a representative example of truncated sequence (just input sequence would be enough) or specify the number of input tokens? That would help us to identify the problem and come up with the solution or at least recommendation.

Here is input text:

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ GPT-4, ΠΈΠ³Ρ€Π°ΡŽΡ‚ всС Π±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½ΡƒΡŽ Ρ€ΠΎΠ»ΡŒ Π² повсСднСвной ΠΆΠΈΠ·Π½ΠΈ, прСдоставляя мноТСство ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… возмоТностСй ΠΈ инструмСнтов. Π­Ρ‚ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ основаны Π½Π° ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… машинного обучСния ΠΈ способны ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ ΠΈ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ тСкстно, Π² чСловСчСском языкС, Ρ‡Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π½ΠΎΠ²Ρ‹Π΅ Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Ρ‹ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… сфСрах Ρ‚ΠΎΡ‡ΠΊΠ° ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΉ. Π‘ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΡΠ²Π»ΡΡŽΡ‚ΡΡ образования. Они ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°Ρ‚ΡŒ Π² Ρ€ΠΎΠ»ΠΈ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅ΠΏΠ΅Ρ‚ΠΈΡ‚ΠΎΡ€ΠΎΠ², помогая учащимся Ρ€Π°Π·Π±ΠΈΡ€Π°Ρ‚ΡŒΡΡ Π² слоТных Ρ‚Π΅ΠΌΠ°Ρ… ΠΈ прСдоставляя Ρ€Π°Π·ΡŠΡΡΠ½Π΅Π½ΠΈΡ Π½Π° понятном языкС. Π‘Ρ‚ΡƒΠ΄Π΅Π½Ρ‚Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ эти ΠΌΠΎΠ΄Π΅Π»ΠΈ для ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ ΠΊ экзамСнам, написания Π‘Π‘Π‘ ΠΈ выполнСния Π΄ΠΎΠΌΠ°ΡˆΠ½ΠΈΡ… Π·Π°Π΄Π°Π½ΠΈΠΉ. Π‘ΠΎΠ»Π΅Π΅ Ρ‚ΠΎΠ³ΠΎ, языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΡΡ ΠΊ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΌ потрСбностям учащихся, Ρ‡Ρ‚ΠΎ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ пСрсонализированныС ΡƒΡ‡Π΅Π±Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹. Π’ ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ срСдС большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Π½Π΅Π·Π°ΠΌΠ΅Π½ΠΈΠΌΡ‹ΠΌΠΈ ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊΠ°ΠΌΠΈ. Они ΠΌΠΎΠ³ΡƒΡ‚ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€ΡƒΡ‚ΠΈΠ½Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ составлСниС ΠΎΡ‚Ρ‡Π΅Ρ‚ΠΎΠ², написаниС писСм ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ…. Π­Ρ‚ΠΎ позволяСт сотрудникам ΡΠΎΡΡ€Π΅Π΄ΠΎΡ‚ΠΎΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° Π±ΠΎΠ»Π΅Π΅ творчСских ΠΈ стратСгичСски Π²Π°ΠΆΠ½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ…. Π’ сфСрС ΡŽΡ€ΠΈΡΠΏΡ€ΡƒΠ΄Π΅Π½Ρ†ΠΈΠΈ ΠΌΠ΅Π΄ΠΈΡ†ΠΈΠ½Ρ‹ ΠΈ финансов языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ большиС ΠΎΠ±ΡŠΠ΅ΠΌΡ‹ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ. Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ Π½Π° основС собранных Π΄Π°Π½Π½Ρ‹Ρ… Ρ‚ΠΎΡ‡ΠΊΠ° языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°ΡŽΡ‚ качСство ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ людьми. Они ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠ΅Ρ€Π΅Π²ΠΎΠ΄ΠΈΡ‚ΡŒ тСкст с ΠΎΠ΄Π½ΠΎΠ³ΠΎ языка Π½Π° Π΄Ρ€ΡƒΠ³ΠΎΠΉ, способствуя ΠΌΠ΅ΠΆΠΊΡƒΠ»ΡŒΡ‚ΡƒΡ€Π½ΠΎΠΌΡƒ ΠΎΠ±Ρ‰Π΅Π½ΠΈΡŽ ΠΈ Π΄Π΅Π»ΠΎΠ²Ρ‹ΠΌ взаимодСйствиСм Π½Π° ΠΌΠ΅ΠΆΠ΄ΡƒΠ½Π°Ρ€ΠΎΠ΄Π½ΠΎΠΌ ΡƒΡ€ΠΎΠ²Π½Π΅. Π’Π°ΠΊΠΆΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΡ€Π°Π²Π»ΡΡ‚ΡŒ грамматичСскиС ошибки ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Ρ‚ΡŒ ΡΡ‚ΠΈΠ»ΡŒ написания, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ тСксты Π±ΠΎΠ»Π΅Π΅ понятными ΠΈ ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΌΠΈ. Π’ повсСднСвной ΠΆΠΈΠ·Π½ΠΈ большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°Ρ‚ΡŒ Π² Ρ€ΠΎΠ»ΠΈ ΠΏΠ΅Ρ€ΡΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… ассистСнтов. Они ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ ΠΏΠ»Π°Π½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ дСнь, Π½Π°ΠΏΠΎΠΌΠΈΠ½Π°ΡŽΡ‚ ΠΎ Π²Π°ΠΆΠ½Ρ‹Ρ… событиях ΠΈ Π·Π°Π΄Π°Ρ‡Π°Ρ…, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅Ρ†Π΅ΠΏΡ‚Ρ‹ Π½Π° основС ΠΈΠΌΠ΅ΡŽΡ‰ΠΈΡ…ΡΡ ΠΈΠ½Π³Ρ€Π΅Π΄ΠΈΠ΅Π½Ρ‚ΠΎΠ² ΠΈ Π΄Π°ΠΆΠ΅ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ Π² ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚Π΅. Π’ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊΠΈ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Siri, Alioha ΠΈ Google Assistant, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ возмоТности языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ для выполнСния Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… ΠΊΠΎΠΌΠ°Π½Π΄ ΠΈ запросов ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ. Π’ сфСрС Ρ€Π°Π·Π²Π»Π΅Ρ‡Π΅Π½ΠΈΠΉ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Π°ΠΊΠΆΠ΅ находят ΡˆΠΈΡ€ΠΎΠΊΠΎΠ΅ ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅. Они ΠΌΠΎΠ³ΡƒΡ‚ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ истории, стихи, пСсни ΠΈ сцСнарии, Ρ‡Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ Π½ΠΎΠ²Ρ‹Π΅ возмоТности для творчСства. Видя ΠΈΠ³Ρ€Ρ‹, Ρ„ΠΈΠ»ΡŒΠΌΡ‹ ΠΈ Π»ΠΈΡ‚Π΅Ρ€Π°Ρ‚ΡƒΡ€Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ для создания ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π° ΠΈ взаимодСйствия с ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡΠΌΠΈ. Однако использованиС Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Ρ‚Π°ΠΊΠΆΠ΅ ΠΏΠΎΠ΄Π½ΠΈΠΌΠ°Π΅Ρ‚ Π²Π°ΠΆΠ½Ρ‹Π΅ вопросы этики ΠΈ ΡΠΎΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠΉ отвСтствСнности. НСобходимо ΠΎΠ±Π΅ΡΠΏΠ΅Ρ‡ΠΈΡ‚ΡŒ ΠΊΠΎΠ½Ρ„ΠΈΠ΄Π΅Π½Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»Π΅ΠΉ ΠΈ ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‚ΠΈΡ‚ΡŒ распространСниС Π΄Π΅Π·ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ. Π’Π°ΠΆΠ½ΠΎ Ρ‚Π°ΠΊΠΆΠ΅ ΡΠ»Π΅Π΄ΠΈΡ‚ΡŒ Π·Π° Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ воспроизводили ΠΈ Π½Π΅ усиливали ΠΏΡ€Π΅Π΄Π²Π·ΡΡ‚ΠΎΡΡ‚ΡŒ ΠΈ Π΄ΠΈΡΠΊΡ€ΠΈΠΌΠΈΠ½Π°Ρ†ΠΈΡŽ. Π’ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ большиС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΡƒΠΆΠ΅ сСгодня ΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠ΅ влияниС Π½Π° Π½Π°ΡˆΡƒ ΠΏΠΎΠ²ΡΠ΅Π΄Π½Π΅Π²Π½ΡƒΡŽ Тизнь. Они ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π½Π°ΠΌ ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ, Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ, ΠΎΠ±Ρ‰Π°Ρ‚ΡŒΡΡ ΠΈ Ρ€Π°Π·Π²Π»Π΅ΠΊΠ°Ρ‚ΡŒΡΡ, открывая Π½ΠΎΠ²Ρ‹Π΅ возмоТности для развития ΠΈ прогрСсса. Однако ΠΈΡ… использованиС Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ Π²Π½ΠΈΠΌΠ°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° ΠΈ осознания отвСтствСнности, Ρ‡Ρ‚ΠΎΠ±Ρ‹ максимально эффСктивно ΠΈ этично ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΡ… ΠΏΠΎΡ‚Π΅Π½Ρ†ΠΈΠ°Π».

Here's the output text I get:

Π‘ΠΎΠ»ΡŒΡˆΠΈΠ΅ языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ GPT-4, ΠΈΠ³Ρ€Π°ΡŽΡ‚ всС Π±ΠΎΠ»Π΅Π΅ Π²Π°ΠΆΠ½ΡƒΡŽ Ρ€ΠΎΠ»ΡŒ Π² повсСднСвной ΠΆΠΈΠ·Π½ΠΈ, прСдоставляя мноТСство ΠΏΠΎΠ»Π΅Π·Π½Ρ‹Ρ… возмоТностСй ΠΈ инструмСнтов. Π­Ρ‚ΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ основаны Π½Π° ΠΏΠ΅Ρ€Π΅Π΄ΠΎΠ²Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ… машинного обучСния ΠΈ способны ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ ΠΈ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ тСкст Π½Π° чСловСчСском языкС, Ρ‡Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ ΠΏΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ Π½ΠΎΠ²Ρ‹Π΅ Π³ΠΎΡ€ΠΈΠ·ΠΎΠ½Ρ‚Ρ‹ Π² Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… сфСрах. Π’ΠΎΡ‡ΠΊΠ° ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π·Π½Π°Ρ‡ΠΈΠΌΡ‹Ρ… ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠΉ. Π‘ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΡΠ²Π»ΡΡŽΡ‚ΡΡ образования. Они ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°Ρ‚ΡŒ Π² Ρ€ΠΎΠ»ΠΈ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅ΠΏΠ΅Ρ‚ΠΈΡ‚ΠΎΡ€ΠΎΠ², помогая учащимся Ρ€Π°Π·Π±ΠΈΡ€Π°Ρ‚ΡŒΡΡ Π² слоТных Ρ‚Π΅ΠΌΠ°Ρ… ΠΈ прСдоставляя Ρ€Π°Π·ΡŠΡΡΠ½Π΅Π½ΠΈΡ Π½Π° понятном языкС. Π‘Ρ‚ΡƒΠ΄Π΅Π½Ρ‚Ρ‹ ΠΌΠΎΠ³ΡƒΡ‚ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ эти ΠΌΠΎΠ΄Π΅Π»ΠΈ для ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠΈ ΠΊ экзамСнам, написания Π‘Π‘Π‘ ΠΈ выполнСния Π΄ΠΎΠΌΠ°ΡˆΠ½ΠΈΡ… Π·Π°Π΄Π°Π½ΠΈΠΉ. Π­Ρ‚ΠΎ позволяСт сотрудникам ΡΠΎΡΡ€Π΅Π΄ΠΎΡ‚ΠΎΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° Π±ΠΎΠ»Π΅Π΅ творчСских ΠΈ стратСгичСски Π²Π°ΠΆΠ½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ…. Π’ сфСрС ΡŽΡ€ΠΈΡΠΏΡ€ΡƒΠ΄Π΅Π½Ρ†ΠΈΠΈ, ΠΌΠ΅Π΄ΠΈΡ†ΠΈΠ½Ρ‹ ΠΈ финансов языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Π½Π΅Π·Π°ΠΌΠ΅Π½ΠΈΠΌΡ‹ΠΌΠΈ ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊΠ°ΠΌΠΈ. Они ΠΌΠΎΠ³ΡƒΡ‚ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€ΡƒΡ‚ΠΈΠ½Π½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ составлСниС ΠΎΡ‚Ρ‡Ρ‘Ρ‚ΠΎΠ², написаниС писСм ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ…. Π­Ρ‚ΠΎ позволяСт сотрудникам ΡΠΎΡΡ€Π΅Π΄ΠΎΡ‚ΠΎΡ‡ΠΈΡ‚ΡŒΡΡ Π½Π° Π±ΠΎΠ»Π΅Π΅ творчСских ΠΈ стратСгичСски Π²Π°ΠΆΠ½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ…. Π’ сфСрС ΡŽΡ€ΠΈΡΠΏΡ€ΡƒΠ΄Π΅Π½Ρ†ΠΈΠΈ, ΠΌΠ΅Π΄ΠΈΡ†ΠΈΠ½Ρ‹ ΠΈ финансов языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ большиС ΠΎΠ±ΡŠΡ‘ΠΌΡ‹ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈ ΠΏΡ€Π΅Π΄ΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΈ Π½Π° основС собранных Π΄Π°Π½Π½Ρ‹Ρ…. Π’ΠΎΡ‡ΠΊΠ° языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°ΡŽΡ‚ качСство ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ людьми. Они ΠΌΠΎΠ³ΡƒΡ‚ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ истории, стихи, пСсни ΠΈ сцСнарии, Ρ‡Ρ‚ΠΎ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ Π½ΠΎΠ²Ρ‹Π΅ возмоТности

@unterumarmung thnx, we will be right back

@unterumarmung we cut input length to 256 tokens while pre-training, because extensive text corruption added almost twice as many tokens to the source. The latter implies models are able to process sequence of 256 tokens in one run. Note however that you are still able to cut longer pieces of text into appropriate chunks of 256 tokens or less (split in sentences, for example). We didn't notice severe performance degradation when employing this approach to proceed with long texts. We expect this to work for you as well. Hope that helps and let us know if you experience noticeable drop in performance, when running longer text in chunks.