дилетант широкого профиля
Да простит меня широкая общественность ещё раз.
Как показала практика, вешать всякую хрень в дайрях действительно удобно. Нормальные люди, расслабившись в камерной обстановке, вешают тут порнуху и тесты. Я ничего не имею против порнухи, но, расслабившись, не даю себе труда ржать и с наслаждением занудствую.
В целях экономии ваших нервов всё буду прятать под море.
читать дальше
Уивер: I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text. Концепция interlingva. (1949, идея 1947)
Язык оригинала => язык-посредник (упрощённый язык превода) => язык перевода
Бут и Риченс 1948 год, теория и предварительные эксперименты. Риченс разработал правила разбиения слов на основы и окончания.
1952 IBM Mark II <= IBM и Джорджтаунский универ (джорджтаунский эксперимент) 250 единиц и 6 грамм. правил русс=>англ
До конца 50х пословный перевод без грамматической\стилистической цельности. Бар-Хиллел: невозможность МП в принципе. John was looking for his toy box. Finally he found it. The box was in the PEN. John was very happy. Нужно знание внеязового реала, а этой инфы слишком много, чтобы вводить её в память компа.
=>ALPAC (Automatic Language Processing Advisory Commitee) признал МП нерентабельным
60е Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Мельчук, Апресян (М) => ЭТАП (Л)
70-80е Systran. Японцы работают со схемой interlingva, канадская группа TAUM – систему METEO
78-93 Штаты потратили $20 млн, Европа - $70 млн, Япония - $200 млн
Новая разработка система TM (Translation Memory): принцип накопления. Исходный сегмент сохраняется. При нахождении похожего сегмента выдаётся прежний перевод с указанием процента совпадения. (TRADOS, основана в 1984 г)
90е – новые идеи, основанные на нейронных сетях, концепции коннекционизма (?), статистических методах.
97 ПРОМТовская технология Гигант: многоязыковая поддержка в одной оболочке
МП – полностью машинный перевод
ТМ – подспорье для переводчика (Machine Assisted Human Translation, MAHT)
Контролируемый перевод – контроль входного языка, упрощение его идиом и т.п.
Правила vs образцы (Trados)
Грамматическая верность (ЭТАП, морфемоцентрический подход) vs понятность (ПРОМТ, словоцентрический) (e.g. «go I home» в знач. «иду я домой»)
TRANSFER – подбор структур по системе входного языка
INTERLINGVA – подбор структур из некоего метаязыка; в теории д.б. достаточным, чтобы описать любой язык. Проблема – разработка метаязыка. Реальной системы на этой базе пока ни одной нет.
К.п. работают с фреймовыми предикатными структурами
«рассматриваемые абстрактные слова — это, по-видимому, слова, покрывающие примерно тот круг значений, который получится, если собрать вместе грамматические значения самых разных языков, т. е. как бы принадлежащие к языку вообще», - Жолковский в предисловии к сборнику 64го года. Там же: нужны - толковый словарь для компа; список законов и правил внеязыкового реала, интуитивно понятных челу, но неизвестных компу; алгоритмы пользования словарём.
Там же: семантические определения для разных слов иногда различаются только логическим акцентом. «Сигнал к тому, чтобы развивать ее осмысление в определенном направлении».
«за каждым словом стоит фактически целая типовая ситуация» с имплицитными значениями и своей априорикой, но не все эти значения реализуются в тексте. Часть контекстных слов зачёркивает лишние имплицитные значения и подчёркивает другие из них, сужая и уточняя значение слова в данном конкретном высказывании. Нужно указать степень категоричности и иерархию сильных и слабых имплицитных значений данного слова. <Т.е., смысл текста не равен сумме смыслов слов, входящих в текст. Это не изолирующая грамматика смысла и не агглютинирующая, а, скорее, флективно-инкорпорирующая. Фразеология смысла.>
«отрицание относится не ко всей той ситуации, которая соответствует слову: из высказывания "А не помогает В в С", например, вовсе не следует, что В не прилагает усилий для С, а лишь что А не добавляет к ним своих усилий».
Аотовская группа «Диалинг»
Информационно-ролевой подход: узлы. 1) Разложение на семантические единицы (в т.ч. отношения м-ж семами). 2) Синтез фразы с тж значением на другом язе
1: анализ
1.1 Построение узлов и подбор словесных структур для каждого узла.
При разработке словарной интерпретации фиксируется, какими другими узлами может управлять данный узел.
1.2. Построение графа гипотетических связей на основе грамматических значений. Много лишних гипотез, которые позже отбрасываются.
1.3. Построение деревьев и выбор оптимального дерева с учётом лингвистических параметров. (по Сокирко)
ПРОМТ – скрестить МП и ТМ.
Неязыковая часть:
1. Препроцессор (+ ассоциированная память)
2. Нормализация текста.
Зависит от входного яза:
3. Лексический анализ (+ древесные структуры морфологии и словари)
4. Семантико-синтаксический разбор (+ расширенные сети переходов)
Зависит от входного и выходного язов:
5. Трансфер
Зависит от выходного яза:
6. Синтез (+ выходные морфологические таблицы)
Структура модулей:
Translation engines: перевод и редактирование текста
Translation kernel: синхронизация, обработка форматов
Приложения для обработки текстов на инязах.
Цель МП по Соколовой (ПРОМТ) выгодней рассматривать как «получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система»
Перевод практически всегда идёт в условиях не полностью описанных данных, т.к. яз – живая система. На основе уровней компонентов. Лексические единицы, группы, ПП и СП. ЛЕ – морфологический Трансфер. Группа = главный компонент + всё остальное. ПП анализируется на основе фреймовых предикатных структур. Для каждого входного фрейма есть некоторый закон преобразования в выходной фрейм и соответствующего оформления актантов.
Анализ СП – согласование времён и перевод союзов и союзных слов.
Текст – метод представления знаний.
Формальная грамматика/порождающая грамматика/грамматика Хомского
= <V, W, I, R>, где
V и W — непересекающиеся конечные множества
I — элемент W
R — конечное множество правил вида
и — конечные последовательности элементов V и W
Если правило грамматики и 1, 2, — цепочки из элементов V и W, то говорят, что цепочка 1 2 непосредственно выводима в из 1 2. Если 0, 1, …, n — цепочки и для каждого i= 1, ..., n цепочка i, непосредственно выводима из i-1, то говорят, что n выводима из 0 в . Множество цепочек из элементов V, выводимых в из I, называется языком, порождаемым грамматикой . Если все правила грамматики имеют вид A, где А — элемент W, называется бесконтекстной, или контекстно-свободной. В лингвистической интерпретации элементы V чаще всего представляют собой слова, элементы W — символы грамматических категорий, I — символ категории «предложение». В бесконтекстной грамматике вывод предложения даёт для него дерево составляющих, в котором каждая составляющая состоит из слов, «происходящих» от одного элемента W, так что для каждой составляющей указывается её грамматическая категория. (А. Гладкий, referatu.ru)
Гипотеза А.Я. Шайкевича о том, что слова, связанные друг с другом по смыслу, должны часто встречаться в текстах в непосредственной близости друг от друга; сюда же + Ю.А. Шрейдер о согласованности расстояний между словами в тексте и в тезаурусе. => попытки дескриптивно-дешифровочной реконструкции семантической системы языка. (Гиндин С.И.) www.ruthenia.ru/tiutcheviana/publications/gindi...
Семантические поля
1. Поля Покровского - выделяются на основании совместного применения трех критериев: а) тематической группы (слова относятся к одному и тому же кругу представлений); б) синонимии; в) морфологических связей - группировки по принципу названий деятельности, орудий, способов деятельности и т. д. (слова сгруппированы так, что имеют общие показатели в своей форме - суффиксы и пр. или выражают более сложные отношения, например отглагольные имена существительные и глаголы).
2. Поля Й. Трира - разделяются на лексические и понятийные. Понятийное поле - это обширная система взаимосвязанных понятий, организованных вокруг центрального понятия, например "ум, разум". Лексическое поле образовано каким-либо одним словом и его "семьей слов". Определенное лексическое поле покрывает только часть понятийного поля, другая часть последнего покрыта другим лексическим полем и т. д. Понятийное поле оказывается по форме выражения составленным подобно мозаике. Трир делит весь словарь на поля высшего ранга, затем расчленяет их на поля более низкого ранга, пока не доходит до отдельных слов. Слово играет в его системе подчиненную роль. Введенные принципы Трир подчеркнуто противопоставлял изучению лексики в связи с предметами материального мира. Эта концепция подвергалась резкой критике исследователей разных направлений. Названный принцип полей сохраняет определенное значение при изучении явлений духовной культуры и их выражений в языке.
3. Поля Порцига - "элементарные семантические поля", ядром которых является либо глагол, либо прилагательное, так как они могут быть сказуемым, "выполнять предикативную функцию". Слово "схватить" обязательно предполагает в наличии в языке слова "рука". Но обратное отношение места не имеет. С помощью метода полей Порцига изучается семантическая сочетаемость слова (например, данного существительного со всеми глаголами и прилагательными).
4. Поля ассоциативного типа (например, "хлопья - снег"). Одним из полей ассоциативного типа является, в частности, семантическое поле понятия "музыка" в творчестве А. Блока.
Источник: В. А. Ганзен. Системные описания в психологии. Л., 1984.
azps.ru/list/11c.html
По Википедии, семантическое поле - объединение языковых единиц, проводимое по смысловому признаку. Поля делятся на синонимические и гипонимические. В первых доминанта входит в поле наравне с прочими единицами, во вторых - возвышается над общим рядом.
Слово в языке (по Википедии):
- фонетически и семантически оформлено
- несёт номинативную функцию
- воспроизводимо
- синтаксически самостоятельно
- внутренне линейно организованно
- непроницаемо
- цельнооформлено
- валентно.
<?нифига же не подходит для инкорпорирующих!>
В математике слово (там же):
любой конечный упорядоченный набор символов данного алфавита.
Машинное слово (там же):
машино- и платформозависимая единица, равная разрядности регистров процессора и/или шины.
2n-1= максимальное значение слова длиной n битов.
Частотный словарь. Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи.
de: Häufigkeitswörterbuch. en: frequency vocabulary.
verstka.otrok.ru/terms/t663.html
Как показала практика, вешать всякую хрень в дайрях действительно удобно. Нормальные люди, расслабившись в камерной обстановке, вешают тут порнуху и тесты. Я ничего не имею против порнухи, но, расслабившись, не даю себе труда ржать и с наслаждением занудствую.
В целях экономии ваших нервов всё буду прятать под море.
читать дальше
Уивер: I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text. Концепция interlingva. (1949, идея 1947)
Язык оригинала => язык-посредник (упрощённый язык превода) => язык перевода
Бут и Риченс 1948 год, теория и предварительные эксперименты. Риченс разработал правила разбиения слов на основы и окончания.
1952 IBM Mark II <= IBM и Джорджтаунский универ (джорджтаунский эксперимент) 250 единиц и 6 грамм. правил русс=>англ
До конца 50х пословный перевод без грамматической\стилистической цельности. Бар-Хиллел: невозможность МП в принципе. John was looking for his toy box. Finally he found it. The box was in the PEN. John was very happy. Нужно знание внеязового реала, а этой инфы слишком много, чтобы вводить её в память компа.
=>ALPAC (Automatic Language Processing Advisory Commitee) признал МП нерентабельным
60е Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Мельчук, Апресян (М) => ЭТАП (Л)
70-80е Systran. Японцы работают со схемой interlingva, канадская группа TAUM – систему METEO
78-93 Штаты потратили $20 млн, Европа - $70 млн, Япония - $200 млн
Новая разработка система TM (Translation Memory): принцип накопления. Исходный сегмент сохраняется. При нахождении похожего сегмента выдаётся прежний перевод с указанием процента совпадения. (TRADOS, основана в 1984 г)
90е – новые идеи, основанные на нейронных сетях, концепции коннекционизма (?), статистических методах.
97 ПРОМТовская технология Гигант: многоязыковая поддержка в одной оболочке
МП – полностью машинный перевод
ТМ – подспорье для переводчика (Machine Assisted Human Translation, MAHT)
Контролируемый перевод – контроль входного языка, упрощение его идиом и т.п.
Правила vs образцы (Trados)
Грамматическая верность (ЭТАП, морфемоцентрический подход) vs понятность (ПРОМТ, словоцентрический) (e.g. «go I home» в знач. «иду я домой»)
TRANSFER – подбор структур по системе входного языка
INTERLINGVA – подбор структур из некоего метаязыка; в теории д.б. достаточным, чтобы описать любой язык. Проблема – разработка метаязыка. Реальной системы на этой базе пока ни одной нет.
К.п. работают с фреймовыми предикатными структурами
«рассматриваемые абстрактные слова — это, по-видимому, слова, покрывающие примерно тот круг значений, который получится, если собрать вместе грамматические значения самых разных языков, т. е. как бы принадлежащие к языку вообще», - Жолковский в предисловии к сборнику 64го года. Там же: нужны - толковый словарь для компа; список законов и правил внеязыкового реала, интуитивно понятных челу, но неизвестных компу; алгоритмы пользования словарём.
Там же: семантические определения для разных слов иногда различаются только логическим акцентом. «Сигнал к тому, чтобы развивать ее осмысление в определенном направлении».
«за каждым словом стоит фактически целая типовая ситуация» с имплицитными значениями и своей априорикой, но не все эти значения реализуются в тексте. Часть контекстных слов зачёркивает лишние имплицитные значения и подчёркивает другие из них, сужая и уточняя значение слова в данном конкретном высказывании. Нужно указать степень категоричности и иерархию сильных и слабых имплицитных значений данного слова. <Т.е., смысл текста не равен сумме смыслов слов, входящих в текст. Это не изолирующая грамматика смысла и не агглютинирующая, а, скорее, флективно-инкорпорирующая. Фразеология смысла.>
«отрицание относится не ко всей той ситуации, которая соответствует слову: из высказывания "А не помогает В в С", например, вовсе не следует, что В не прилагает усилий для С, а лишь что А не добавляет к ним своих усилий».
Аотовская группа «Диалинг»
Информационно-ролевой подход: узлы. 1) Разложение на семантические единицы (в т.ч. отношения м-ж семами). 2) Синтез фразы с тж значением на другом язе
1: анализ
1.1 Построение узлов и подбор словесных структур для каждого узла.
При разработке словарной интерпретации фиксируется, какими другими узлами может управлять данный узел.
1.2. Построение графа гипотетических связей на основе грамматических значений. Много лишних гипотез, которые позже отбрасываются.
1.3. Построение деревьев и выбор оптимального дерева с учётом лингвистических параметров. (по Сокирко)
ПРОМТ – скрестить МП и ТМ.
Неязыковая часть:
1. Препроцессор (+ ассоциированная память)
2. Нормализация текста.
Зависит от входного яза:
3. Лексический анализ (+ древесные структуры морфологии и словари)
4. Семантико-синтаксический разбор (+ расширенные сети переходов)
Зависит от входного и выходного язов:
5. Трансфер
Зависит от выходного яза:
6. Синтез (+ выходные морфологические таблицы)
Структура модулей:
Translation engines: перевод и редактирование текста
Translation kernel: синхронизация, обработка форматов
Приложения для обработки текстов на инязах.
Цель МП по Соколовой (ПРОМТ) выгодней рассматривать как «получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система»
Перевод практически всегда идёт в условиях не полностью описанных данных, т.к. яз – живая система. На основе уровней компонентов. Лексические единицы, группы, ПП и СП. ЛЕ – морфологический Трансфер. Группа = главный компонент + всё остальное. ПП анализируется на основе фреймовых предикатных структур. Для каждого входного фрейма есть некоторый закон преобразования в выходной фрейм и соответствующего оформления актантов.
Анализ СП – согласование времён и перевод союзов и союзных слов.
Текст – метод представления знаний.
Формальная грамматика/порождающая грамматика/грамматика Хомского
= <V, W, I, R>, где
V и W — непересекающиеся конечные множества
I — элемент W
R — конечное множество правил вида
и — конечные последовательности элементов V и W
Если правило грамматики и 1, 2, — цепочки из элементов V и W, то говорят, что цепочка 1 2 непосредственно выводима в из 1 2. Если 0, 1, …, n — цепочки и для каждого i= 1, ..., n цепочка i, непосредственно выводима из i-1, то говорят, что n выводима из 0 в . Множество цепочек из элементов V, выводимых в из I, называется языком, порождаемым грамматикой . Если все правила грамматики имеют вид A, где А — элемент W, называется бесконтекстной, или контекстно-свободной. В лингвистической интерпретации элементы V чаще всего представляют собой слова, элементы W — символы грамматических категорий, I — символ категории «предложение». В бесконтекстной грамматике вывод предложения даёт для него дерево составляющих, в котором каждая составляющая состоит из слов, «происходящих» от одного элемента W, так что для каждой составляющей указывается её грамматическая категория. (А. Гладкий, referatu.ru)
Гипотеза А.Я. Шайкевича о том, что слова, связанные друг с другом по смыслу, должны часто встречаться в текстах в непосредственной близости друг от друга; сюда же + Ю.А. Шрейдер о согласованности расстояний между словами в тексте и в тезаурусе. => попытки дескриптивно-дешифровочной реконструкции семантической системы языка. (Гиндин С.И.) www.ruthenia.ru/tiutcheviana/publications/gindi...
Семантические поля
1. Поля Покровского - выделяются на основании совместного применения трех критериев: а) тематической группы (слова относятся к одному и тому же кругу представлений); б) синонимии; в) морфологических связей - группировки по принципу названий деятельности, орудий, способов деятельности и т. д. (слова сгруппированы так, что имеют общие показатели в своей форме - суффиксы и пр. или выражают более сложные отношения, например отглагольные имена существительные и глаголы).
2. Поля Й. Трира - разделяются на лексические и понятийные. Понятийное поле - это обширная система взаимосвязанных понятий, организованных вокруг центрального понятия, например "ум, разум". Лексическое поле образовано каким-либо одним словом и его "семьей слов". Определенное лексическое поле покрывает только часть понятийного поля, другая часть последнего покрыта другим лексическим полем и т. д. Понятийное поле оказывается по форме выражения составленным подобно мозаике. Трир делит весь словарь на поля высшего ранга, затем расчленяет их на поля более низкого ранга, пока не доходит до отдельных слов. Слово играет в его системе подчиненную роль. Введенные принципы Трир подчеркнуто противопоставлял изучению лексики в связи с предметами материального мира. Эта концепция подвергалась резкой критике исследователей разных направлений. Названный принцип полей сохраняет определенное значение при изучении явлений духовной культуры и их выражений в языке.
3. Поля Порцига - "элементарные семантические поля", ядром которых является либо глагол, либо прилагательное, так как они могут быть сказуемым, "выполнять предикативную функцию". Слово "схватить" обязательно предполагает в наличии в языке слова "рука". Но обратное отношение места не имеет. С помощью метода полей Порцига изучается семантическая сочетаемость слова (например, данного существительного со всеми глаголами и прилагательными).
4. Поля ассоциативного типа (например, "хлопья - снег"). Одним из полей ассоциативного типа является, в частности, семантическое поле понятия "музыка" в творчестве А. Блока.
Источник: В. А. Ганзен. Системные описания в психологии. Л., 1984.
azps.ru/list/11c.html
По Википедии, семантическое поле - объединение языковых единиц, проводимое по смысловому признаку. Поля делятся на синонимические и гипонимические. В первых доминанта входит в поле наравне с прочими единицами, во вторых - возвышается над общим рядом.
Слово в языке (по Википедии):
- фонетически и семантически оформлено
- несёт номинативную функцию
- воспроизводимо
- синтаксически самостоятельно
- внутренне линейно организованно
- непроницаемо
- цельнооформлено
- валентно.
<?нифига же не подходит для инкорпорирующих!>
В математике слово (там же):
любой конечный упорядоченный набор символов данного алфавита.
Машинное слово (там же):
машино- и платформозависимая единица, равная разрядности регистров процессора и/или шины.
2n-1= максимальное значение слова длиной n битов.
Частотный словарь. Языковой словарь, содержащий перечень слов, расположенных по степени их употребления в речи.
de: Häufigkeitswörterbuch. en: frequency vocabulary.
verstka.otrok.ru/terms/t663.html
@темы: машинный перевод, лингвистическое, компы
ап: всё прочитал, почти всё понял, понравилось)
Я, собственно, за порнухой на дайри и пришла. :>>> Сказала бы, что только за порнухой, но есть пара исключений. Знаешь, сколько тут интересных слэшеавторов бродит? :>>>
Картинку я знаю, но с подписью не видела, спасибо. Однако рекомендую флудить во флудных постах. а не под конспектами.
как ни удивительно но этот пост содержит инфу для моего диплома... как позже выяснила, что диари - это сеть дневников, так вообще смешно стало, ну да ладно.....
а инфу которую я ищу, очень мало в нете, поэтому приходится даже конспектам уделять внимание, собираю по крошкам....
по теме: в Ваших конспектах, уважаемый автор, не мелькало ли связывющих моментов, каким образом технология Example-based, возникшая в Японии (по моим данным) перекочевала в Германию, где в 1984 г (в этом же году публично япошки объявили о Example-based переводе) была основана прога TRADOS, основанная на Example-based технологии.....
Знаете сайт www.mt-archive.info/ ? Архив публикаций по машинному переводу начиная с Уивера. Вот в этом разделе: www.mt-archive.info/organizations-4.htm - материалы расположены по странам, организациям и хронологии. Попробуйте порыться там.
Вчера нашла буржуйский сайт профессиональных переводчиков: proz.com. Как видно там тусуют переводчики чуть ли ни со всего мира. Там же и запостила на форуме свою темку www.proz.com/forum/translation_theory_and_pract...
Очень эффективно оказалось, вон уже 2 толковых ответа %)