ДОСТУПНО О СЛОЖНОМ,
или ОБО ВСЁМ, ЧТО ПРИДЁТ В ГОЛОВУ

Авторская страница


Home 

Wladimir Celler 

На каком языке разговаривать с компьютером

        На этом сайте уже есть несколько статей, касающихся в той или иной степени языков общения. На этот раз рассмотрим возможность создания языка, удобного как для общения между людьми, так и для общения с компьютером.

        Начнём с того, что на сегодняшний момент в мире существует около 6500 языков, на которых люди общаются между собой. Однако значительная часть этих языков представлена столь малым количеством их носителей, что практически находится на грани вымирания. По прогнозам специалистов тенденция к вымиранию языков в будущем будет только усиливаться и в течение только нынешнего столетия, если ничего не изменится, может исчезнуть около 90 процентов всех языков. Это означает, что в течение только одного столетия может исчезнуть около 5000 языков (источник здесь).

        С языками, которым пока не грозит исчезновение, тоже не всё просто. В каждом языке ежегодно появляется большое количество новых слов, являющихся интернациональными. Уже сейчас каждый язык содержит большое число слов, понятных на любом другом языке. Таким образом естественным путём происходит унификация средства общения и можно предположить, что когда-нибудь в будущем всё человечество будет говорить на языке, понятном всем.

        Не последнюю роль в этом процессе играют интернет и просто компьютер. Поскольку здесь ведущая роль принадлежит английскому языку, то можно было бы предположить, что он в конце концов и станет мировым языком. Однако по ряду причин этого скорее всего не произойдёт. Подтверждает это утверждение тот факт, что доля страниц в интернете на английском языке снизилась в процентном отношении за период с 1997 до 2002 года с 82,3 до 56,4 процентов, в то время как доля ряда других языков существенно возросла (источник здесь). Первой и главной причиной этого является то, что английский язык не является идеальным языком, как не является идеальным ни один из всех 6500 языков.

        Кстати, винить компьютер в ускорении процесса вымирания языков не следует, поскольку возможно, что компьютер и спасёт вымирающие языки. Можно предположить, что прогресс в области компьютеров в недалёком будущем приведёт к созданию носимых систем, производящих мгновенный синхронный перевод с любого языка на любой другой язык. Тогда можно будет говорить хоть на самом редком языке и не испытывать никаких языковых трудностей в общении с носителями любых других языков. При этом можно предположить, что главная трудность при создании таких систем будет заключаться даже не в том, чтобы научить компьютер распознавать любую речь, а в том, чтобы корректно перевести любую фразу на другой язык. Причиной этого является способность человека вкладывать в одну фразу ещё и дополнительный смысл, а для его распознания без искусственного интеллекта уже не обойтись.

        Для облегчения решения данной задачи мне кажется следует идти не по пути перевода с каждого языка на каждый другой язык, а нужно разработать специальный язык, удобный как для компьютера, так и для человека, и пользоваться этим языком как посредником для перевода. Тогда компьютер будет "знать" хорошо только один этот язык, а для перевода других языков будет использовать соответствующие движки.

        Задача поставлена, давайте теперь представим, как мог бы выглядеть такой язык. Во-первых, понятно, что не следует изобретать что-то принципиально новое, а следует собрать и соединить воедино лучшее из того, что уже имеется. Понятно также, что за основу следует принять языки, уже имеющие в интернете наибольшее распространение. В настоящее время "десятка сильнейших" выглядит следующим образом:

  1. английский
  2. немецкий
  3. французский
  4. японский
  5. испанский
  6. китайский
  7. итальянский
  8. нидерландский
  9. русский
  10. корейский
(источник здесь).

        Кстати, на этих десяти языках говорит около половины населения земного шара. Вообще-то не следует забывать и о других языках - вполне возможно, что из некоторых из них можно почерпнуть ценные идеи. К сожалению, собственные языковые познания автора этих строк очень скромны и создать новый универсальный человеко-компьютерный язык мне не под силу. Вероятно не под силу эта задача будет и для любого другого человека, даже владеющего всеми этими десятью языками. Задача требует участия больших творческих коллективов. Однако кое-какие идеи я могу предложить Вашему вниманию.

1. Начнём с алфавита.
        Родным для компьютера является латинский алфавит, состоящий из 26 букв:
A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z.
        Однако в такой форме он используется только в очень ограниченном числе языков,- ряд других языков либо используют дополнительные символы, либо другие алфавиты. Существенными недостатками этого алфавита являются сложности с целым рядом его букв, которые могут в одном языке произноситься совершенно различно или наоборот разные буквы могут произноситься одинаково, а также недостаточное количество самих букв, из-за чего в большинстве языков приходится использовать дополнительные оригинальные буквы и использовать сложные сочетания букв. Например, слово борщ по правилам немецкого языка можно написать только так - Borschtsch. В этом отношении кириллица, состоящая из 33 букв значительно лучше, хотя с мягким и твёрдым знаками тоже не всё просто. По крайней мере найти соответствия каждой букве латинского алфавита значительно проще, чем обратное действие.
        Однако, по понятным причинам, использование кириллицы в качестве основы нашего языка совершенно нереально. Поэтому в качестве алфавита будем всё-таки использовать символы, имеющиеся на стандартной английской клавиатуре. У русского языка, однако, можно позаимствовать одно очень важное качество, отсутствующее у многих других языков. Заключается оно в том, что написание и произношение любых слов практически всегда соответствуют друг другу. Любые сочетания букв звучат примерно также, как звучит сумма их составляющих. Если сравнить, например с английским языком, то в нём существует масса сочетаний символов, звучащих совершенно по другому в зависимости от различных условий применения. Понятно, что в целях распознания разговорной речи компьютером, первый вариант значительно лучше последнего. Поэтому, если мы заложим в наш язык принцип соответствия произношения написанию, то можем избежать в будущем многих проблем. Лучше всё-таки иметь проблемы с какими-то отдельными языками, чем со всеми языками сразу. Поэтому можно предложить использование следующих букв и символов, а также их сочетаний, каждому из которых соответствуют определённые буквы или их сочетания других языков:

русский немецкий английский испанский
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
а
б
с
д
э
ф
г
х
и
й
к
л
м
н
о
п
ж
р
з
т
у
-
в
ч
ш
ц
a
b
ß
d
e
f,v
g
h,ch
i
j,y
k
l
m
n
o
p
j
r
s
t
u
-
w,v
tsch
sch
c,z
r,u,ar,er,or
b
s,c
d
a
f
g
h
e,i,y,ea
y
k,q,c,ck
l
m
n,ng,kn
o,or
p
j,g
r,wr
z
t
oo,w,u
th
v
ch,tch
-
-
a
b,v,w
s
-
e
f
-
j
i
y
c,k,qu
l
m
n
o
p
-
g,r
z,d
t
u
c
-
ch
-
-
´
^
#

je
jo
ju
ja
kw
ks
aj
au
qa
xa
oj
aj
ь
ъ
ы
щ
е
ё
ю
я
-
-
-
-
-
-
-
-
-
-
-
-
-
ö
ü
ä
q
x
-
-
-
-
eu
ei
-
-
-
-
e
er,ir,ur
u,ew
-
qu
x
i,y
ou,ow
sure
ture
-
-
-
-
-
-
-
-
-
-
-
x
-
-
-
-
oi
ai

        Примеры приведены для четырёх языков, для любых других принцип остаётся одинаковым – по возможности один символ должен соответствовать наиболее близким по звучанию звукам различных языков. При помощи трёх дополнительных символов возможно уточнение оттенков звучания.

2. Некоторые идеи грамматики можно позаимствовать из немецкого языка. Во-первых, не плохо бы иметь более-менее постоянные формы всех слов, не усугублённые многообразием словоформ из-за множества видов склонений и т.п. В немецком языке основную роль в этой сфере играют так называемые артикли: der, die и das, которые показывают род существительных и играют основную роль в их склонении. Это примерно тоже самое, как если бы в русском языке перед каждым существительным применяли слова – эта, это, этот, эти и т.д. При этом сами существительные не изменяются, а изменяются только их артикли. Хотя такой метод и ведёт к некоторому усложнению, поскольку каждому существительному д.б. сопоставлен один из артиклей, что ведёт к дополнительному увеличению числа слов в предложениях, однако позволяет обойтись только минимальным количеством форм существительных. Эта особенность языка позволяет также свободно соединять существительные в сложные слова, которые могут очень точно описывать многие понятия, которые без использования этого метода требуют гораздо большего количества слов. Благодаря этому количество слов в предложениях существенно уменьшается. Все эти качества очень ценны для компьютера.
        Если с грамматикой существительных в немецком языке всё в порядке, то вот про грамматику глагола этого сказать нельзя – она чрезвычайно сложна. Здесь используются сразу два различных метода формообразования глаголов, которые могут применяться параллельно. Один метод в некоторой степени напоминает формообразование русских глаголов, когда для спряжения и для выражения времени действия видоизменяется сам глагол. Другой метод заключается опять же в использовании вспомогательных глаголов, на которые возлагается основная нагрузка. При этом иногда один глагол может иметь до четырёх отдельных частей, стоящих в разных местах предложения. А всего различных форм каждого из глаголов может быть около тридцати. Всё это чрезвычайно сложно и в первую очередь для человека. Тем не менее сама идея очень интересная. Она позволяет иметь в предложениях всегда узнаваемые формы основного глагола, а вся нагрузка по выражению необходимой формы ложится всего на несколько вспомогательных глаголов.
        Если поближе познакомиться с грамматикой немецкого глагола, то становится ясно, что многие формы немецкого глагола дублируют друг друга, а большинство из них применяется очень редко. Реально наиболее часто применяются всего около пяти форм глагола. Всё это означает, что можно всё значительно упростить, оставив саму идею незыблемой. При этом достаточно всего тех же трёх вспомогательных глаголов, а количество составных частей глаголов может не превышать двух.
        Из немецкого же языка можно позаимствовать и порядок слов в предложениях. Если в русском языке можно начинать говорить последовательно подбирая подходящие слова и особо не заботясь о том, что будет в конце, то в немецком языке с самого начала известно какое слово будет последним. Жёсткий порядок слов в предложениях без сомнения полезен для компьютерной идентификации отдельных предложений.

        Мы рассмотрели наиболее сложные составляющие предлагаемого языка. Словарный запас для него можно черпать из самых разных языков, при этом важны в первую очередь длина слов и их звучание в целях их эффективного компьютерного распознавания в случае необходимости. Такой язык вряд ли будет пригоден для сочинения песен, но его назначение скорее напоминает роль латыни в биологии.

PS
1. Примеры слов предлагаемого языка:
  • Ruckij
  • Dojx
  • Ingliy
  • Ecpanol

  • 2. В статье приведены соображения автора, основанные на знании лишь полутора языков, поэтому новый язык вполне может выглядеть и совершенно иначе.




    Дизайн - Красота отвлекает